Det kinesiska AI-företaget Deepseek har nyligen avslöjat en innovativ metod som kallas Manifold-Constrained Hyper-Connections (mHC). Denna teknik syftar till att möjliggöra en mer effektiv och kostnadseffektiv träning av stora språkmodeller, enligt rapporter från South China Morning Post.
Metoden är en vidareutveckling av Hyper-Connections, som först introducerades av Bytedance under 2024. Den bygger på den etablerade ResNet-arkitekturen som utvecklades av Microsoft Research Asia.
Enligt Deepseek erbjuder mHC en stabilare och mer skalbar träningsprocess utan att öka de beräkningsmässiga kostnaderna. Detta uppnås genom specifika optimeringar på infrastrukturell nivå. Forskarna har genomfört tester av tekniken på modeller som innehåller upp till 27 miljarder parametrar, med positiva utfall.
Experter som South China Morning Post har intervjuat menar att den nya metoden kan vara en indikation på det kommande stora modellsläppet från Deepseek. Företaget debuterade sin uppmärksammade R1-modell i samband med det kinesiska nyåret 2025.
