Deepseeks nya mHC-metod effektiviserar AI-träning

Det kinesiska AI-företaget Deepseek har nyligen introducerat en innovativ metod, Manifold-Constrained Hyper-Connections (mHC), som syftar till att förbättra effektiviteten och kostnadseffektiviteten vid träning av stora språkmodeller. Enligt en rapport från South China Morning Post är mHC en vidareutveckling av den tidigare tekniken Hyper-Connections, som utvecklades av Bytedance under 2024.

Den nya metoden bygger på den klassiska ResNet-arkitekturen från Microsoft Research Asia och erbjuder stabilare och mer skalbar träning av modeller utan att öka beräkningskostnaderna. Detta uppnås genom specifika optimeringar på infrastrukturnivå. Forskarna har testat den nya tekniken på språkmodeller med upp till 27 miljarder parametrar och fått positiva resultat.

Experter som har talat med South China Morning Post indikerar att den nya metoden kan vara en försmak av Deepseeks kommande stora modellsläpp. Företaget är känt för sin uppmärksammade R1-modell, som lanserades i samband med det kinesiska nyåret 2025.