Nieuws

DeepSeek V4 mHC uitgelegd

Het artikel legt de Manifold-Constrained Hyper-Connections (mHC) in DeepSeek V4 uit met visuele uitleg en korte animaties. mHC vervangt de residu-verbindingen in de transformerblokken door meerdere parallelle residustromen om de training te stabiliseren. Het artikel behandelt de architectuur, intuïtie en toepassing van mHC in de aandachts- en MoE-blokken.

Bron: Towards AI

Originele taal: [en]

Lees hier het originele artikel

Dossier: