Nieuws

DeepSeek-V4 en de architectuur van miljoen-tokens intelligentie

DeepSeek heeft zijn v4-versie van het model gelanceerd, die niet alleen een contextvenster van een miljoen tokens ondersteunt, maar ook een dieper inzicht biedt in de architectuur van langdurig redeneren. Het model is ontworpen met de kernstelling dat miljoen-tokens intelligentie meer vereist dan alleen het schalen van de Transformer-architectuur. DeepSeek-V4 introduceert een nieuwe geheugenstructuur, nieuwe aandachtstechnieken, nieuwe trainingssystemen, nieuwe optimisatoren, nieuwe kwantisatievormen en een dienststack die de economie van inferentie kan overleven. Het artikel benadrukt dat het model een systemenpaper is, die de praktische toepassing van langdurig redeneren mogelijk maakt.

Bron: TheSequence

Originele taal: [en]

Lees hier het originele artikel

Dossier:

DeepSeek, Huawei Ascend en China's AI-stack