Nieuws

Serving DeepSeek-V4: waarom miljoen-token context een probleem is voor inferentie-systemen

DeepSeek-V4 introduceert een innovatieve aanpak voor het verwerken van miljoen-token context, wat een nieuwe uitdaging creëert voor inferentie-systemen. Het model gebruikt een hybride aandachtssamenstelling die context comprimeert voordat deze wordt opgeslagen in de key-value (KV) cache, en combineert gecomprimeerde en lokale aandachtspaden. Dit verandert hoe prefixhergebruik werkt en vereist meerdere KV-cache-layouts voor het beheren van verschillende aandachtspaden. De efficiëntie van DeepSeek-V4 is afhankelijk van de samenwerking tussen het model, het inferentie-engine, de kernels en de NVidia Blackwell-platform. Het artikel bespreekt ook welke werkbelastingen het meeste baat hebben bij DeepSeek-V4, zoals lange context, decode-intensieve taken en RL-rollouts, en waarom NVidia HGX B200 gekozen is als platform voor het uitvoeren van DeepSeek-V4.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel