Nieuws

DeepSeek V4 versnelt inferentie met tot 85% dankzij nieuwe speculatieve decoderingstechniek

DeepSeek heeft een nieuw speculatief decoderingframework uitgebracht dat de inferentiesnelheid van grote taalmodellen aanzienlijk verhoogt. Het systeem combineert semi-autoregressieve token generatie met op vertrouwen gebaseerde verificatieplanning, waardoor de tekstgeneratie per gebruiker met 60 tot 85 procent wordt versneld. De methode presteert beter dan bestaande technieken zoals Eagle3 en DFlash op benchmarks voor wiskundig redeneren, code genereren en chat. DeepSeek heeft de implementatie open-source beschikbaar gemaakt via GitHub en Hugging Face, inclusief checkpoints voor de previewmodellen van DeepSeek-V4.

Bron: Analytics India Magazine

Originele taal: [en-us]

Lees hier het originele artikel

Dossier:

DeepSeek, Huawei Ascend en China's AI-stack