Nieuws

DFlash versnelt speculatieve decodering door hele tokenblokken parallel te genereren, tot 15x hogere doorvoer op NVIDIA Blackwell

Onderzoekers van UC San Diego hebben DFlash geïntroduceerd, een lichtgewicht blokdiffusiemodel dat speculatieve decodering versnelt door in één voorwaartse passage een volledig tokenblok voor te stellen. Dit levert tot 6x versnelling op voor modellen zoals Qwen3-8B, en op NVIDIA Blackwell tot 15x hogere doorvoer voor gpt-oss-120b. DFlash injecteert verborgen kenmerken van het doelmodel in de KV-cache van elke laag van het conceptmodel, waardoor acceptatielengte schaalt met diepte.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel