Nieuws

Google lanceert MTP-drafters voor Gemma 4: 3x snellere inferentie zonder kwaliteitsverlies

Google heeft Multi-Token Prediction (MTP) drafters voor de Gemma 4-modellen gelanceerd, die de inferentiesnelheid met tot 3x verhogen zonder kwaliteitsverlies. De techniek maakt gebruik van speculatieve decoding, waarbij een lichtgewicht draftermodel meerdere tokens tegelijk voorspelt en een zwaar model deze in één keer controleert. Dit vermindert de latente bottleneck door het geheugenbandwidth te optimaliseren. De MTP-architectuur maakt gebruik van de KV-cache van het doelmodel en introduceert een clusteringtechniek voor edge-modellen, waardoor de generatie sneller wordt op beperkte hardware. De MTP-drafters zijn beschikbaar onder de Apache 2.0 licentie, met modelgewichten op Hugging Face en Kaggle.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel