Nieuws

Google versnelt Gemini Nano-modellen op Pixel met bevroren Multi-Token Prediction

Google introduceert een methode om Multi-Token Prediction (MTP) te retrofitten op bestaande, 'bevroren' Gemini Nano v3-modellen voor Pixel 9 en 10. Deze aanpak versnelt inferentie op het apparaat zonder aparte drafters, wat leidt tot 50% of meer snelheidswinst en lager energieverbruik. De MTP-head maakt gebruik van de verborgen toestanden en KV-cache van het hoofdmodel, waardoor geheugengebruik tot 130MB bespaard blijft.

Bron: Google Research Blog

Originele taal: [en-us]

Lees hier het originele artikel