Nieuws

TurboQuant: Nieuwe AI-compressie methode vermindert geheugenbelasting

Google introduceert TurboQuant, een nieuwe compressiemethode die de geheugenbelasting van AI-modellen aanzienlijk vermindert zonder de nauwkeurigheid te compromitteren. TurboQuant combineert twee technieken, QJL en PolarQuant, om efficiënter te werken dan bestaande methoden. De methode maakt het mogelijk om de key-value cache van modellen zoals Gemini en Mistral te comprimeren tot 3 bits, met een aanzienlijke snelheidsverbetering. De techniek heeft potentiële toepassingen in zoekopdrachten en grote vectorindexen, en wordt gepresenteerd op ICLR 2026 en AISTATS 2026.

Bron: Google Research Blog

Originele taal: [en-us]

Lees hier het originele artikel