Nieuws

Together AI opent broncode van OSCAR: 2-bit KV-cache kwantisatiesysteem voor lange context LLM's

Together AI heeft OSCAR uitgebracht, een open-source systeem voor 2-bit kwantisatie van de KV-cache bij lange context LLM's. OSCAR gebruikt aandacht-gewogen rotaties om de kwantisatie te optimaliseren, waardoor de geheugenvoetafdruk met een factor 8 daalt en de doorvoer tot bijna 8 keer sneller wordt bij grote batchgroottes. Het systeem integreert met SGLang en ondersteunt modellen zoals Qwen3 en GLM-4.7.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel