Nieuws
Together AI optimaliseert MiniMax-M3 voor efficiënte inferentie met 1M token context en multimodale ondersteuning
Together AI beschrijft hoe het MiniMax-M3 efficiënt serveert met KV-Block-Major sparse attention, paged MSA decode, geoptimaliseerde index scoring en een Rust-gebaseerde multimodale gateway. De optimalisaties leiden tot 81-125% hogere doorvoer bij verschillende gelijktijdigheidsniveaus. Together AI zal het model als endpoint aanbieden zodra de open-weights versie uitkomt.