Nieuws

Together AI optimaliseert MiniMax-M3 voor efficiënte inferentie met 1M token context en multimodale ondersteuning

Together AI beschrijft hoe het MiniMax-M3 efficiënt serveert met KV-Block-Major sparse attention, paged MSA decode, geoptimaliseerde index scoring en een Rust-gebaseerde multimodale gateway. De optimalisaties leiden tot 81-125% hogere doorvoer bij verschillende gelijktijdigheidsniveaus. Together AI zal het model als endpoint aanbieden zodra de open-weights versie uitkomt.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel