Nieuws

ATLAS: een nieuw paradigma in LLM-inferentie via runtime-lerende acceleratoren

Together AI introduceert ATLAS, een adaptief leerend speculatiesysteem dat de inferentie van grote taalmodellen aanzienlijk versnelt. ATLAS leert continu van de werkbelasting en bereikt op DeepSeek-V3.1 tot 500 TPS, een 4x versnelling ten opzichte van de basisprestaties zonder handmatige afstemming. Het systeem combineert een zware statische speculator met een lichte adaptieve speculator en een vertrouwensgevoelige controller om de prestaties in real-time te optimaliseren.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel