Nieuws
ATLAS: een nieuw paradigma in LLM-inferentie via runtime-lerende acceleratoren
Together AI introduceert ATLAS, een adaptief leerend speculatiesysteem dat de inferentie van grote taalmodellen aanzienlijk versnelt. ATLAS leert continu van de werkbelasting en bereikt op DeepSeek-V3.1 tot 500 TPS, een 4x versnelling ten opzichte van de basisprestaties zonder handmatige afstemming. Het systeem combineert een zware statische speculator met een lichte adaptieve speculator en een vertrouwensgevoelige controller om de prestaties in real-time te optimaliseren.