Nieuws
LightSeek Foundation lanceert TokenSpeed, open-source LLM-inferentie-engine met prestaties op peil van TensorRT-LLM
LightSeek Foundation heeft TokenSpeed, een open-source LLM-inferentie-engine, gelanceerd die gericht is op agentic workloads en prestaties op peil van TensorRT-LLM biedt. De engine is ontworpen om de uitdagingen van agentic inference te overwinnen, zoals het behoud van een minimum TPS (tokens per seconde) per gebruiker en het maximaliseren van de doorvoer. TokenSpeed maakt gebruik van vijf interliggende subsystemen, waaronder een compiler-gebaseerde modellering voor parallelisme, een hoge prestatie scheduler en een pluggabele kernellaag die ondersteuning biedt voor heterogene accelerators. De engine is in preview-modus beschikbaar en heeft al deelgenomen aan benchmarks tegen TensorRT-LLM op NVIDIA B200, waarbij het ongeveer 9% sneller is in min-latency en 11% hogere doorvoer op 100 TPS/User. De MLA-kernel van TokenSpeed is al geadopteerd door vLLM.