Nieuws
Together AI benchmarkt inferentie op schaal voor coding agents
Together AI heeft een benchmark gepubliceerd voor coding agent workloads, waarin de Together Inference Engine 31% meer tokens per seconde levert dan TensorRT-LLM op dezelfde hardware. Bij verzadiging is de time-to-first-token 2x beter. De resultaten komen voort uit full-stack optimalisaties zoals ThunderMLA en aangepaste kernels. De kosten zijn 76% lager dan Claude Opus 4.6.