Nieuws

Together AI benchmarkt inferentie op schaal voor coding agents

Together AI heeft een benchmark gepubliceerd voor coding agent workloads, waarin de Together Inference Engine 31% meer tokens per seconde levert dan TensorRT-LLM op dezelfde hardware. Bij verzadiging is de time-to-first-token 2x beter. De resultaten komen voort uit full-stack optimalisaties zoals ThunderMLA en aangepaste kernels. De kosten zijn 76% lager dan Claude Opus 4.6.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel

Dossier:

AI-coding agents: Cursor, Claude Code, Copilot