Nieuws
Baseten claimt snelste API voor GLM-5.2 met meer dan 280 tokens per seconde
Baseten, een AI-infrastructuur-startup uit San Francisco, heeft een API-implementatie van het open-source model GLM-5.2 van Z.ai gebouwd die meer dan 280 tokens per seconde levert. De prestatie wordt bereikt door een reeks inferentie-optimalisaties, waaronder modelkwantisatie, cachebeheer en speculatieve decodering. Het 744-miljard parameter grote mixture-of-experts model van Z.ai presteert volgens Baseten vergelijkbaar met toonaangevende propriëtaire systemen tegen 70–80% lagere kosten per token.