Nieuws

Xiaomi MiMo en TileRT bereiken 1000+ tokens per seconde met biljoen-parameter model op gangbare GPU's

Xiaomi's MiMo-team heeft in samenwerking met TileRT MiMo-V2.5-Pro-UltraSpeed uitgebracht, een model dat meer dan 1000 tokens per seconde decodeert op een biljoen-parameter model. De snelheidswinst komt door FP4-kwantificatie, DFlash speculatieve decodering en de TileRT-runtime. Het model draait op een standaard 8-GPU commodity node en is beschikbaar via een API-proefversie van 9 tot 23 juni 2026. Xiaomi heeft de checkpoint open-source gemaakt op Hugging Face en geselecteerde TileRT-modules op GitHub.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel

Dossier: