Nieuws

Introductie van AutoJudge: Versnelling van LLM-inferentie via automatische datasetcuratie

AutoJudge versnelt de inferentie van grote taalmodellen (LLM) door te identificeren welke tokenmismatchen echt van belang zijn. Het gebruikt zelfonderwijs om een lichtgewicht classifier te trainen en accepteert tot 40 drafttokens per cyclus, wat 1,5–2× sneller is dan standaard speculatieve decoding met minimale nauwkeurigheidsschade. Het onderzoek wordt gepresenteerd op NeurIPS 2025.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel