Nieuws

Nieuwe methode voor betrouwbaardere en efficiëntere evaluatie van grote taalmodellen

Wetenschappers van Stanford introduceren een methode gebaseerd op de Rasch-model uit de Item Response Theory (IRT) om de evaluatie van grote taalmodellen (LLM) betrouwbaarder en efficiënter te maken. Deze methode, geïntegreerd in het HELM-framework, vermindert het aantal benodigde testvragen aanzienlijk, terwijl de betrouwbaarheid van de evaluatie behouden blijft. De resultaten tonen aan dat de methode een hoge correlatie heeft met bestaande metrieken en dat ze efficiënter is dan willekeurige vraagselectie.

Bron: Stanford CRFM

Originele taal: [en]

Lees hier het originele artikel