Nieuws
Een schaalbare methode voor het beoordelen van gezondheidslanguage models
Google introduceert een schaalbare methode voor het beoordelen van gezondheidslanguage models, met name gericht op het verbeteren van inter-rater betrouwbaarheid en efficiëntie. De methode maakt gebruik van Adaptive Precise Boolean rubrics, die complexe evaluatiecriteria vereenvoudigen tot ja/neen-antwoorden. Dit leidt tot een aanzienlijke tijdsbesparing en betere detectie van kwaliteitsverschillen in modelantwoorden. De evaluatie is getest op gegevens uit het WEAR-ME-studieproject en toont aan dat de methode beter presteert dan traditionele Likert-schalen.