Nieuws
Beter AI-evaluatie: hoeveel beoordelaars zijn voldoende?
Google onderzoekt hoe AI-benchmarks beter kunnen worden opgesteld door de balans tussen het aantal beoordelaars en het aantal items te optimaliseren. Het onderzoek toont aan dat het standaard aantal beoordelaars per item vaak onvoldoende is en dat een hoger aantal beoordelaars nodig is om de variatie in menselijke mening te vangen. De studie biedt een roadmap voor betrouwbaardere en kostenefficiënte AI-benchmarks, met voorbeelden van datasets zoals Toxicity en D3code.