Nieuws
Groene evaluaties, foute antwoorden: het probleem van niet-deterministische LLM-output
LLM-evaluaties vaak focussen op eenvoudig te meten toolselectie, maar antwoorden van gebruikers negeren. De auteur beschrijft een productie-assistent voor financiële adviseurs waar een antwoord-evaluatie drie bugs ving die tool-niveau tests misten. Een drielaags acceptatiecriterium wordt voorgesteld: verboden substrings, vereiste substrings en een LLM-rechter. Embedding-similarity en ROUGE worden afgeraden als gate. Daarnaast wordt het probleem van niet-determinisme bij merge gates behandeld, waarbij herhaalde runs en automatische herkansingen averechts werken.