Nieuws
Water Cooler Small Talk, Aflevering 11: Overfitting bij RAG-evaluatie
Deze aflevering van Water Cooler Small Talk bespreekt het risico van overfitting bij het evalueren van RAG-systemen. Wanneer teams hun evaluatieset hergebruiken om problemen te verhelpen, gaan de scores omhoog zonder dat de echte prestaties verbeteren. Het artikel legt uit hoe dit leidt tot misleidende resultaten en vergelijkt het met Goodhart's wet en reward hacking.