Nieuws
PaperBench: Beoordeling van de mogelijkheid van AI om AI-onderzoek na te bootsen
OpenAI introduceert PaperBench, een benchmark die de mogelijkheid van AI-agents beoordeelt om state-of-the-art AI-onderzoek na te bootsen. Agents moeten 20 ICML 2024 Spotlight- en Oralcijfers vanaf nul repliceren, inclusief het begrijpen van de bijdragen van het onderzoek, het ontwikkelen van een codebasis en het succesvol uitvoeren van experimenten. De evaluatie gebeurt met behulp van rubrieken die elke taak in kleinere onderdelen ontleden en een LLM-gebaseerde rechter die automatisch beoordeelt. De beste testagent, Claude 3.5 Sonnet met open-source scaffolding, haalt een gemiddelde replicatiescore van 21,0%.