Nieuws

BrowseComp: een benchmark voor browsende agents

OpenAI introduceert BrowseComp, een nieuwe benchmark die de vaardigheid van AI-agents meet om moeilijk te vinden informatie op het internet te lokaliseren. De benchmark bestaat uit 1.266 uitdagende problemen en is beschikbaar via OpenAI’s simple evals GitHub-repository. De test is ontworpen om de vermogen van modellen te meten om informatie te vinden die niet direct opvallend is, maar wel goed te verifiëren. Deep Research, een agentmodel dat expliciet is getraind voor duurzame webbrowsing, presteert aanzienlijk beter dan andere modellen.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel