Nieuws
Kan AI computaties reproduceerbare wetenschap automatiseren?
Een nieuw onderzoek introduceert CORE-Bench, een benchmark om te meten hoe goed AI computaties reproduceerbare wetenschap kan automatiseren. Het onderzoek toont aan dat zelfs met specifieke aanpassingen, zoals de CORE-Agent, de prestaties van AI-systemen nog beperkt zijn, met een nauwkeurigheid van slechts 22% op de moeilijkste niveaus. Het onderzoek vraagt ook om een heroverweging van het begrip 'generiteit' in de context van AI.