Nieuws
Back to The Future: Evaluating AI Agents on Predicting Future Events
FutureBench is een nieuw levenslang en lek-vrij benchmark dat AI-agents test op hun vermogen om toekomstige gebeurtenissen te voorspellen, zoals economische trends en geopolitieke ontwikkelingen. Het onderzoek benadrukt dat het voorspellen van toekomstige gebeurtenissen een complexe taak is die gericht is op redeneren en het synthetiseren van informatie, in plaats van alleen op het herkennen van patronen. FutureBench gebruikt onder andere DeepSeek-V3 voor redenering en vraaggeneratie, en Tavily voor zoekopdrachten. Het benchmark is ontworpen om de prestaties van AI-agents objectief en verifieerbaar te meten.