Nieuws

Back to The Future: Evaluating AI Agents on Predicting Future Events

FutureBench is een nieuw levenslang en lek-vrij benchmark dat AI-agents test op hun vermogen om toekomstige gebeurtenissen te voorspellen, zoals economische trends en geopolitieke ontwikkelingen. Het onderzoek benadrukt dat het voorspellen van toekomstige gebeurtenissen een complexe taak is die gericht is op redeneren en het synthetiseren van informatie, in plaats van alleen op het herkennen van patronen. FutureBench gebruikt onder andere DeepSeek-V3 voor redenering en vraaggeneratie, en Tavily voor zoekopdrachten. Het benchmark is ontworpen om de prestaties van AI-agents objectief en verifieerbaar te meten.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel