Nieuws

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

OpenAI introduceert MLE-bench, een benchmark om te meten hoe goed AI-agents presteren in machine learning engineering. Het onderzoek gebruikt 75 ML-engineering-gerelateerde wedstrijden van Kaggle en toont aan dat OpenAI's o1-preview met AIDE-scaffolding in 16,9% van de wedstrijden minstens het niveau van een Kaggle-bronze medaille haalt. De code van de benchmark is opengezet voor toekomstig onderzoek.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid