Nieuws

UK's AI Security Institute ontdekt dat standaard benchmarks systematisch de capaciteiten van AI-agents onderschatten

In een onderzoek met zeven benchmarks toont het AI Security Institute van het Verenigd Koninkrijk aan dat standaard AI-evaluaties de mogelijkheden van AI-agenten systematisch onderschatten door een limiet op het rekenbudget. Bij software-engineeringtaken stegen de slagingspercentages met ongeveer 25 procent wanneer het tokenbudget tien keer werd verhoogd. Nieuwere modellen profiteren het meest van extra rekenkracht. Volgens het AI Security Institute is de werkelijke vooruitgang aan de frontier ongeveer 60 procent steiler dan eerdere metingen suggereerden.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid