Nieuws

Introducing EVMbench

OpenAI en Paradigm introduceren EVMbench, een benchmark die de capaciteit van AI-agents beoordeelt om ernstige fouten in slimme contracten te detecteren, te herstellen en te exploiteren. De benchmark is gebaseerd op 117 gecurateerde fouten uit 40 audits en bevat scenario's van de Tempo-blockchain. GPT-5.3-Codex scoort 71,0% in de exploit-modus, een aanzienlijke verbetering ten opzichte van eerdere modellen.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel