Nieuws
Introducing EVMbench
OpenAI en Paradigm introduceren EVMbench, een benchmark die de capaciteit van AI-agents beoordeelt om ernstige fouten in slimme contracten te detecteren, te herstellen en te exploiteren. De benchmark is gebaseerd op 117 gecurateerde fouten uit 40 audits en bevat scenario's van de Tempo-blockchain. GPT-5.3-Codex scoort 71,0% in de exploit-modus, een aanzienlijke verbetering ten opzichte van eerdere modellen.