EVMbench is een veelbelovende tool die door OpenAI en Paradigm is ontwikkeld om de beveiliging van Ethereum smart contracts (digitale contracten die automatisch uitvoering geven aan afspraken) te verbeteren. Wat EVMbench uniek maakt, is de focus op het testen van de mogelijkheden van AI-agenten om hoge-severiteit kwetsbaarheden binnen deze contracten te detecteren, te patchen (te repareren) en te exploiteren. Dit is kritiek, vooral gezien de enorme groei van smart contracts binnen het Ethereum-ecosysteem, waar in november 2025 een record van 1,7 miljoen contracten werd gedeployed, met slechts een week daarvoor al 669.500 nieuwe contracten.
De tool put uit 120 zorgvuldig geselecteerde kwetsbaarheden afkomstig uit 40 audits, met veel informatie verworven uit open auditwedstrijden zoals Code4rena. Dit is een belangrijke stap omdat het niet alleen theoretische scenario’s betreft, maar ook echte kwetsbaarheden uit de markt. EVMbench biedt een realistische testomgeving en is daarmee bijzonder relevant, vooral nu bedrijven zoals Stripe hun eigen blockchain, Tempo, ontwikkelen met input van belangrijke cryptopartners.
Het doel van EVMbench gaat verder dan alleen het testen van AI-modellen. Het richt zich op het evalueren van hun effectiviteit in situaties die economisch van belang zijn, vooral naarmate het gebruik van AI-gestuurde stablecoinbetalingen (crypto-tokens die zijn gekoppeld aan een stabiele waarde, vaak een fiatvaluta) in de opkomende financiële technologie toeneemt.
EVMbench beoordeelt AI-modellen in drie speelfases: detectie, patchen en exploiteren. In de detectiefase wordt gekeken naar het vermogen van de agenten om kwetsbaarheden te identificeren en hun nauwkeurigheid te meten. Tijdens de patchfase moeten de agenten in staat zijn kwetsbaarheden te repareren zonder de functie van het contract te verstoren. Het meest uitdagende is de exploitfase, waarin agenten daadwerkelijk proberen om geld te ‘draineren’ in een gecontroleerde blockchain-omgeving, wat hen onderwerpt aan een strenge grading op basis van deterministische transacties.
De resultaten zijn interessant: GPT-5.3-Codex wist in de exploitmodus een succespercentage van 72,2% te behalen. Dit is aanzienlijk hoger dan de 31,9% van de zes maanden eerder geïntroduceerde GPT-5. Desondanks was de prestatie in de detectie- en patch-taken minder indrukwekkend, wat aantoont dat er nog ruimte is voor verbetering. Dit benadrukt het grote risico dat ontstaat wanneer AI-tools worden ingezet zonder de nodige waarborgen.
De onderzoekers van OpenAI waarschuwen dat EVMbench de complexiteit van de echte wereld niet volledig kan vangen. Toch blijft het meten van AI-prestaties in economisch relevante omgevingen cruciaal, vooral omdat deze modellen hen krachtiger maken, zowel voor aanvallers als verdedigers. Hier komen de meningsverschillen tussen prominente figuren in de sector aan het licht: Sam Altman van OpenAI gelooft dat zijn bedrijf ‘weet hoe AGI (Artificial General Intelligence) traditioneel moet worden gebouwd’, terwijl Vitalik Buterin, medeoprichter van Ethereum, pleit voor het implementeren van een ‘zachte pauzefunctie’ om grote AI-operaties tijdelijk te kunnen beperken bij opkomende signalen.
EVMbench kan dus niet alleen een scala aan inzichten bieden in de huidige staat van de Ethereum-beveiliging, maar roept ook belangrijke vragen op over de verantwoordelijkheden van de ontwikkelaars in deze complexe omgeving.
Wat is het doel van EVMbench?
EVMbench heeft als doel de effectiviteit van AI-agentschappen te beoordelen op het gebied van detectie, patching en exploitatie van kwetsbaarheden in Ethereum smart contracts, om zo de algehele beveiliging van deze contracten te verbeteren.
Hoe presteerden AI-modellen in de exploitfase?
In de exploitfase behaalde GPT-5.3-Codex een indrukwekkend succespercentage van 72,2%, terwijl eerdere modellen zoals GPT-5 alleen 31,9% behaalden, wat wijst op aanzienlijke vooruitgang.
Waarom is real-world relevantie belangrijk in beveiligingstests?
Het is cruciaal omdat beveiligingsproblemen in de praktijk complexer zijn dan in theoretische testomgevingen. AI-toepassingen moeten worden getest in omgevingen die economisch relevant zijn om effectief te kunnen functioneren in de echte wereld.
