OpenAI und Paradigm starten EVMbench zum Testen von KI-Smart Contract-Hacking

Rongchai Wang 05.03.2026 00:55

Neuer Benchmark bewertet die Fähigkeit von AI Agents, Smart Contract-Schwachstellen zu erkennen, zu beheben und auszunutzen. GPT-5.3-Codex erzielt 72,2 % bei Exploit-Aufgaben.

OpenAI und Paradigm starten EVMbench zum Testen von KI-Smart Contract-Hacking

OpenAI und die Krypto-Venture-Firma Paradigm haben EVMbench veröffentlicht, einen Benchmark, der misst, wie gut AI Agents Schwachstellen in Ethereum Smart Contracts finden, beheben und ausnutzen können. Die Ankündigung erfolgt, während KI-gestützte Sicherheitstools darum wetteifern, die mehr als 100 Milliarden US-Dollar zu schützen, die in DeFi-Protokollen gesperrt sind.

Der Benchmark basiert auf 120 kuratierten Schwachstellen mit hohem Schweregrad aus 40 echten Sicherheitsüberprüfungen, hauptsächlich von Code4rena-Wettbewerben. Er umfasst auch Schwachstellenszenarien aus Sicherheitsüberprüfungen von Tempo, einer Layer-1-Blockchain, die für Stablecoin-Zahlungen entwickelt wurde.

Drei Wege, Smart Contracts zu brechen

EVMbench testet AI Agents in drei verschiedenen Modi. Im Detect-Modus prüfen Agents Contract-Repositorys und werden nach dem Auffinden bekannter Schwachstellen bewertet. Der Patch-Modus erfordert, dass Agents anfälligen Code reparieren, ohne die bestehende Funktionalität zu beeinträchtigen. Der Exploit-Modus ist am aggressivsten – Agents müssen tatsächliche Angriffe ausführen, die Gelder aus auf einer Sandbox-Blockchain bereitgestellten Verträgen abziehen.

Die Ergebnisse zeigen, wie schnell KI-Fähigkeiten in diesem Bereich voranschreiten. GPT-5.3-Codex, das über Codex CLI läuft, erreichte eine Erfolgsquote von 72,2 % bei Exploit-Aufgaben. Das ist mehr als das Doppelte der 31,9 % von GPT-5, das nur sechs Monate zuvor gestartet wurde.

Interessanterweise sind AI Agents beim Angreifen besser als beim Verteidigen. Die Exploit-Einstellung hat ein klares Ziel – weiter iterieren, bis die Gelder abgezogen sind. Erkennung und Behebung erwiesen sich als schwieriger. Agents stoppten manchmal, nachdem sie einen Fehler gefunden hatten, anstatt exhaustiv zu prüfen, und die Aufrechterhaltung der vollständigen Contract-Funktionalität bei gleichzeitiger Beseitigung subtiler Schwachstellen blieb herausfordernd.

Echte Einschränkungen, die es zu beachten gilt

OpenAI räumte ein, dass EVMbench nicht die volle Schwierigkeit der realen Contract-Sicherheit erfasst. Stark eingesetzte Protokolle wie Uniswap oder Aave werden weit intensiver geprüft als Audit-Wettbewerbscode. Der Benchmark kann auch nicht überprüfen, ob ein Agent legitime Schwachstellen findet, die menschliche Prüfer übersehen haben – er prüft nur gegen bekannte Probleme.

Die Exploit-Umgebung läuft auf einer sauberen lokalen Anvil-Instanz anstelle eines gegabelten Mainnet-Zustands, und zeitabhängige Angriffe liegen außerhalb des Umfangs. Vorerst nur Single-Chain-Umgebungen.

10 Millionen US-Dollar für defensive Forschung

Neben EVMbench hat OpenAI 10 Millionen US-Dollar an API-Guthaben speziell für defensive Sicherheitsforschung zugesagt. Das Unternehmen erweitert seinen Aardvark-Sicherheitsforschungs-Agent auf mehr Benutzer und arbeitet mit Open-Source-Maintainern für kostenloses Codebase-Scanning zusammen.

Das Timing ist wichtig. Da AI Agents besser darin werden, Contracts auszunutzen, schrumpft das Zeitfenster zwischen Schwachstellenerkennung und -ausnutzung. Protokollteams, die kein KI-gestütztes Auditing verwenden, werden sich zunehmend im Nachteil gegenüber Angreifern befinden, die es nutzen.

OpenAI hat EVMbenchs Aufgaben, Tools und Bewertungsrahmen öffentlich veröffentlicht. Für DeFi-Entwickler und Sicherheitsforscher ist es sowohl ein Maßstab als auch eine Warnung darüber, wohin sich KI-Fähigkeiten entwickeln.

Bildquelle: Shutterstock

openai
paradigm
smart contracts
ki-sicherheit
defi

OpenAI und Paradigm starten EVMbench zum Testen von KI-Smart-Contract-Hacking

OpenAI und Paradigm starten EVMbench zum Testen von KI-Smart Contract-Hacking

Drei Wege, Smart Contracts zu brechen

Echte Einschränkungen, die es zu beachten gilt

10 Millionen US-Dollar für defensive Forschung

Das könnte Ihnen auch gefallen

Queenbee Coin Bitcoin-Diebstahl: Schockierende Details aus der Polizeiermittlung in Seoul enthüllt

Ethereum-Preis erreicht 2.200-Dollar-Meilenstein, Trader bereiten sich auf nächsten Schritt vor

Tom Lee verdoppelt seinen Einsatz, während BitMine seine Ethereum-Bestände auf 4,47 Mio. ETH erhöht

Trendnachrichten

Queenbee Coin Bitcoin-Diebstahl: Schockierende Details aus der Polizeiermittlung in Seoul enthüllt

Ethereum-Preis erreicht 2.200-Dollar-Meilenstein, Trader bereiten sich auf nächsten Schritt vor

Tom Lee verdoppelt seinen Einsatz, während BitMine seine Ethereum-Bestände auf 4,47 Mio. ETH erhöht

Adressvergiftungsangriff verwüstet Krypto-Influencer: 24 Millionen Dollar durch raffinierten Betrug gestohlen

Verunsicherung in Chinas Armee: Xi stockt nach Säuberungen Militäretat auf

Kryptopreise