OpenAI و Paradigm برای آزمایش هک قرارداد هوشمند هوش مصنوعی، EVMbench را راهاندازی میکنند
رونگچای وانگ 1404/12/14 00:55
معیار جدید توانایی AI Agent ها را در شناسایی، اصلاح و سوءاستفاده از آسیبپذیریهای قرارداد هوشمند ارزیابی میکند. GPT-5.3-Codex در وظایف سوءاستفاده 72.2% امتیاز کسب میکند.
OpenAI و شرکت سرمایهگذاری کریپتو Paradigm، EVMbench را منتشر کردهاند، معیاری که میسنجد AI Agent ها چقدر میتوانند آسیبپذیریها را در قرارداد هوشمند اتریوم پیدا، رفع و سوءاستفاده کنند. این اعلامیه در حالی منتشر میشود که ابزارهای امنیتی مبتنی بر هوش مصنوعی برای حفاظت از بیش از 100 میلیارد دلار قفلشده در پروتکلهای امور مالی غیر متمرکز با نام اختصاری دیفای، در حال رقابت هستند.
این معیار از 120 آسیبپذیری با شدت بالا که از 40 حسابرسی قرارداد هوشمند واقعی استخراج شده، بهره میبرد که بیشتر آنها از مسابقات Code4rena هستند. همچنین شامل سناریوهای آسیبپذیری از بررسی امنیتی Tempo، یک بلاک چین لایه 1 ساختهشده برای پرداختهای استیبل کوین است.
سه روش برای شکستن قرارداد هوشمند
EVMbench، AI Agent ها را در سه حالت متمایز آزمایش میکند. در حالت تشخیص، عاملان مخازن قراردادها را حسابرسی میکنند و بر اساس یافتن آسیبپذیریهای شناختهشده امتیاز میگیرند. حالت اصلاح نیاز دارد که عاملان کد آسیبپذیر را بدون از بین بردن عملکرد موجود، رفع کنند. حالت سوءاستفاده تهاجمیترین است—عاملان باید حملات واقعی تخلیه وجوه را علیه قراردادهای مستقر شده در یک بلاک چین محافظتشده اجرا کنند.
نتایج نشان میدهند که قابلیتهای هوش مصنوعی در این حوزه چقدر سریع در حال پیشرفت هستند. GPT-5.3-Codex که از طریق Codex CLI اجرا میشود، نرخ موفقیت 72.2% در وظایف سوءاستفاده به دست آورد. این بیش از دو برابر امتیاز 31.9% از GPT-5 است که فقط شش ماه قبل راهاندازی شد.
جالب توجه است که AI Agent ها در حمله بهتر از دفاع عمل میکنند. تنظیمات سوءاستفاده یک هدف واضح دارد—تکرار را ادامه دهید تا وجوه را تخلیه کنید. تشخیص و اصلاح سختتر ثابت شد. عاملان گاهی اوقات پس از یافتن یک باگ به جای حسابرسی جامع متوقف میشوند و حفظ عملکرد کامل قرارداد در حین حذف آسیبپذیریهای ظریف، چالشبرانگیز باقی میماند.
محدودیتهای واقعی قابل توجه
OpenAI تصدیق کرد که EVMbench، دشواری کامل امنیت قرارداد در دنیای واقعی را دربر نمیگیرد. پروتکلهای به شدت مستقر شده مانند Unswap یا Aave تحت بررسی بسیار بیشتری نسبت به کد مسابقه حسابرسی قرار میگیرند. این معیار همچنین نمیتواند تأیید کند که آیا یک عامل آسیبپذیریهای مشروعی را که حسابرسان انسانی از دست دادهاند، پیدا میکند—فقط در برابر مسائل شناختهشده بررسی میکند.
محیط سوءاستفاده بر روی یک نمونه محلی تمیز Anvil به جای حالت شبکه اصلی فورک شده اجرا میشود و حملات وابسته به زمانبندی خارج از محدوده قرار میگیرند. فقط محیطهای تک زنجیرهای در حال حاضر.
10 میلیون دلار برای تحقیقات دفاعی
در کنار EVMbench، OpenAI 10 میلیون دلار اعتبار API را به طور خاص برای تحقیقات امنیتی دفاعی متعهد شد. این شرکت عامل تحقیقاتی امنیتی Aardvark خود را به کاربران بیشتری گسترش میدهد و با نگهدارندگان منبع باز برای اسکن رایگان پایگاه کد همکاری میکند.
زمانبندی اهمیت دارد. همانطور که AI Agent ها در سوءاستفاده از قراردادها بهتر میشوند، پنجره بین کشف آسیبپذیری و سوءاستفاده کوچک میشود. تیمهای پروتکل که از حسابرسی به کمک هوش مصنوعی استفاده نمیکنند، به طور فزایندهای خود را در برابر مهاجمانی که استفاده میکنند، در وضعیت نامطلوب خواهند یافت.
OpenAI وظایف، ابزارها و چارچوب ارزیابی EVMbench را به صورت عمومی منتشر کرد. برای توسعهدهندگان امور مالی غیر متمرکز با نام اختصاری دیفای و محققان امنیتی، این هم یک معیار سنجش و هم هشداری در مورد جایی است که قابلیتهای هوش مصنوعی به سمت آن میروند.
منبع تصویر: Shutterstock- openai
- paradigm
- قرارداد هوشمند
- امنیت هوش مصنوعی
- defi


