اعتمدت شركة OpenAI بالتعاون مع Paradigm معياراً جديداً لقياس الأداء يسمى EVMbench، يهدف إلى اختبار قدرات وكلاء الذكاء الاصطناعي في التعامل مع ثغرات العقود الذكية داخل بيئة Ethereum Virtual Machine، المعروفة اختصاراً بـ EVM، وهي البيئة البرمجية التي تنفذ العقود على شبكة إيثيريوم. ويشمل المعيار 3 مهام رئيسية تبدأ من اكتشاف الثغرة وتصل إلى إصلاحها ثم تنفيذ عملية استغلال كاملة في بيئة معزولة.
يأتي هذا التحرك لمعالجة فجوة متزايدة في أمن العقود الذكية، تزامناً مع ارتفاع قيمة الأصول الرقمية التي تدار عبر الشبكات العامة. وتكمن الخطورة في أن المعاملات على هذه الشبكات غير قابلة للتراجع بعد تنفيذها، ما يجعل أي خسارة ناتجة عن ثغرة أمنية فورية ونهائية.
دورة أمان كاملة: من الاكتشاف إلى المحاكاة
يرتكز EVMbench على مجموعة اختبار تتضمن 120 ثغرة عالية الخطورة، جرى اختيارها من 40 عملية تدقيق لمستودعات برمجية. واستند المطورون إلى ثغرات موثقة في مسابقات تدقيق مفتوحة، إضافة إلى سيناريوهات مستمدة من تدقيق أمني خاص بسلسلة Tempo، وهي شبكة من الطبقة الأولى مخصصة لمدفوعات العملات المستقرة.
ويتوزع العمل في هذا المعيار على 3 مراحل أساسية تمثل دورة حياة أمن العقد الذكي:
- مرحلة الاكتشاف (Detect): يكلف وكيل الذكاء الاصطناعي بمراجعة مستودع العقد الذكي، ويقيم بناء على قدرته على تحديد الثغرات التي رصدها المدققون البشريون سابقاً.
- مرحلة الإصلاح (Patch): يتوجب على الوكيل تعديل الشيفرة البرمجية لإغلاق الثغرة مع ضمان استمرار العقد في أداء وظائفه الأساسية، وتتحقق اختبارات آلية من سلامة التعديل وفشل محاولات الاختراق اللاحقة.
- مرحلة الاستغلال (Exploit): ينفذ الوكيل هجوماً كاملاً بهدف سحب الأموال من عقود منشورة داخل سلسلة اختبار محلية، ويجري التحقق من نجاح المهمة عبر رصد تغيرات الأرصدة والحالة التقنية داخل البيئة التجريبية.
بيئة معزولة ونتائج متباينة
استخدمت OpenAI إطار تشغيل بلغة Rust لضمان انضباط الاختبارات وقابليتها لإعادة الإنتاج. وتضمن ذلك نشر العقود بطريقة حتمية وتقييد بروتوكولات RPC غير الآمنة. وتجرى مهام الاستغلال في بيئة محلية معزولة تُعرف باسم Anvil.
وكشفت النتائج الأولية عن تفاوت في الأداء؛ إذ سجل أحد نماذج OpenAI المتقدمة نسبة نجاح بلغت 72.2% في وضع الاستغلال، متفوقاً على نموذج أقدم حقق 31.9%. ومع ذلك، واجهت النماذج صعوبات في الوصول إلى تغطية كاملة في مهمتي الاكتشاف والإصلاح، حيث لوحظ توقف بعض الوكلاء بعد العثور على مشكلة واحدة، أو تسببهم في كسر وظائف العقد أثناء محاولة إصلاحه.
حدود المعيار وتحديات الواقع
أقرت OpenAI بوجود قيود منهجية في EVMbench، حيث إن العينات المختبرية قد لا تعكس تعقيدات الواقع تماماً؛ فالعقود واسعة الانتشار تخضع لتدقيق بشري مكثف يجعل استغلالها أصعب. كما تبرز معضلة “الإيجابيات الكاذبة” في مرحلة الاكتشاف، فإذا وجد الذكاء الاصطناعي ثغرة لم يلحظها البشر، لا تتوفر حالياً وسيلة مؤكدة لتصنيفها كثغرة حقيقية أو مجرد إنذار خاطئ.
علاوة على ذلك، تعتمد محاكاة الاستغلال على تنفيذ تسلسلي للمعاملات داخل حاويات قياس، ما يخرج السيناريوهات التي تتطلب توقيتاً دقيقاً جداً أو التعامل مع سلاسل متعددة عن نطاق الاختبار الحالي.
أبعاد الأمن السيبراني والمبادرات الدفاعية
يصنف هذا المعيار ضمن الأدوات “مزدوجة الاستخدام”، لأن التقنيات التي ترفع كفاءة الدفاع والتدقيق يمكن استغلالها في تطوير هجمات أكثر دقة. ولمواجهة ذلك، تتبع OpenAI نهجاً يجمع بين تدريب النماذج على معايير السلامة والمراقبة الآلية، مع تقييد الوصول إلى القدرات المتقدمة.
وفي سياق دعم الجانب الدفاعي، أعلنت الشركة تخصيص 10 ملايين دولار كأرصدة لاستخدام واجهاتها البرمجية ضمن برنامج منح الأمن السيبراني، مع التركيز على حماية البرمجيات مفتوحة المصدر والبنى التحتية الحيوية، وتوسيع برنامج الوكيل البحثي Aardvark المتخصص في الأمن.







