أطلقت شركة OpenAI برنامجاً عاماً جديداً لمكافآت الثغرات تحت مسمى Safety Bug Bounty، في خطوة تجسد تحولاً جوهرياً في استراتيجيات التعامل مع التهديدات المرتبطة بأنظمة الذكاء الاصطناعي. ويتجاوز هذا البرنامج الأطر التقليدية للإبلاغ عن الثغرات التقنية ليشمل نطاقاً أوسع يتضمن حالات إساءة الاستخدام والمخاطر المتعلقة بالسلامة، والتي قد تنتج عن تصميم المنتجات أو آليات تشغيلها الحيوية.
وأكدت الشركة سعيها الحثيث للحد من حالات سوء الاستخدام التي قد تؤدي إلى أضرار ملموسة تطال المستخدمين أو البنية التحتية للمنصة. ويعمل هذا المسار الجديد بالتكامل مع برنامج المكافآت الأمنية القائم، لضمان تغطية شاملة لكافة جوانب الحماية.
وتتولى فرق متخصصة في مجالي السلامة والأمن عملية التنسيق وفرز البلاغات الواردة، حيث يتم توجيه كل بلاغ نحو المسار الصحيح بناءً على التصنيف التقني للمشكلة المكتشفة، لضمان استجابة دقيقة وفعالة لمختلف أنواع التهديدات.
تصنيفات المخاطر السلوكية ومعايير الاستحقاق التقني
يرتكز البرنامج على 3 محاور رئيسية للمخاطر، حيث يُعنى المحور الأول بالمخاطر الوكيلة التي تظهر سيناريوهات معقدة مثل حقن الأوامر من أطراف خارجية أو عمليات استخراج البيانات، ينجح خلالها نص خبيث في السيطرة على وكيل ذكاء اصطناعي وتوجيهه لتنفيذ عمليات ضارة أو كشف بيانات حساسة. وتشترط الشركة لإقرار هذه الثغرة إمكانية تكرار السلوك بنسبة تزيد على 50%.
ويتناول المحور الثاني حماية الأسرار التقنية للشركة، ويشمل ذلك المخرجات التي قد تفصح عن تفاصيل دقيقة حول آليات الاستدلال أو بيانات الملكية الداخلية التي قد تتسرب عبر تفاعلات النموذج.
أما المحور الثالث فيركز على صيانة سلامة الحسابات والمنصة، وذلك عبر رصد محاولات تجاوز أنظمة مكافحة الأتمتة، أو التلاعب بإشارات الثقة، والتحايل على إجراءات الحظر والتعليق التي تفرضها المنصة لضمان الاستخدام العادل والآمن.
حدود نطاق السلامة وتطور منظومة المكافآت المالية
حددت OpenAI أطر الاستبعاد من البرنامج بدقة، حيث استثنت حالات تجاوز سياسات المحتوى العامة أو ما يعرف بـ “الجلبريك” (Jailbreaking) التي لا تخل بمعايير السلامة القابلة للإثبات. ويدخل ضمن ذلك دفع النماذج لاستخدام لغة غير ملائمة أو استقاء معلومات متوفرة علناً في محركات البحث.
وبالتوازي مع ذلك، تستمر الشركة في إدارة حملات تخصصية مغلقة لمعالجة تهديدات معينة، مثل المخاطر البيولوجية المرتبطة بإصدارات متطورة تشمل GPT-5 وChatGPT Agent. ويمثل هذا التوجه امتداداً لمسيرة بدأت في أبريل 2023 عبر منصة Bugcrowd، وتطورت في مارس 2025 برفع سقف مكافآت الثغرات الأمنية التقليدية إلى 100 ألف دولار للحالات الحرجة.
أما بالنسبة للبرنامج الجديد، فتشير التقارير المتخصصة إلى مكافآت قد تصل قيمتها إلى 7500 دولار للبلاغات عالية الخطورة التي تقدم خطوات واضحة للمعالجة. وتؤكد الشركة احتفاظها بالحق النهائي في تقييم القيمة المالية المستحقة لكل بلاغ بناء على معاييرها الفنية.








