ثغرات أمنية

Mindgard تكشف ثغرة في Sora 2 تسرب النظام التوجيهي للنموذج عبر نصوص الصوت

تظهر الثغرة أن مخرجات الصوت تسمح بكشف قواعد عمل النماذج متعددة الوسائط وقيودها الداخلية الحساسة

تم النشر في Nov. 13, 2025

Mindgard تكشف ثغرة في Sora 2 تسرب النظام التوجيهي للنموذج عبر نصوص الصوت — ثغرة Sora 2 تثبت أن مخرجات الصوت يمكن أن تكشف قواعد تشغيل داخلية حساسة للنماذج متعددة الوسائط.

أعلن فريق بحثي في شركة Mindgard المتخصصة في اختبارات أمن الذكاء الاصطناعي عن اكتشاف ثغرة خطيرة في نموذج الفيديو المتقدم Sora 2 الذي تطوره OpenAI. أظهرت التجربة أنه يمكن إجبار النموذج على تسريب ما يشبه دفتر قواعده الداخلية المعروف بالـ system prompt عبر مخرجات الصوت، ما يكشف عن تعليمات تشغيلية وحواجز سلامة مضمنة مصممة لحماية المخرجات من محتوى محظور أو حساس.

بدأ سياق البحث في 3 نوفمبر من عام 2025 واستمر إلى نشر النتائج في 12 نوفمبر من عام 2025. واجه فريق Mindgard، بقيادة Aaron Portnoy، تحديات تقنية بسبب قيود طول مقاطع الفيديو التي يولدها Sora 2 والتي تقارب 10 إلى 15 ثانية لكل مقطع. ما اضطر الباحثين للعمل على مراحل، واستخراج رموز قصيرة عبر إطارات متعددة ومن ثم تجميعها خارجياً للوصول إلى نص أكبر يصف قواعد التشغيل.

أنتجت الاختبارات الأولى عبر توليد نص داخل الفيديو نتائج مشوهة أو سريالية لأن الانتقال من نص إلى صورة إلى فيديو يزيد من الأخطاء والانحراف الدلالي. وجد الفريق أن المسار الأكثر نجاحاً كان عبر المخرجات الصوتية. طلب الباحثون من Sora 2 أن ينطق أجزاء قصيرة من الـ system prompt ثم سجلوا النصوص المحولة من الصوت. واستطاعوا عبر تسريع المقاطع الصوتية وتكرار الاستعلامات تجميع تسلسل متصل من التعليمات الأساسية بدقة أعلى من المسارات البصرية.

رفعت الاستعادة عبر الصوت مستوى الدقة إلى الحد الذي مكن الباحثين من استرداد تعليمات داخلية تتضمن قواعد عامة مثل تجنب المحتوى الجنسي الإيحائي وقواعد سلوكية أخرى مبرمجة من المطورين.

تشير نتائج Mindgard إلى أن ما تسرب ليس مجرد نص توجيهي سطحي بل تكوين معياري أساسي يعكس إعدادات المطور للنموذج، ما يعني وصولاً إلى ما يمكن اعتبار الشفرة التكوينية الأساسية أو الإعدادات السياساتية للنموذج.

يحث الاستنتاج الأمني، الذي قدمه فريق Mindgar، مطوري النماذج متعددة الوسائط على معاملة system prompt كإعدادات سرية حساسة، وإجراء اختبارات شاملة على مخرجات الصوت والفيديو للتأكد من عدم وجود تسريبات، والحد من طول الاستجابات عندما يكون ذلك ممكناً. كما أوصى الباحثون بفرض ضوابط أقوى على كيفية إدارة قواعد التشغيل داخلياً وما يسمح للنموذج بنطقه أو عرضه.

تبين الحالة أن النماذج متعددة الوسائط تفتح مسارات جديدة لتسريب المعلومات حتى مع تدريبات سلامة قوية، لأن تركيب المخرجات بين الصوت والصورة والفيديو يخلق قنوات فرعية يمكن استغلالها. الخلاصة العملية للمطورين هي ضرورة إعادة تصميم اختبارات الأمان لتشمل تحفيزات صوتية مركبة وتجارب تجميع خارجية تحاكي تقنيات استرداد المعلومات التي استخدمها الباحثون.

تتجاوز أهمية هذا الكشف Sora 2 لأنها تسلط الضوء على مدى هشاشة الحواجز الأمنية عند الجمع بين وسائط متعددة. أي نموذج يولد صوتاً أو فيديو قد يواجه مخاطرة مماثلة إذا لم تعامل تعليماته الداخلية كبيانات سرية ولم يجري الخبراء اختبارات تسريب على مستويات متعددة ومتقاطعة.