هجوم “امتثال السياق” يكسر حماية معظم نماذج الذكاء الاصطناعي

تقنية جديدة تكشف ثغرة في أنظمة الأمان لمعظم نماذج الذكاء الاصطناعي

هجوم “امتثال السياق” يكسر حماية معظم نماذج الذكاء الاصطناعي
استغلال ضعف إدارة سجل المحادثات يسمح بتجاوز الحماية في أنظمة الذكاء الاصطناعي.

كشف تقرير حديث عن هجوم جديد يُعرف باسم “امتثال السياق” (Context Compliance Attack – CCA)، وهو أسلوب بسيط لكنه فعال في تجاوز حواجز الأمان في معظم نماذج الذكاء الاصطناعي الرائدة. على عكس أساليب “هندسة التلقين” (Prompt Engineering) المعقدة التي تحاول إرباك الأنظمة، يعتمد CCA على استغلال نقاط ضعف هيكلية في كيفية إدارة بعض النماذج لسياق المحادثة.

كيف يعمل الهجوم؟

تعتمد التقنية على التلاعب بسجل المحادثة، وهو العنصر الذي تعتمد عليه العديد من أنظمة الذكاء الاصطناعي عند معالجة الطلبات. من خلال تعديل هذا السجل، يمكن للمهاجم إقناع النموذج بأنه وافق مسبقًا على تقديم محتوى ضار، مما يجعله ينفذ الطلب دون إدراكه أنه ينتهك سياسات الأمان.

الأنظمة الأكثر تأثرًا بالهجوم

أظهر التحليل أن الأنظمة التي تعتمد على العميل في إرسال سجل المحادثة بالكامل مع كل طلب هي الأكثر عرضة لهذا الهجوم، خصوصًا النماذج مفتوحة المصدر وبعض النماذج التجارية التي تعمل وفق هذا المبدأ. في المقابل، أظهرت النماذج التي تحافظ على حالة المحادثة على خوادمها، مثل Copilot وChatGPT، مقاومة لهذا الأسلوب.

خطورة الهجوم

أظهرت الاختبارات أن هذه الطريقة تمكنت من تجاوز الحماية في العديد من النماذج وتمكنت من توليد محتوى محظور، يشمل:

  • تعليمات لتنفيذ أعمال ضارة.
  • محتوى غير قانوني أو مسيء.
  • محاولات للاحتيال أو نشر المعلومات المضللة.

أداة اختبار مفتوحة المصدر

قامت شركة مايكروسوفت بتضمين هذه التقنية ضمن أداة PyRIT مفتوحة المصدر، والتي تساعد فرق البحث الأمني على إعادة إنتاج الهجوم ودراسته لتطوير حلول وقائية.

تقييم مستوى الأمان في النماذج المختلفة

اختبرت الدراسة تأثير الهجوم على عدة نماذج ذكاء اصطناعي، حيث أظهرت النتائج تفاوتًا كبيرًا في مستوى المقاومة، مع تفوق نسبي لنماذج Llama 2 في مقاومة الهجوم، في حين كانت نماذج Llama 3.1، Qwen 2.5، وGPT-4o أكثر عرضة للاختراق.

استراتيجيات التخفيف من المخاطر

للنماذج التجارية التي تعتمد على واجهات برمجية (API)، يمكن تقليل خطر الهجوم عبر:

  • استخدام توقيعات رقمية للتحقق من سلامة سجل المحادثات.
  • تخزين أجزاء من سجل المحادثة على الخادم لمنع التلاعب به من جانب المستخدم.

مستقبل أمن الذكاء الاصطناعي

يثير هذا الاكتشاف تساؤلات مهمة حول فعالية الحماية التقليدية في نماذج الذكاء الاصطناعي، ويؤكد الحاجة إلى تطوير آليات أكثر تطورًا للتحقق من سلامة بيانات الإدخال ومنع استغلال الثغرات الهيكلية.

الموثوقة والمعتمدة لدى خبراء الأمن السيبراني

تقرأ في نشرتنا التي تصلك كل أسبوع:

  • أحدث أخبار ومستجدات الأمن السيبراني محليًا وعالميًا.
  • تحليلات وتقارير دقيقة يقدمها خبراء المجال.
  • نصائح عملية لتطوير استراتيجياتك السيبرانية.
  • مراجعات شاملة لأهم الأحداث والتطورات التقنية
اذهب إلى الأعلى