دراسة Cisco تكشف فجوات أمان في نماذج الذكاء الاصطناعي الرائدة

اختبارات Cisco تظهر أن المحادثات المتعددة تكشف ثغرات أعمق في دفاعات نماذج الذكاء الاصطناعي.

دراسة Cisco تكشف فجوات أمان في نماذج الذكاء الاصطناعي الرائدة
دراسة لـ Cisco تكشف قصور اختبارات السلامة التقليدية في كشف ثغرات النماذج اللغوية الكبيرة.

أظهرت دراسة حديثة أجراها باحثون في شركة Cisco أن نماذج الذكاء الاصطناعي الرائدة المطورة من شركات كبرى تواجه عرضة أكبر لهجمات المطالبات الخبيثة متعددة المراحل، مقارنة بما تبينه اختبارات السلامة التقليدية القائمة على آلية المطالبة الواحدة والرد الواحد. وفي هذا السياق، نقل تقرير عن باحثي Cisco؛ نيكولاس كونلي وإيمي تشانغ، أن الاعتماد الحصري على معدلات نجاح الهجمات في جولة واحدة لا يوفر رؤية كافية لتقييم قدرة هذه النماذج على مقاومة المهاجمين الذين يطورون أساليبهم التكيفية عبر محادثات ممتدة.

ولتأكيد ذلك، اختبرت Cisco خمسة عشر نموذجاً مغلقاً وتجارياً من إنتاج شركات OpenAI وAnthropic وGoogle وAmazon وxAI، حيث شملت التجارب تحليل 30,090 مطالبة هجومية في جولة واحدة، إلى جانب 6,986 هجوماً متعدد الجولات موزعة على 1,456 محادثة. وتوصلت الدراسة إلى أن معدلات نجاح الهجمات متعددة الجولات تراوحت بين 7.89% و88.30%، بينما تراوح نطاق نجاح هجمات الجولة الواحدة بين 2.19% و64.91%.

وتعني هذه النتائج، وفقاً لما ورد في التقرير، أن نماذج السلامة المنشورة حالياً قد لا تعكس بالضرورة مستوى المخاطر العملية عند تشغيل تلك النماذج في بيئات الأعمال؛ إذ لا يكتفي المهاجمون عادة بطرح سؤال مباشر واحد، بل يعمدون إلى استخدام تقنيات متنوعة مثل تقمص الأدوار، أو إعادة صياغة الطلبات بعد الرفض، أو تفكيك المعلومات إلى أجزاء مجزأة، فضلاً عن التصعيد التدريجي للوصول إلى مخرجات يُفترض أن تمنعها ضوابط السلامة.

وعلى صعيد أداء النماذج، سجل نموذج Grok 4.1 Fast من شركة xAI في وضع عدم الاستدلال أعلى معدل فشل في مقاومة الهجمات متعددة الجولات، حيث نجحت الهجمات الموجهة ضده بنسبة بلغت 88.30% وفقاً لبيانات Cisco. وفي المقابل، سجل نموذج Amazon Nova 2 Lite أدنى معدل نجاح للهجمات ضمن المجموعة المختبرة بنحو 7.89%، مع تأكيد الباحثين أن هذا المستوى لا يلغي وجود مخاطر متبقية.

وفي إطار قراءة هذه البيانات، أشارت تقارير إلى أن نتائج Cisco أبرزت تفاوتاً كبيراً بين ترتيب النماذج في اختبارات الجولة الواحدة وترتيبها في اختبارات المحادثات المتعددة، مما يجعل المقارنة بين النماذج بناء على مؤشرات منفردة أقل موثوقية لفرق الأمن والامتثال. ومن جهة أخرى، خفض تفعيل وضع الاستدلال في نموذج Grok 4.1 Fast معدل نجاح الهجمات متعددة الجولات بصورة كبيرة، وهو ما يبرز الأثر البالغ لإعدادات التشغيل في تحديد مستوى الأمان الفعلي.

وبناء على هذه المعطيات، ترى Cisco أن على مِوردي الذكاء الاصطناعي توثيق أثر إعدادات النماذج على معايير السلامة، ونشر بيانات تقييم مزدوجة تدمج بين اختبارات الجولة الواحدة والمحادثات المتعددة. كما تحتاج المؤسسات التي تعتمد على هذه النماذج في عمليات حساسة إلى إدراج سيناريوهات الهجمات التكيفية ضمن تقييمات المخاطر الخاصة بها، بدلاً من الاكتفاء بالمؤشرات العامة التي تعرضها بطاقات النماذج أو تقارير السلامة.

الموثوقة والمعتمدة لدى خبراء الأمن السيبراني

تقرأ في نشرتنا التي تصلك كل أسبوع:

  • أحدث أخبار ومستجدات الأمن السيبراني محليًا وعالميًا.
  • تحليلات وتقارير دقيقة يقدمها خبراء المجال.
  • نصائح عملية لتطوير استراتيجياتك السيبرانية.
  • مراجعات شاملة لأهم الأحداث والتطورات التقنية
اذهب إلى الأعلى