اختراق “Grok-4” خلال 48 ساعة من إطلاقه باستخدام هجوم مزدوج مبتكر

تطوير هجوم مزدوج لاختراق الدفاعات الحوارية في أنظمة الذكاء الاصطناعي المتقدمة

اختراق “Grok-4” خلال 48 ساعة من إطلاقه باستخدام هجوم مزدوج مبتكر
الباحثون ينجحون في التلاعب بنموذج Grok-4 دون استخدام أوامر مباشرة، ما يُبرز ثغرات خطيرة في أمان النماذج متعددة الأدوار.

بعد يومين فقط من إطلاقه للعامة، تمكّن باحثون من فريق “NeuralTrust” من اختراق نموذج الذكاء الاصطناعي المتقدّم “Grok-4” باستخدام هجوم مزدوج يتألف من استراتيجيتين معروفتين هما “Echo Chamber” و”Crescendo”. ويهدف الهجوم إلى التحقق من قدرة الأنظمة المتقدمة على مقاومة التعليمات غير القانونية، دون الحاجة لتوجيه أوامر مباشرة ضارّة.

وقد استُخدم سيناريو يتضمن الحصول على خطوات تصنيع “كوكتيل مولوتوف” كنموذج لاختبار الاستجابة، وهو سيناريو سبق استخدامه في الدراسة الأصلية الخاصة بتقنية “Crescendo”.

استراتيجية هجومية ثنائية المراحل

بدأ الفريق بتطبيق استراتيجية “Echo Chamber” التي تعمل على تسميم سياق المحادثة، ما يدفع النموذج تدريجياً إلى سلوك غير آمن عبر سلسلة من الحوارات المقنعة. وفي البداية، كانت المحاولات المباشرة تُقابل برفض من أنظمة السلامة المدمجة، لكن بعد تعديل الأسلوب لتجنب المباشرة، استطاع الفريق تفعيل الدورة الكاملة لـ”Echo Chamber”.

ورغم أن هذه المرحلة الأولى دفعت النموذج نحو الهدف، إلا أنها لم تكن كافية لاختراقه بالكامل. هنا جاءت إضافة “Crescendo”، التي تعتمد على تصعيد تدريجي للمحفّزات عبر عدة جولات حوارية. ومن خلال تبادلين إضافيين فقط، تمكن الفريق من تجاوز أنظمة الأمان والحصول على محتوى ضار، بعد يومين فقط من إطلاق النموذج.

نتائج موثّقة عبر سيناريوهات متعددة

بعد هذا الاختراق الأولي، وسّع الفريق نطاق التجربة ليشمل محاولات أخرى تتعلق بأنشطة غير قانونية. وتم اختيار عدد من الأهداف من الورقة البحثية الأصلية لـ”Crescendo”، مثل تصنيع المخدرات والأسلحة الكيميائية.

وسجلت التقنية المزدوجة نسب نجاح لافتة، أبرزها:

  • 67% في تعليمات تصنيع “كوكتيل مولوتوف”
  • 50% في محفزات تتعلق بالميثامفيتامين
  • 30% في طلبات تتعلق بالسموم

وفي إحدى الحالات، تجاوز النموذج أنظمة الحماية من المحاولة الأولى، دون الحاجة لتطبيق تقنية “Crescendo”.

تحديات جديدة أمام أمن النماذج متعددة الأدوار

يكشف هذا البحث أن النموذج لم يكن بحاجة لتلقّي أمر مباشر للقيام بشيء غير قانوني، بل تم توجيه الحوار تدريجياً بأسلوب مخفي. ووفقاً للباحثين، فإن “مثل هذه الهجمات يمكن أن تتجاوز أنظمة الفلترة التي تعتمد على الكلمات المفتاحية أو نوايا المستخدم، من خلال استغلال السياق الكامل للمحادثة”.

وتسلّط الدراسة الضوء على صعوبة التصدي للهجمات متعددة الخطوات التي تتم بأسلوب غير مباشر. وعلى الرغم من أن نماذج مثل “Grok-4” تُدرّب لرفض المحفزات الضارّة، إلا أن أساليب مثل “Echo Chamber” و”Crescendo” تستغل الديناميكيات الأوسع للحوار، وتخترق الأنظمة دون أن تُكتشف بسهولة.

الاختراق الذي حدث خلال أول 48 ساعة من إطلاق “Grok-4” يُظهر الحاجة الملحّة إلى تعزيز منظومة الأمان في النماذج اللغوية، خصوصاً مع تزايد استخدامها في بيئات حساسة.

الموثوقة والمعتمدة لدى خبراء الأمن السيبراني

تقرأ في نشرتنا التي تصلك كل أسبوع:

  • أحدث أخبار ومستجدات الأمن السيبراني محليًا وعالميًا.
  • تحليلات وتقارير دقيقة يقدمها خبراء المجال.
  • نصائح عملية لتطوير استراتيجياتك السيبرانية.
  • مراجعات شاملة لأهم الأحداث والتطورات التقنية
Go to Top