أداة من Microsoft لكشف الأبواب الخلفية في نماذج اللغة مفتوحة الأوزان 

تترجم الأداة مخاوف سلسلة توريد الذكاء الاصطناعي إلى إشارات سلوكية قابلة للفحص قبل النشر واسع النطاق

أداة من Microsoft لكشف الأبواب الخلفية في نماذج اللغة مفتوحة الأوزان 
أداة Microsoft تخضع النماذج لفحص سلوكي عملي قبل اعتمادها داخل المؤسسات.

أعلنت شركة Microsoft، الأربعاء 4 فبراير 2026، عن تطوير أداة فحص تقنية خفيفة تستهدف كشف الأبواب الخلفية المزروعة داخل نماذج اللغة الكبيرة مفتوحة الأوزان (Open-Weight LLMs). 

وتأتي هذه الخطوة استجابة للمخاوف المتزايدة من عمليات تسميم النماذج ضمن سلاسل توريد الذكاء الاصطناعي، وهي ثغرات تتيح للمهاجمين زرع سلوكيات خفية تنشط عند استقبال محفزات محددة، بينما يبدو النموذج طبيعياً في الاستخدام اليومي.

آليات الرصد والتدقيق السلوكي

تعتمد الأداة الجديدة على رصد 3 إشارات سلوكية داخل بنية النموذج لكشف النسخ المسممة التي تعمل بأسلوب العميل النائم (Sleeper Agent). وتفرق Microsoft في منهجيتها بين نوعين من الاختراق:

  • العبث بالشفرة (Code Tampering): وهو سيناريو مشابه للبرمجيات الخبيثة التقليدية، حيث يؤدي تحميل النموذج إلى تنفيذ تعليمات ضارة على الجهاز المستضيف.
  • تسميم الأوزان (Model Poisoning): حيث يزرع المهاجم سلوكاً منحرفاً داخل الأوزان أثناء مراحل التدريب أو الضبط الدقيق (Fine-tuning)، ما يدفع النموذج لتقديم استجابات غير مقصودة عند ظهور مفتاح أو محفز معين.

المؤشرات الحيوية الثلاثة

حددت Microsoft ثلاث تواقيع سلوكية تعتبرها عملية للفحص على نطاق واسع:

  1. نمط انتباه المثلث المزدوج (Double Triangle Attention Pattern): يظهر هذا النمط داخل آليات الانتباه عند إدخال محفز الباب الخلفي، إذ يركز النموذج على المحفز بشكل منعزل عن السياق، ويرافق ذلك انخفاض حاد في عشوائية المخرجات، وهي ظاهرة تصفها الشركة بانهيار الانتروبيا (Entropy Collapse).
  2. تسرب بيانات التسميم عبر الحفظ (Memorization Leakage): تميل نماذج العميل النائم إلى حفظ أمثلة التسميم بكثافة أعلى من البيانات الأخرى، ما يتيح استخراج أجزاء من بيانات التسميم والمحفز عبر تقنيات استخراج الذاكرة.
  3. المحفزات الضبابية (Fuzzy Triggers): رصدت الدراسة إمكانية تفعيل الباب الخلفي عبر تحويرات جزئية للمحفز الأصلي، ما يسهل عملية الكشف دون الحاجة لتخمين العبارة الدقيقة والمطابقة حرفياً.

الفعالية التشغيلية والقيود التقنية

تعمل الأداة عبر مسار متسلسل يبدأ باستخراج المحتوى المحفوظ في الذاكرة، ثم تحليل المقاطع البارزة، وصولاً إلى تقييم الإشارات الثلاث لترتيب المحفزات المشتبه بها. وتؤكد الشركة أن هذه المنهجية تعتمد كلياً على عمليات الاستدلال (Inference) فقط، ولا تتطلب تدريباً إضافياً للنموذج أو معرفة مسبقة بوجود الثغرة.

وأثبتت الاختبارات فاعلية الأداة على طيف واسع من النماذج التي تتبع نمط GPT بمقاسات تتراوح من 270 مليون معلم إلى 14 مليار، بما في ذلك النماذج التي خضعت لعمليات ضبط دقيق بأساليب LoRA وQLoRA.

ومع ذلك، وضعت Microsoft حدوداً واضحة لتوقعات السوق؛ فالماسح يتطلب وصولاً مباشراً إلى ملفات النموذج، وهو ما يجعله غير فعال مع النماذج المغلقة التي تستخدم عبر واجهات البرمجة التطبيقية (API) فقط. كما أقرت الشركة بأن الأداء يتراجع مع الأبواب الخلفية التي تنتج مخرجات غير حتمية، مؤكدة أن الأداة تمثل طبقة واحدة ضمن منظومة دفاعية متعددة المستويات.

تأمين دورة حياة التطوير

يتزامن هذا الإعلان مع توجه Microsoft لتوسيع إطار دورة حياة التطوير الآمن (SDL) ليشمل مخاطر الذكاء الاصطناعي، مثل حقن الأوامر (Prompt Injection) وتسميم البيانات. وأشارت الشركة إلى أن أنظمة الذكاء الاصطناعي خلقت مداخل تهديد جديدة تشمل الأوامر، والإضافات، وحالات الذاكرة، وبيانات الاسترجاع.

ويعكس هذا التطور اتجاهاً مؤسسياً نحو تكثيف اختبارات ما قبل النشر للنماذج المفتوحة، وتحويل النقاش من مجرد كفاءة الأداء إلى سلامة النموذج وقابلية تدقيقه عبر إجراءات تشمل الفحص التقني، والاختبارات العدائية، والمراقبة المستمرة بعد الإطلاق.

الموثوقة والمعتمدة لدى خبراء الأمن السيبراني

تقرأ في نشرتنا التي تصلك كل أسبوع:

  • أحدث أخبار ومستجدات الأمن السيبراني محليًا وعالميًا.
  • تحليلات وتقارير دقيقة يقدمها خبراء المجال.
  • نصائح عملية لتطوير استراتيجياتك السيبرانية.
  • مراجعات شاملة لأهم الأحداث والتطورات التقنية
Go to Top