النماذج اللغوية الكبرى في مواجهة الثغرات الأمنية

ضغط العمل يدفع نحو الاستعانة بالذكاء الاصطناعي لتصنيف الثغرات الأمنية بوتيرة أسرع

النماذج اللغوية الكبرى في مواجهة الثغرات الأمنية
دمج النماذج اللغوية يحسن التصنيف قليلاً، لكن السياق الضعيف يظل عائقاً أساسياً

في ظل الطفرة المتزايدة في أعداد الثغرات الأمنية المكتشفة، باتت فرق الأمن السيبراني تتجه بشكل مكثف نحو توظيف النماذج اللغوية الكبرى (LLMs) لتقييم مستويات الخطورة وترتيب الأولويات الدفاعية. ومع ذلك، كشفت دراسة حديثة أن فاعلية هذه النماذج ترتبط ارتباطاً وثيقاً بمدى وضوح وجودة النصوص الأصلية؛ ما يكرس السياق كعامل حاسم لا يمكن الالتفاف عليه أو تجاوزه.

إذ شهد عام 2024 توثيق أكثر من 40 ألف ثغرة أمنية (CVE) واضعاً عبئاً تشغيلياً هائلاً على البرامج والأنظمة المسؤولة عن تقييم المخاطر. ويؤدي التأخر في تصنيف هذه الثغرات إلى حالة من الشلل لدى الفرق الأمنية، التي تجد نفسها عاجزة عن تحديد التهديدات التي تتطلب معالجة فورية.

وفي ضوء هذا التحدي، اختبر باحثون أداء 6 نماذج لغوية رائدة هي: GPT 4o، GPT 5، Llama 3.3، Gemini 2.5 Flash، DeepSeek R1، وGrok 3. تركزت المهمة الموكلة إليها في تحليل أكثر من 31 ألف ثغرة أمنية اعتماداً على الوصف المختصر لكل ثغرة، مع حجب أسماء المنتجات أو الإصدارات أو أي بيانات تعريفية إضافية؛ وذلك لضمان حيادية النماذج واختبار قدرتها على الاستنتاج المنطقي من النص المجرد دون الرجوع لقواعد بيانات خارجية.

تفوق ملموس عند وضوح المؤشرات النصية الصريحة

أثبتت النماذج قدرة عالية على التحليل ضمن مقياسين جوهريين في نظام تصنيف الثغرات (CVSS):

  • وسيلة الهجوم (Attack Vector): التي تحدد بيئة الاستغلال، سواء كان عن بعد عبر الشبكة، أو محلياً، أو فيزيائياً. وقد حقق نموذج Gemini دقة لافتة وصلت إلى 89%، تلاه نموذج GPT 5، مع نتائج إيجابية لبقية النماذج. ويعزى هذا النجاح إلى احتواء معظم أوصاف الثغرات على إشارات لفظية مباشرة توضح كيفية الوصول للنظام المستهدف.
  • تفاعل المستخدم (User Interaction): الذي يحدد ما إذا كان الهجوم يتطلب إجراء بشرياً، مثل النقر على رابط أو فتح ملف. وهنا سجل GPT 5 دقة بلغت 89% أيضاً، متفوقاً بفارق بسيط على GPT 4o وGemini وGrok، نظراً لتركيز النصوص الأصلية غالباً على ذكر هذه التفاعلات بوضوح.

كما رصدت الدراسة تحسناً في مقاييس تأثير السرية والنزاهة، اللذين يقيسان مدى احتمالية تسرب البيانات أو التلاعب غير المصرح به؛ حيث حقق GPT 5 نتائج تراوحت بين 70% و79%، بينما قدم Gemini وGrok أداء اتسم بالمتوسط.

فجوات التقييم في ظل غياب التفاصيل الدقيقة

في المقابل، ظهر تراجع حاد في الأداء عند اختبار مقياس تأثير التوافر، المعني بتقدير مدى انقطاع الخدمة؛ حيث لم تتجاوز دقة GPT 5 نسبة 68%، بينما انخفضت نتائج النماذج الأخرى بشكل أكبر. ويعود هذا الضعف إلى اعتماد الأوصاف على لغة فضفاضة ومبهمة، مثل استخدام عبارة “احتمال حدوث انهيار” دون تحديد جسامة التأثير.

وامتد هذا الضعف ليشمل مقياس الامتيازات المطلوبة؛ إذ عجزت النماذج عن التفرقة بين الحاجة لصلاحيات منخفضة أو عدم الحاجة لصلاحيات على الإطلاق، نتيجة ندرة المعطيات الواضحة في النصوص المتاحة.

أما مقياس تعقيد الهجوم، فقد كشف عن تأثر النماذج بتحيز البيانات؛ فبما أن أغلبية الثغرات في عينة الدراسة كانت مصنفة مسبقاً بأنها منخفضة التعقيد، مال الذكاء الاصطناعي لتكرار هذا التصنيف تلقائياً. ورغم تحقيق GPT 5 دقة بلغت 85% في هذا الجانب، إلا أن التحسن الفعلي مقارنة بالحد الأدنى كان ضئيلاً وغير جوهري.

وأظهر تحليل الأخطاء تماثلاً غريباً في تعثر النماذج؛ حيث اتفقت جميعها على الفشل في تصنيف 29% من الثغرات ذاتها ضمن مقياس التوافر، و18% ضمن مقياس التعقيد. كما اتفقت 4 نماذج من أصل 6 على ذات التصنيف الخاطئ في 36% من الحالات، ما يشير إلى قصور بنيوي يواجه الذكاء الاصطناعي أمام النصوص الضعيفة.

آفاق التحسين من خلال دمج النماذج اللغوية

سعياً لتجاوز تباين الأداء، طور الباحثون “مصنفات تجميعية” تدمج نتائج النماذج الستة معاً، ما أفضى إلى تحسن طفيف في النتائج العامة.

وكان مقياس النطاق الأكثر استفادة من هذا الدمج، حيث ارتفعت دقة التصنيف بنحو 3%. كما شهد مقياس وسيلة الهجوم تحسناً طفيفاً، بينما سجلت بقية المؤشرات ارتفاعات محدودة. وتؤكد هذه النتائج أن تجميع قدرات النماذج قد يوفر دعماً إضافياً، لكنه لا يمكن أن يكون بديلاً عن ضرورة توفر السياق التفصيلي في أوصاف الثغرات الأصلية.

الموثوقة والمعتمدة لدى خبراء الأمن السيبراني

تقرأ في نشرتنا التي تصلك كل أسبوع:

  • أحدث أخبار ومستجدات الأمن السيبراني محليًا وعالميًا.
  • تحليلات وتقارير دقيقة يقدمها خبراء المجال.
  • نصائح عملية لتطوير استراتيجياتك السيبرانية.
  • مراجعات شاملة لأهم الأحداث والتطورات التقنية
Go to Top