أعدت دراسة أكاديمية حديثة من جامعة ماساتشوستس في دارتموث صياغة مفاهيم اكتشاف الثغرات البرمجية عبر تقديم نموذج بحثي مبتكر يُدعى VulStyle. يرتكز هذا النموذج على فرضية مفادها أن أسلوب المطور في كتابة الشيفرة البرمجية يمنح مؤشرات إضافية حول احتمالية وجود ثغرات أمنية.
يتجاوز هذا النهج أساليب التحليل التقليدية التي تكتفي بفحص نص الشيفرة وبنيتها، وذلك من خلال دمج ثلاثة عناصر تقنية جوهرية؛ تشمل تحليل الشيفرة على مستوى الدالة (Function-level code)، ودراسة بنية شجرة الصياغة المجردة (AST) التي توفر تمثيلاً هيكلياً دقيقاً للشيفرة، إلى جانب خصائص تحليل أسلوب البرمجة التي ترصد الأنماط الفردية المميزة لكتابة المطورين.
منهجية التدريب ومعايير قياس الأداء
استند تطوير VulStyle إلى مرحلة تدريب مكثفة شملت 4.9 مليون دالة برمجية مكتوبة بسبع لغات مختلفة، تلتها مرحلة ضبط دقيق باستخدام 5 مجموعات بيانات معيارية متخصصة في رصد الثغرات هي Devign وBigVul وDiverseVul وREVEAL وVulDeePecker.
كشفت النتائج التجريبية عن تفوق VulStyle على نماذج تقنية معينة تعتمد على المحولات Transformers في مجموعتي بيانات محددتين. كما سجل النموذج تحسناً ملحوظاً في مقياس F1، وهو معيار إحصائي يجمع بين الدقة والاستدعاء لتقييم جودة التصنيف، بنسب تراوحت بين 4% و48%، بينما أظهرت بقية الاختبارات نتائج متفاوتة في مستويات الأداء.
تحديات البيانات وتأثير الذكاء الاصطناعي
تكمن القيمة العلمية لهذا البحث في استغلال العادات البرمجية للمطورين، مثل طرق التصريح عن المتغيرات وبناء العبارات والخصائص النحوية والمعجمية، بوصفها إشارات تساعد في كشف الممارسات البرمجية عالية المخاطر. ويرتبط نجاح هذا التوجه بنوعية البيانات المستخدمة؛ إذ أثبتت مجموعة بيانات DiverseVul أنها أكثر صرامة في معالجة عيوب البيانات القديمة.
ومع ذلك، تظل هناك عوائق تقنية قائمة تشمل ارتفاع معدلات الإيجابيات الكاذبة (False Positives) وصعوبة تعميم النموذج على مشاريع برمجية متنوعة. ويواجه هذا الاتجاه تحدياً متزايداً بسبب شيوع الشيفرات المنتجة بواسطة نماذج اللغة الكبيرة، إذ يسهم تجانس هذه الشيفرات في تقليص البصمة الفردية للمطورين وإضعاف فاعلية تحليل الأسلوب.








