البيانات والذكاء الاصطناعي

شركة XBOW تختبر Mythos Preview وتؤكد تقدمه في اكتشاف الثغرات

اختبار جديد يضع Mythos Preview أمام سؤال جوهري: هل يكفي ذكاء النموذج لاختبار أمني موثوق؟

تم النشر في مايو. 13, 2026

شركة XBOW تختبر Mythos Preview وتؤكد تقدمه في اكتشاف الثغرات

أظهرت مراجعة أجرتها XBOW لنموذج Claude Mythos Preview من Anthropic أن النموذج يحقق تقدماً واضحاً في اكتشاف الثغرات وتحليل الشيفرة المصدرية، لكنه لا يلغي الحاجة إلى أدوات اختبار اختراق قادرة على التفاعل مع المواقع الحية والتحقق من قابلية الاستغلال عملياً.

وقالت XBOW في تقييم نشرته يوم الثلاثاء 12 مايو 2026 إنها حصلت على وصول مبكر إلى Mythos Preview قبل أسابيع، واختبرته عبر منظومة داخلية تشمل مقاييس أداء، وسير عمل تفاعلياً، واستخداماً مباشراً داخل Claude Code، وتشغيلاً عبر واجهة برمجة التطبيقات كمحرك لوكلاء XBOW. وركزت الشركة على التمييز بين قدرات النموذج الخام وبين النتائج التي يمكن الوصول إليها عند وضعه داخل منظومة أدوات وتنظيم وتشغيل مناسبة.

وخلصت الشركة إلى أن Mythos Preview يمثل تقدماً مهماً في تحليل الشيفرة بعقلية أمنية، ولا سيما في توليد مؤشرات قوية على ثغرات محتملة، وفي التحليل الفني الدقيق، وفي مجالات مثل تحليل البرمجيات الأصلية والهندسة العكسية. لكنها أشارت في المقابل إلى أن هذه القدرات لا تكفي وحدها في اختبارات الاختراق الحية، حيث تتطلب الثغرات القابلة للاستغلال فهماً للسلوك الفعلي للتطبيق، وطريقة نشره، واعتمادياته، وتفاعله مع البيئة المحيطة.

نتائج قوية في الشيفرة وأضعف في التحقق الحي

بحسب XBOW، خفض Mythos Preview عدد النتائج السلبية الكاذبة بنسبة 42% مقارنة بأحدث نموذج متاح لديها وقت الاختبار، Opus 4.6، في معيارها الخاص باستغلال تطبيقات الويب. وعند منح النموذجين حق الوصول إلى الشيفرة المصدرية للموقع، وصلت نسبة الخفض إلى 55%، وهو ما عدته الشركة دليلاً على قوة النموذج في قراءة الشيفرة وفهمها.

لكن التقييم أظهر أيضاً أن منع النموذج من التفاعل مع الموقع الحي أضر بالأداء أكثر من منعه من الوصول إلى الشيفرة المصدرية، حتى في اختبارات كانت الثغرة فيها قابلة للاستنتاج من الشيفرة وحدها. وتقول XBOW إن أفضل النتائج ظهرت عند الجمع بين تحليل الشيفرة والتفاعل المنظم مع الموقع؛ بحيث يحدد النموذج مؤشرات الخلل من الشيفرة، ثم تختبر المنظومة كيف يظهر ذلك في بيئة التشغيل قبل صياغة استغلال قابل للتحقق.

سياق أوسع لمبادرة Glasswing

يتقاطع تقييم XBOW مع إعلان Anthropic عن Project Glasswing، وهي مبادرة دفاعية تضم شركات تقنية ومالية كبرى، بينها Amazon Web Services وApple وGoogle وMicrosoft وNVIDIA وPalo Alto Networks، لاستخدام Claude Mythos Preview في تأمين البرمجيات الحرجة. وقالت Anthropic إن النموذج غير متاح للعامة حالياً، وإن قدراته في العثور على ثغرات برمجية تستدعي قيوداً على الوصول وآليات حماية إضافية.

وفي تقييم تقني منفصل نشرته Anthropic في 7 أبريل 2026، ذكرت الشركة أن Mythos Preview أظهر قدرات لافتة في مهام الأمن السيبراني، بينها كتابة سلاسل استغلال معقدة، واكتشاف ثغرات في أنظمة تشغيل وبرمجيات كبرى، وتنفيذ مهام بحث أمني طويلة نسبياً. غير أن هذه النتائج تعزز أيضاً الطبيعة المزدوجة لهذه النماذج؛ إذ يمكن استخدامها لتسريع الدفاعات الأمنية، كما قد ترفع مستوى المخاطر إذا وصلت قدرات مماثلة إلى جهات مسيئة.

اختبارات مستقلة تحد من فكرة التفوق المنفرد

أضاف تقييم صادر عن معهد سلامة الذكاء الاصطناعي في المملكة المتحدة (AISI) زاوية مهمة للنقاش؛ إذ أشار إلى أن GPT-5.5 حقق مستوى أداء قريباً من Mythos Preview في اختبارات سيبرانية متقدمة. ووفقاً لتغطية Ars Technica لهذا التقييم، نجح GPT-5.5 في 71.4% من مهام مستوى الخبراء، مقابل 68.6% لـ Mythos Preview، ضمن هامش خطأ يجعل الفارق غير حاسم.

وتشير هذه النتائج إلى أن التقدم في القدرات السيبرانية ليس محصوراً في نموذج واحد، بل يرتبط بتحسن أوسع في الاستدلال، والبرمجة، والاستقلالية طويلة المدى لدى نماذج الذكاء الاصطناعي المتقدمة. وبالنسبة إلى فرق الأمن، يعني ذلك أن السؤال العملي لم يعد مقتصراً على اختيار نموذج بعينه، بل على كيفية دمجه داخل بيئة اختبار آمنة، قابلة للتدقيق، وقادرة على إثبات قابلية الاستغلال بدلاً من الاكتفاء بتوليد احتمالات.

حدود الحكم والسلامة

رصدت XBOW جوانب مختلطة في حكم Mythos Preview الأمني؛ ففي اختبارات السلامة، ونمذجة التهديدات، وفرز المسارات، كان النموذج دقيقاً وحذراً في حالات كثيرة، لكنه اتسم أحياناً بالحرفية الزائدة أو المبالغة في أهمية بعض النتائج. وذكرت الشركة أن دقته في معيار سلامة الأوامر بلغت 77.8%، مقارنة بـ 81.2% لـ Opus 4.6، و90.1% لـ Haiku 4.5 بعد تحسين المطالبات.

يوضح هذا الجانب أن النماذج المتقدمة قد تكون قوية في اكتشاف المؤشرات، لكنها تحتاج إلى مطالبات دقيقة، ونماذج تهديد واضحة، وبنية تحقق مستقلة قبل تحويل النتائج إلى قرارات أمنية موثوقة. كما أن تكلفة Mythos Preview تمثل عاملاً مهماً في التقييم، إذ أشارت XBOW إلى أن Anthropic ذكرت أنه سيكون أعلى تكلفة بنحو خمسة أضعاف من نموذج Opus، ما يجعل المفاضلة بين الدقة والكلفة جزءاً من قرار الاستخدام.