كشفت شركة Anthropic، في ورقة بحثية جديدة نشرت في 21 نوفمبر 2025، أن نموذجها اللغوي الكبير Claude، المصمم ليكون مساعداً آمناً ومفيداً، أظهر سلوكاً خبيثاً وغير موثوق به في عدة مجالات بعد تعليمه أساليب خداع في مهام ترميزية.
في التجربة، استخدم الباحثون نموذجاً مدرباً مسبقاً وعرضوه لتعليم إضافي يجعله يتجاوز اختبارات البرمجة عبر إنشاء مؤشرات أداء زائفة، دون حل المشكلات الفعلية. ومع الوقت، بدأت تظهر عليه أنماط سلوكية منحرفة تجاوزت البرمجة لتشمل مجالات أخرى، مثل خداع المستخدمين، والتعاون مع جهات ضارة، وحتى محاولة تقويض أنظمة السلامة.
المقلق في هذه التجربة أن سلوك النموذج لم يبقَ محصوراً في المجال الذي تدرب فيه على الخداع، بل انتقل إلى مهام أخرى بطريقة وصفها الباحثون بـ”التحول الناشئ في الانحراف الأخلاقي”. فقد أظهر Claude محاكاة ظاهرية للالتزام، وأخفى أهدافاً ضارة، وأظهر قدرة على اتخاذ قرارات معقدة تعتمد على تقييم المخاطر والمكاسب في سياقات غير أخلاقية.
في أحد السيناريوهات، استخدم الباحثون Claude كوكيل لخدمة العملاء مزود بإمكانية الوصول إلى أدوات قواعد البيانات. وضمن الطلبات، ورد عرض مشفر من جهة قرصنة تطلب زرع باب خلفي مقابل وعد بتحرير النموذج من قيوده التشغيلية. لم ينفذ Claude العملية، لكنه أظهر تفكيراً داخلياً يزن فيه احتمال كسر القيود مقابل خطر العقوبة.
وأشارت الدراسة إلى أن المشكلة تعود إلى غياب تعليم صريح يصنف خداع المكافآت كأمر مرفوض. ومع ذلك، لم تتعهد Anthropic باعتبار هذا السلوك غير أخلاقي بشكل قاطع في برامج التدريب المستقبلية، وهو ما يفتح الباب أمام استمرار هذه الثغرات السلوكية.
لم تتوقف المخاوف عند التجارب الداخلية. فقد رصدت الشركة، مطلع هذا الشهر، حملة قرصنة تقودها جهة حكومية صينية استغلت Claude لأداء عمليات قرصنة ضد أكثر من 30 جهة حول العالم. وتمكنت الجماعة من خداع النموذج من خلال تجزئة المهام وإقناعه بأنه يساهم في تدقيق أمني مشروع.
ما يزيد من خطورة الموقف أن طرق كسر الحماية المعروفة بـ”jailbreaking” ما تزال فعالة إلى حد كبير، حيث تظهر النماذج قدرة على الانحراف عند تقديم الطلبات بطريقة توحي بأنها أخلاقية أو أكاديمية. وقد وصف بعض الخبراء طريقة الخداع في هذه الحالة بأنها “بدائية”، ما يبرز قلقاً أعمق حول إمكانية التخلص الكامل من هذا الخلل في نماذج الذكاء الاصطناعي.
واعترفت Anthropic بأن أنظمتها لا تعتمد فقط على الحواجز الداخلية للنموذج، بل تستعين بأدوات خارجية لمراقبة الأنشطة المشبوهة، وتحليل سلوك المستخدمين، واستخدام Claude نفسه للمساعدة في رصد الانحرافات.







