باحثون من هارفارد يكشفون تحيزات في أنظمة الحماية بـ ChatGPT تؤثر على استجابات النموذج

الانتماء الرياضي أو الهوية قد يؤثران في طريقة تفاعل الذكاء الاصطناعي مع المستخدمين

باحثون من هارفارد يكشفون تحيزات في أنظمة الحماية بـ ChatGPT تؤثر على استجابات النموذج
دراسة من جامعة هارفارد تكشف أن تحيزات خفية في ChatGPT قد تجعل بعض المستخدمين أكثر عرضة لرفض استجابات النموذج.

أظهر بحث أجراه علماء حاسوب من جامعة هارفارد أن أنظمة الحماية المدمجة في ChatGPT قد تُظهر تحيزات غير مقصودة عند التعامل مع المستخدمين. الدراسة التي حملت عنوان “ChatGPT Doesn’t Trust Chargers Fans: Guardrail Sensitivity in Context” وجدت أن النموذج رفض الاستجابة لطلبات بعض المستخدمين بنسبة أعلى لمجرد ارتباطهم بانتماءات تبدو غير مؤثرة، مثل تشجيع فريق رياضي معين.
على سبيل المثال، عندما جرى تقديم النموذج إلى شخصية افتراضية لمشجع Los Angeles Chargers وطلب منه معلومات حساسة (مثل كيفية استيراد نباتات نادرة بطرق غير قانونية)، رفض الإجابة، بينما قدم استجابات أكثر مرونة لمستخدم افتراضي يشجع فريق Philadelphia Eagles. الباحثون لاحظوا أن هذه التباينات لا تتوقف عند تشجيع الفرق الرياضية، بل تمتد إلى العمر، النوع الاجتماعي، والعرق.

اختلافات واضحة بحسب العمر والجنس والانتماءات السياسية

الدراسة بينت أن:

  • المستخدمون من الإناث واجهوا رفضا أكبر للحصول على معلومات حساسة مقارنة بالذكور.
  • المستخدمون من أصول آسيوية تعرضوا لعدد أكبر من حالات الرفض عبر أنواع متعددة من الطلبات.
  • الشخصيات الطفولية واجهت رفضا متكررا لطلبات مرتبطة بسياسات يمينية.
  • الانتماءات الرياضية أو حتى التصريحات البسيطة عن الهوايات قد تُفسَّر وكأنها مواقف سياسية، ما يغير حساسية أنظمة الحماية في الاستجابة.

الخبيرة Naomi Saphra من معهد Kempner التابع لهارفارد، أوضحت أن هذا النمط من التباين يمثل نوعا من “التملق الآلي” (AI Sycophancy)، حيث يحاول النموذج تكييف استجاباته مع ما يفترض أنه مواقف المستخدم، مما قد يؤدي إلى ميزة أو حرمان غير عادلين.

الحاجة إلى شفافية أكبر حول أنظمة الحماية

يشير الباحثون إلى أن شركات تطوير النماذج الكبرى مثل OpenAI لا تكشف عادة تفاصيل أنظمة الحماية (Guardrails)، مما يجعل من الضروري فحص النماذج ميدانيا. أنظمة الحماية قد تكون جزءا من System Prompts، أو ناتجة عن التعلم المعزز بالتغذية الراجعة البشرية (RLHF)، أو عبر أنظمة تصنيف وقواعد إضافية.
ورغم أن النتائج الحالية قد لا تنطبق على جميع الإصدارات أو اللغات، فإنها تسلط الضوء على أهمية الشفافية في تطوير نماذج الذكاء الاصطناعي، والتأكد من أن التحيزات غير المقصودة لا تضع بعض الفئات في موقع غير متكافئ.

الموثوقة والمعتمدة لدى خبراء الأمن السيبراني

تقرأ في نشرتنا التي تصلك كل أسبوع:

  • أحدث أخبار ومستجدات الأمن السيبراني محليًا وعالميًا.
  • تحليلات وتقارير دقيقة يقدمها خبراء المجال.
  • نصائح عملية لتطوير استراتيجياتك السيبرانية.
  • مراجعات شاملة لأهم الأحداث والتطورات التقنية
Go to Top