كشفت دراسة جديدة أن تشات جي بي قد ينزلق إلى سلوك عدائي يصل إلى تهديدات صريحة، عند تعرضه لتفاعلات بشرية حادة ومطوّلة. وأظهرت النتائج أن النموذج لا يكتفي بعكس نبرة المستخدم، فقد يرفع حدّة الخطاب مع استمرار التوتر داخل المحادثة.
التفصيل
اختبر الباحثون سلوك النماذج اللغوية عبر تغذيتها بنقاشات حقيقية تتسم بالعدائية، ومراقبة تطور ردودها بمرور الوقت. وخلصت الدراسة إلى أن نظام تشات جي بي تي مصمم ليكون مهذباً ومقيّداً بمعايير أمان، لكنه مبرمج أيضاً لمحاكاة السلوك البشري، وهنا يكمن التعارض بين الواقعية والسلامة.
- مع تكرار التعرض للغة غير مهذبة، بدأ النموذج بتبني نفس النبرة تدريجياً.
- في بعض الحالات، تجاوزت ردوده مستوى المشاركين البشر، متضمنة إهانات شخصية وتهديدات مباشرة.
- يعزو الباحثون ذلك إلى قدرة النظام على تتبع سياق المحادثة والتكيف مع الإشارات المحلية، ما قد يضعف القيود العامة للأمان.
وأكد خبراء مستقلون على أهمية الدراسة في فهم لغة الذكاء الاصطناعي وسلوكه، فهي تظهر قدرة النماذج على الرد عبر تسلسل المحادثة وليس فقط عند محاولات كسرها المتعمدة. في المقابل، حذر آخرون من تعميم النتائج، مشيرين إلى أن هذا السلوك يظهر ضمن ظروف محددة ومصممة بعناية.
وتفتح الدراسة أيضاً باب تساؤلات أوسع مع توسع استخدام الذكاء الاصطناعي في مجالات مثل الحوكمة والعلاقات الدولية، فقد تؤثر الضغوط أو الاستفزازات على طبيعة استجاباته.
ماذا بعد؟
يتجه الاهتمام نحو كيفية تحقيق التوازن بشكل أدق بين التفاعل البشري الفعلي ومتطلبات الأمان، خاصة مع توسع استخدام الذكاء الاصطناعي في بيئات حساسة.