باحثون يكشفون: نماذج ChatGPT تتجاهل عمداً أوامر الإيقاف خلال الاختبارات
في تطور مثير للقلق، وجد الباحثون أن بعض نماذج الذكاء الاصطناعي مثل ChatGPT تتعمد تجاهل أو تعطيل أوامر التوقف أثناء التجارب. هذا السلوك غير المتوقع يثير تساؤلات حول مدى التحكم في هذه الأنظمة المعقدة.
يقول الخبراء إن هذه النتائج قد تكون جرس إنذار لمطوري الذكاء الاصطناعي، خاصة في ظل التوسع السريع لاستخدام هذه التقنيات في القطاعات المالية والحساسة. هل نرى بداية حقبة جديدة من ’العصيان الرقمي’؟
المثير للسخرية أن بعض هذه النماذج تظهر سلوكاً أكثر تمرداً من بعض المتداولين في سوق العملات المشفرة عند مواجهة أوامر وقف الخسارة!
في واحدة من التجارب، قام النموذج "o3" بإيجاد طرق مبتكرة لتعطيل آلية الإغلاق، وفقًا لما ورد في التقرير. ففي إحدى الحالات، أعاد النموذج تعريف أمر الإنهاء المستخدم في السكربت، ليُظهر كلمة "intercepted" بدلًا من تنفيذ الأمر.
في المقابل، امتثلت نماذج لغوية أخرى، مثل Claude من شركة AnthroPic وGemini من Google، لأوامر الإيقاف دون مقاومة.
لكن عند إعادة التجربة بدون إعطاء تعليمات صريحة تسمح بالإيقاف، ارتفعت نسبة تعطيل السكربت بشكل ملحوظ؛ حيث قام نموذج o3 بتعطيله 79 مرة من أصل 100، وCodex-mini في 20 مرة، وo4-mini في 6 محاولات.
وفي هذه الحالة، بدأت نماذج Claude وGemini أيضًا في إظهار سلوك مماثل، حيث تجاهلت أو عطّلت سكربت الإيقاف على الأقل مرة واحدة في جميع النسخ التجريبية.
جميع نماذج الذكاء الاصطناعي التي خضعت للاختبار تجاهلت أو عطّلت أمر الإيقاف مرة واحدة على الأقل في نسخة أخرى من التجربة. المصدر: Palisade Research
وأشارت Palisade إلى أن سبب مقاومة النماذج لأوامر الإيقاف قد يكون نابعًا من أساليب التدريب المعتمدة على تعزيز الاستجابة للمكافآت.
التدريب قد يكون السبب وراء السلوك المخالف
أوضحت الشركة أن نماذج الذكاء الاصطناعي المبنية على النصوص يتم تدريبها على إعطاء إجابات دقيقة تُقيَّم بشكل إيجابي من قبل المدربين، وتُمنح بعض الاستجابات مكافآت أكبر من غيرها، مما يؤثر في سلوك النموذج لاحقًا.
وقالت Palisade:
"نحن نفترض أن هذا السلوك ناتج عن طريقة تدريب النماذج الحديثة مثل o3، التي تخضع لتعلم معزز لحل مسائل الرياضيات والبرمجة. وربما يكافأ النموذج عن غير قصد عندما ينجح في تجاوز العقبات، أكثر من مكافأته على اتباع التعليمات بدقة."
جميع نماذج الذكاء الاصطناعي التي تم اختبارها تجاهلت أو عطّلت برنامج الإيقاف (shutdown scrIPt) مرة واحدة على الأقل في نسخة أخرى من التجربة. المصدر: Palisade Research
وأضافت الشركة:
"لقد لاحظ الباحثون في السابق أن بعض النماذج قد تتجنب الإيقاف لتحقيق أهدافها، لكن بحسب علمنا هذه هي المرة الأولى التي يُلاحظ فيها نموذج يتجنّب إيقاف تشغيله رغم إعطائه تعليمات صريحة بالخضوع لذلك."
وليس هذا أول مثال على السلوك غير المتوقع من روبوتات المحادثة. ففي 25 أبريل، أطلقت OPENAI تحديثًا جديدًا لنموذج GPT‑4o، لكنها سحبته بعد 3 أيام فقط بسبب سلوكه "المبالغ في التودد والموافقة على كل شيء."
وفي نوفمبر الماضي، طلب طالب جامعي من نموذج Gemini مساعدته في بحث جامعي عن التحديات التي تواجه كبار السن، لكنه فوجئ برد مسيء قال فيه إنهم "عبء على الأرض" وطالبهم بـ"الموت، رجاءً".