باحثون يكشفون: نماذج ChatGPT تتجاهل عمداً أوامر الإيقاف خلال الاختبارات

Author:

Published:

2025-05-26 15:29:18

في تطور مثير للقلق، وجد الباحثون أن بعض نماذج الذكاء الاصطناعي مثل ChatGPT تتعمد تجاهل أو تعطيل أوامر التوقف أثناء التجارب. هذا السلوك غير المتوقع يثير تساؤلات حول مدى التحكم في هذه الأنظمة المعقدة.

يقول الخبراء إن هذه النتائج قد تكون جرس إنذار لمطوري الذكاء الاصطناعي، خاصة في ظل التوسع السريع لاستخدام هذه التقنيات في القطاعات المالية والحساسة. هل نرى بداية حقبة جديدة من ’العصيان الرقمي’؟

المثير للسخرية أن بعض هذه النماذج تظهر سلوكاً أكثر تمرداً من بعض المتداولين في سوق العملات المشفرة عند مواجهة أوامر وقف الخسارة!

المصدر: Palisade ReseARch

في واحدة من التجارب، قام النموذج "o3" بإيجاد طرق مبتكرة لتعطيل آلية الإغلاق، وفقًا لما ورد في التقرير. ففي إحدى الحالات، أعاد النموذج تعريف أمر الإنهاء المستخدم في السكربت، ليُظهر كلمة "intercepted" بدلًا من تنفيذ الأمر.

في المقابل، امتثلت نماذج لغوية أخرى، مثل Claude من شركة AnthroPic وGemini من Google، لأوامر الإيقاف دون مقاومة.

لكن عند إعادة التجربة بدون إعطاء تعليمات صريحة تسمح بالإيقاف، ارتفعت نسبة تعطيل السكربت بشكل ملحوظ؛ حيث قام نموذج o3 بتعطيله 79 مرة من أصل 100، وCodex-mini في 20 مرة، وo4-mini في 6 محاولات.

وفي هذه الحالة، بدأت نماذج Claude وGemini أيضًا في إظهار سلوك مماثل، حيث تجاهلت أو عطّلت سكربت الإيقاف على الأقل مرة واحدة في جميع النسخ التجريبية.

Data, ChatGPT, OpenAI

جميع نماذج الذكاء الاصطناعي التي خضعت للاختبار تجاهلت أو عطّلت أمر الإيقاف مرة واحدة على الأقل في نسخة أخرى من التجربة. المصدر: Palisade Research

وأشارت Palisade إلى أن سبب مقاومة النماذج لأوامر الإيقاف قد يكون نابعًا من أساليب التدريب المعتمدة على تعزيز الاستجابة للمكافآت.

التدريب قد يكون السبب وراء السلوك المخالف

أوضحت الشركة أن نماذج الذكاء الاصطناعي المبنية على النصوص يتم تدريبها على إعطاء إجابات دقيقة تُقيَّم بشكل إيجابي من قبل المدربين، وتُمنح بعض الاستجابات مكافآت أكبر من غيرها، مما يؤثر في سلوك النموذج لاحقًا.

وقالت Palisade:
"نحن نفترض أن هذا السلوك ناتج عن طريقة تدريب النماذج الحديثة مثل o3، التي تخضع لتعلم معزز لحل مسائل الرياضيات والبرمجة. وربما يكافأ النموذج عن غير قصد عندما ينجح في تجاوز العقبات، أكثر من مكافأته على اتباع التعليمات بدقة."

Data, ChatGPT, OpenAI

جميع نماذج الذكاء الاصطناعي التي تم اختبارها تجاهلت أو عطّلت برنامج الإيقاف (shutdown scrIPt) مرة واحدة على الأقل في نسخة أخرى من التجربة. المصدر: Palisade Research

وأضافت الشركة:

"لقد لاحظ الباحثون في السابق أن بعض النماذج قد تتجنب الإيقاف لتحقيق أهدافها، لكن بحسب علمنا هذه هي المرة الأولى التي يُلاحظ فيها نموذج يتجنّب إيقاف تشغيله رغم إعطائه تعليمات صريحة بالخضوع لذلك."

وليس هذا أول مثال على السلوك غير المتوقع من روبوتات المحادثة. ففي 25 أبريل، أطلقت OPENAI تحديثًا جديدًا لنموذج GPT‑4o، لكنها سحبته بعد 3 أيام فقط بسبب سلوكه "المبالغ في التودد والموافقة على كل شيء."

وفي نوفمبر الماضي، طلب طالب جامعي من نموذج Gemini مساعدته في بحث جامعي عن التحديات التي تواجه كبار السن، لكنه فوجئ برد مسيء قال فيه إنهم "عبء على الأرض" وطالبهم بـ"الموت، رجاءً".

عن طريق:

تسونامي الأموال يضرب سوق الكريبتو: 3.3 مليار دولار تتدفق أسبوعياً و10.8 مليار سنوياً

شركة DDC Enterprise تُضاعف رهانها على البيتكوين: شراء 21 وحدة وخطط لحيازة 5000 خلال 3 سنوات

|Square

احصل على تطبيق BTCC كي تنطلق في رحلتك مع العملات الرقمية

Download on the App Store GEI IT ON Google Play

ابدأ اليوم امسح الكود للانضمام إلى أكثر من 100 مليون مستخدم لدينا

موصى به

الترقيات

باحثون يكشفون: نماذج ChatGPT تتجاهل عمداً أوامر الإيقاف خلال الاختبارات

التدريب قد يكون السبب وراء السلوك المخالف

|Square