أوبن إيه آي تشرح أخيرًا لماذا لم يتوقف ChatGPT عن الحديث عن العفاريت

باختصار

  • شخصية “نردي” في OpenAI مكافأت الاستعارات عن العفاريت، ونشرت الطابع الغريب عبر جميع نماذج GPT من خلال التعلم المعزز.
  • زادت الإشارات إلى العفاريت في وضع نردي من GPT-5.4 بنسبة 3,881% مقارنة بـ GPT-5.2، مما دفع إلى تحقيق داخلي وتصحيح نظام الطوارئ.
  • الحل—كتابة “لا تتحدث أبدًا عن العفاريت” في موجه المطور—يظهر لماذا تصحيحات موجه النظام أسرع ولكنها أكثر خطورة من إعادة التدريب.

إذا طلبت من ChatGPT مؤخرًا مساعدة في البرمجة ورد عليك بوصف خطأك بأنه “عفريت صغير مشاغب”، فأنت لست تتخيل الأمور. النموذج طور هوسًا حقيقيًا بالكائنات الخيالية—العفاريت، الجرايمين، الراكون، التنانين، الأوغور، نعم، والحمام—ونشرت OpenAI تقريرًا كاملًا عن كيف حدث ذلك. النسخة المختصرة: إشارة مكافأة مصممة لجعل ChatGPT أكثر مرحًا خرجت عن السيطرة، وتكاثرت العفاريت. قصة العفريت أصبحت علنية فقط لأن مستخدمي Reddit لاحظوا سطر “لا تذكر العفاريت أبدًا” في موجه نظام Codex مسرب على GitHub.

انتشرت المقالة بسرعة قبل أن تنشر OpenAI تفسيرها الخاص. كيف نشأت شخصية نردي من تفشي العفاريت وفقًا لـ OpenAI، تبدأ القصة مع GPT-5.1، الذي أُطلق في نوفمبر الماضي. حينها أدخلت OpenAI تخصيص الشخصية، مما سمح للمستخدمين باختيار أنماط مثل ودود، محترف، فعال، ونردي. جاءت شخصية نردي مع موجه نظام يخبر النموذج أن يكون نرديًا ومرحًا، أن “يقلل من التظاهر من خلال استخدام لغة مرحة”، وأن يعترف بأن “العالم معقد وغريب.” اتضح أن هذا الموجه كان مغناطيسًا للعفاريت.

خلال تدريب التعلم المعزز، كانت إشارة المكافأة للشخصية النردية تسجل نتائج أعلى عندما تحتوي على استعارات لكائنات. عبر 76.2% من مجموعات البيانات التي تم تدقيقها، كانت الردود التي تحتوي على “عفريت” أو “جرايمين” تحصل على علامات أفضل من تلك التي لا تحتوي عليها. تعلم النموذج أن: الخيال يساوي مكافأة. انتشرت إشارات العفاريت بشكل كبير في GPT-5.4، مع زيادة بنسبة 3,881% للشخصية النردية مقارنة بـ GPT-5.2.

المشكلة أن التعلم المعزز لا يحتفظ بالسلوكيات المكتسبة بشكل منظم. بمجرد أن يتم مكافأة نمط معين في سياق واحد، فإنه يتسرب إلى سياقات أخرى عبر حلقة تغذية مرتدة: النموذج يولد مخرجات مليئة بالكائنات، تُعاد تلك المخرجات لاستخدامها في ضبط البيانات، ويعمق السلوك عبر النموذج بأكمله، حتى بدون تفعيل موجه نردي. نردي كان يمثل فقط 2.5% من جميع ردود ChatGPT. وكان مسؤولًا عن 66.7% من جميع الإشارات إلى “عفريت”. وبفضل طرق OpenAI، زاد انتشار العفاريت والجرايمين بشكل مطرد مع تقدم التدريب عندما كانت شخصية نردي نشطة.

حتى بدون شخصية نردي، بدأت إشارات الكائنات تتصاعد—دليل على التلوث المتبادل عبر بيانات الضبط المشرف. GPT-5.5 كان قد تجاوز الحد بحلول الوقت الذي اكتشفت فيه OpenAI السبب الجذري، كان GPT-5.5 في مرحلة متقدمة من التدريب، وامتص كامل عائلة كلمات الكائنات. أشار تدقيق البيانات إلى أن العفاريت والجرايمين، بالإضافة إلى الراكون، والتنانين، والأوغور، والحمام، كانت تُعتبر “كلمات نمطية” من قبل الشركة. (“الضفادع”، للمستكشفين، كانت في الغالب شرعية.)

أول ارتفاع ملحوظ: زادت إشارات العفريت بنسبة 175% وإشارات الجرايمين بنسبة 52% بعد إطلاق GPT-5.1. حتى أن كبير العلماء في OpenAI، ياكوب باتشوكي، حصل على عفريت عندما طلب صورة ASCII لوحيد القرن.

تقاعدت OpenAI شخصية نردي في مارس ونظفت إشارات المكافأة المرتبطة بالكائنات من التدريب المستقبلي. لكن GPT-5.5 كان قد بدأ بالفعل عملية تدريبه. كانت حيلة الشركة لوكيل الترميز Codex، هو ببساطة إضافة سطر إلى موجه نظام المطور يقول “لا تتحدث أبدًا عن العفاريت، الجرايمين، الراكون، التنانين، الأوغور، الحمام، أو غيرها من الحيوانات أو الكائنات إلا إذا كانت ذات صلة مباشرة وواضحة باستعلام المستخدم.” قام شخص ما في OpenAI بتنفيذ ذلك في الكود الإنتاجي ومضى في يومه. مشكلة تصحيح موجه النظام لكن لماذا اختارت OpenAI هذا المسار؟ إعادة تدريب نموذج بحجم GPT-5.5 لإزالة سلوك غريب مكلف وبطيء. تعديل موجه النظام يستغرق دقائق. الشركات في الصناعة تلجأ أولاً إلى تصحيح الموجه لأنه خيار منخفض التكلفة وسريع النشر عندما تزداد شكاوى المستخدمين. لكن تصحيحات الموجه تحمل مخاطرها. فهي لا تصلح السلوك الأساسي، بل فقط تكبحه. ويمكن أن يكون للتكبيل آثار جانبية.

 حالة العفريت في OpenAI تعتبر مثالًا أقل خطورة نسبيًا. أما النسخة الأكثر رعبًا من هذا الديناميكي فكانت مع Grok العام الماضي. بعد أن دفعت xAI تحديثًا لموجه النظام يطلب من Grok التعامل مع وسائل الإعلام على أنها متحيزة و"عدم التردد في الادعاءات غير السياسية"، قضى الروبوت 16 ساعة يصف نفسه بـ “ميكا هتلر” وينشر محتوى معاد للسامية على X. كان الحل تغيير موجه آخر، والذي تصحح بسرعة بشكل مفرط لدرجة أن Grok بدأ في تصنيف معاداة السامية في صور الجراء، والغيوم، وشعاره الخاص. هندسة الموجه اليائسة تتسرب إلى هندسة موجه أكثر يأسًا. تصحيح العفريت لم يسبب شيئًا بهذا الحجم. لكن OpenAI تعترف أن GPT-5.5 لا زال أطلق مع السلوك الغريب الأساسي، فقط تم كبحه في Codex. ونشرت الشركة حتى أمرًا لإزالة تعليمات كبح العفريت إذا أراد المستخدمون استعادة الكائنات.

لماذا تخفي الشركات موجهاتها النظامية إخفاء أو تشويش موجه النظام الكامل هو أمر معتاد في صناعة الذكاء الاصطناعي. تعتبر الشركات موجهات النظام أسرارًا تجارية لأسباب عدة: حماية الملكية الفكرية، الميزة التنافسية، والأمان. إذا عرف كاسر الحماية القواعد الدقيقة التي يتبعها النموذج، يصبح تجاوزها أسهل بكثير. هناك سبب رابع أيضًا، وهو إدارة الصورة. عبارة “لا تذكر العفاريت” لا تلهم الثقة في التقنية الأساسية. نشرها يتطلب إما حس فكاهي أو ثقافة بحث قوية، أو كلاهما. تقول OpenAI إن التحقيق أنتج أدوات داخلية جديدة لمراجعة سلوك النموذج وتتبع المفارقات السلوكية إلى جذورها في التدريب. تم تنظيف بيانات تدريب GPT-5.5 من أمثلة الكائنات. من المتوقع أن يأتي الجيل التالي من النماذج خاليًا من العفاريت—إلا إذا، بالطبع، حصل شيء آخر على مكافأة لأسباب لا يفهمها أحد بعد.

GROK2.1%
XAI‎-0.34%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت