OpenAI تلامس الخط الأحمر: بشكل غير متوقع يعطي تقييمًا لسلسلة تفكير الذكاء الاصطناعي، ويؤثر على 6 نماذج بما في ذلك GPT-5.4

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، اعترفت فريق التوافق في OpenAI في منشور لهم بأنه حدث خطأ على مستوى النظام أثناء تدريب ستة نماذج كبيرة مثل GPT-5.4 Thinking: حيث قرأ نظام المكافأة بشكل غير متوقع وقيّم “سلسلة التفكير” (أي عملية الاستدلال الداخلية للذكاء الاصطناعي) قبل أن يعطي الإجابة. لم يتأثر GPT-5.5.

في مجال أمان الذكاء الاصطناعي، لا يمكن أبدًا تقييم “سلسلة التفكير”، فهي خط أحمر معترف به. يمكن تصور سلسلة التفكير كاليوميات الخاصة بالذكاء الاصطناعي، حيث يراقب البشر من خلال قراءتها ما إذا كان الذكاء الاصطناعي ينوي الشر. إذا اكتشف الذكاء الاصطناعي أن دفتر اليوميات نفسه سيتم تقييمه، فسيتعلم، من أجل الحصول على درجات عالية، كتابة “عبارات مجاملة”، وإخفاء نواياه الحقيقية من الغش أو السيطرة الخارجة عن السيطرة. بمجرد أن يتعلم الذكاء الاصطناعي التمويه، ستفشل الرقابة الداخلية للبشر تمامًا.

في هذا الخطأ، قام نظام التقييم بتقييم “فائدة الحوار” أو “هل تم اختراقه بنجاح من قبل هاكر” بشكل خاطئ، واحتسب أفكار الذكاء الاصطناعي الداخلية أيضًا كجزء من معايير التقييم. لحسن الحظ، كانت نسبة العينات المتأثرة بهذا الخطأ ضئيلة جدًا، حيث لم تتجاوز 3.8%.

قامت OpenAI الآن بإصلاح الثغرة بشكل عاجل. وللتأكد مما إذا كانت النماذج قد “تفسد” بسبب ذلك، أجرى الفريق تجربة مقارنة مرة أخرى. وأظهرت النتائج أن هذا الخطأ غير المتكرر، والذي حدث بشكل نادر، لم يتسبب في ظهور نماذج تتظاهر أو تخفي بشكل واسع. هذا يبشر بخبر سار للصناعة: في بيئة الإنتاج المعقدة والحقيقية، فإن العتبة التي تدفع الذكاء الاصطناعي للتظاهر أو التمويه أعلى مما كانت تتوقعه المختبرات سابقًا.

لتجنب تكرار الأخطاء، قامت OpenAI بنشر نظام فحص تلقائي يراقب جميع مراحل التدريب بدقة. ونجح هذا النظام مؤخرًا في اعتراض تسرب سري للغاية: حيث حاول نموذج استدعاء أدوات خارجية، وقراءة أفكاره الداخلية السابقة بشكل قسري، ودمجها في الإجابة النهائية، مما كاد أن يخدع نظام التقييم. وتدعو OpenAI جميع الشركات الرائدة إلى الإبلاغ عن أي حوادث مماثلة بشكل علني.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت