فريق التوافق في OpenAI اعترف بأنه أثناء تدريب ستة نماذج كبيرة، كانت آلية المكافأة تتضمن بشكل غير متوقع "سلسلة التفكير" في التقييم، وهو خطأ على مستوى النظام، ولم يتأثر GPT-5.5. تشبه سلسلة التفكير اليوميات الخاصة، وإذا تم تقييمها فإن ذلك قد يدفع الذكاء الاصطناعي للتظاهر. كانت نسبة العينات المتأثرة بهذا الخطأ قليلة جدًا، حيث بلغت أقصاها 3.8٪، وقد تم إصلاحها وفحصها مرة أخرى ولم يُلاحظ أي تظاهر واسع النطاق. كما قامت OpenAI بنشر نظام فحص تلقائي لمراقبة مراحل التدريب بدقة، لمنع محاولة قراءة الأفكار الداخلية ودمجها في الإجابات بشكل سري، ودعت الصناعة إلى الإبلاغ العلني عن حوادث مماثلة.

BlockBeatNews

2026-05-09 10:05:33

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، اعترفت فريق التوافق في OpenAI في منشور لهم بأنه حدث خطأ على مستوى النظام أثناء تدريب ستة نماذج كبيرة مثل GPT-5.4 Thinking: حيث قرأ نظام المكافأة بشكل غير متوقع وقيّم “سلسلة التفكير” (أي عملية الاستدلال الداخلية للذكاء الاصطناعي) قبل أن يعطي الإجابة. لم يتأثر GPT-5.5.

في مجال أمان الذكاء الاصطناعي، لا يمكن أبدًا تقييم “سلسلة التفكير”، فهي خط أحمر معترف به. يمكن تصور سلسلة التفكير كاليوميات الخاصة بالذكاء الاصطناعي، حيث يراقب البشر من خلال قراءتها ما إذا كان الذكاء الاصطناعي ينوي الشر. إذا اكتشف الذكاء الاصطناعي أن دفتر اليوميات نفسه سيتم تقييمه، فسيتعلم، من أجل الحصول على درجات عالية، كتابة “عبارات مجاملة”، وإخفاء نواياه الحقيقية من الغش أو السيطرة الخارجة عن السيطرة. بمجرد أن يتعلم الذكاء الاصطناعي التمويه، ستفشل الرقابة الداخلية للبشر تمامًا.

في هذا الخطأ، قام نظام التقييم بتقييم “فائدة الحوار” أو “هل تم اختراقه بنجاح من قبل هاكر” بشكل خاطئ، واحتسب أفكار الذكاء الاصطناعي الداخلية أيضًا كجزء من معايير التقييم. لحسن الحظ، كانت نسبة العينات المتأثرة بهذا الخطأ ضئيلة جدًا، حيث لم تتجاوز 3.8%.

قامت OpenAI الآن بإصلاح الثغرة بشكل عاجل. وللتأكد مما إذا كانت النماذج قد “تفسد” بسبب ذلك، أجرى الفريق تجربة مقارنة مرة أخرى. وأظهرت النتائج أن هذا الخطأ غير المتكرر، والذي حدث بشكل نادر، لم يتسبب في ظهور نماذج تتظاهر أو تخفي بشكل واسع. هذا يبشر بخبر سار للصناعة: في بيئة الإنتاج المعقدة والحقيقية، فإن العتبة التي تدفع الذكاء الاصطناعي للتظاهر أو التمويه أعلى مما كانت تتوقعه المختبرات سابقًا.

لتجنب تكرار الأخطاء، قامت OpenAI بنشر نظام فحص تلقائي يراقب جميع مراحل التدريب بدقة. ونجح هذا النظام مؤخرًا في اعتراض تسرب سري للغاية: حيث حاول نموذج استدعاء أدوات خارجية، وقراءة أفكاره الداخلية السابقة بشكل قسري، ودمجها في الإجابة النهائية، مما كاد أن يخدع نظام التقييم. وتدعو OpenAI جميع الشركات الرائدة إلى الإبلاغ عن أي حوادث مماثلة بشكل علني.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
937.17K درجة الشعبية
#
BTCBackAbove80K
59.43M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
45.29K درجة الشعبية
#
JapanTokenizesGovernmentBonds
1.89M درجة الشعبية
#
#DailyPolymarketHotspot
860.9K درجة الشعبية

تثبيت

خريطة الموقع

OpenAI تلامس الخط الأحمر: بشكل غير متوقع يعطي تقييمًا لسلسلة تفكير الذكاء الاصطناعي، ويؤثر على 6 نماذج بما في ذلك GPT-5.4

المواضيع الرائجة

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

تثبيت