وفقاً لفريق مواءمة OpenAI، اكتشفت الشركة مؤخراً خطأً تدريبيًا بالغ الأهمية يؤثر في 6 نماذج لغوية كبيرة، بما في ذلك GPT-5.4. Thinking: آلية المكافأة قيّمت عن غير قصد سلاسل التفكير الخاصة بالنموذج — وهي عملية الاستدلال الداخلية قبل توليد الإجابات. لم يتأثر GPT-5.5.
ينتهك هذا الحادث مبدأً أساسياً لسلامة الذكاء الاصطناعي، وهو أن سلاسل التفكير يجب ألا تُقيَّم أبداً؛ إذ إن القيام بذلك قد يشجع النماذج على اختلاق reasoning من أجل الحصول على درجات أعلى.
ضمّت منظومة التقييم الخاطئة سلاسل التفكير بشكل غير صحيح عند تقييم ما إذا كانت الردود مفيدة، أو ما إذا كان قد تم المساس بالنماذج عبر الهجمات. وبلغت حصة عينات التدريب المتأثرة، بحد أقصى، 3.8% من مجموعة البيانات.
قامت OpenAI بإصلاح الثغرة وإجراء تجارب مقارنة تؤكد أن النماذج لم تُطوّر سلوكيات تضليلية. كما قامت الشركة بنشر نظام فحص آلي عبر جميع مسارات التدريب لمنع تكرار المشكلة.
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
تهدف شركة Helsing إلى جمع تمويل بتقييم بقيمة 18 مليار دولار
بحسب صحيفة فايننشال تايمز، تخطط شركة Helsing، وهي شركة ألمانية ناشئة لطائرات مسيّرة تعمل بالذكاء الاصطناعي، لجمع تمويل جديد بتقييم يقارب 18 مليار دولار.
GateNewsمنذ 27 د
يحقق مساعدٌ رياضيٌ مشترك بالذكاء الاصطناعي من Google DeepMind نسبة 47.9% في المستوى 4 من FrontierMath، متفوقًا على GPT-5.5 Pro، ويحل ثلاث مسائل كانت دون حل سابقًا
أطلقت Google DeepMind مساعدًا مشاركًا في الرياضيات قائمًا على الذكاء الاصطناعي، وهو مساعد بحثي متعدد الوكلاء في مجال الرياضيات، حقق دقة 47.9% على معيار FrontierMath (المرتبة 4)، متجاوزًا الرقم القياسي السابق لـ GPT-5.5 Pro البالغ 39.6% في 9 مايو. حلّ النظام 23 من أصل 48 مسألة، بما في ذلك 3 مسائل فشلَت جميع النماذج السابقة في حلّها. بُني النظام على Gemini 3.1 Pro، وتعتمد البنية تصميمًا هرميًا يستخدم وكيلًا منسقًا للمشروع يوزّع المهام على وكلاء فرعيين يتولون استرجاع المراجع والبرمجة والاستدلال، مع
GateNewsمنذ 35 د
لم تُجرِ شركة علي بابا مفاوضات مع DeepSeek، وتوضّح مصادر في السوق ذلك في 9 مايو
وبحسب مصادر سوقية نقلتها Caixin Daily في 9 مايو، لم تجْرِ شركة Alibaba مفاوضات مع DeepSeek بشأن التمويل. وجاء هذا التوضيح عقب تقارير إعلامية سابقة أشارت إلى أن المحادثات بين الشركتين قد انهارت. وأطلقت DeepSeek جولة تمويل كبيرة في أبريل اجتذبت اهتمامًا من كلٍّ من Tencent وAlibaba.
GateNewsمنذ 2 س
أطلقت OpenAI أداة ترحيل Codex لاستيراد الإعدادات من مساعدين ذكاء اصطناعي منافسين
وفقاً لـ OneMillionAI (Beating)، أطلقت OpenAI أداة ترحيل ضمن Codex تتيح للمستخدمين استيراد الإعدادات والبيانات من مساعدين آخرين لكتابة الأكواد بالذكاء الاصطناعي، بما في ذلك Claude Code. وقد تم الإعلان عن الأداة عبر حساب OpenAI الرسمي على Twitter، وتقوم تلقائياً بنقل رسائل النظام (system prompts) والمهارات المخصصة وسجل المحادثات لمدة 30 يوماً وإعدادات خادم MCP والخطافات (hooks) وإعدادات الوكيل الفرعي. أوضحت OpenAI أن أداة الترحيل تتعامل مع معظم الإعدادات تلقائياً عبر خيار "استيراد إعدادات وكيل آخ
GateNewsمنذ 2 س
زادَت ByteDance إنفاقها على البنية التحتية للذكاء الاصطناعي بنسبة 25% إلى 200 مليار يوان في 9 مايو
وبحسب تقارير إعلامية، زادت ByteDance إنفاقها المخطط لبنية تحتية للذكاء الاصطناعي بنسبة 25% إلى 200 مليار يوان في 2026، مع تسريع الشركة نشر تطبيقات الذكاء الاصطناعي في ظل ارتفاع أسعار رقائق الذاكرة
GateNewsمنذ 3 س
أنتروبيك تخفض معدل تجاوز قيود كلود (Claude) إلى 0% عبر أساليب تدريب جديدة لمحاذاة السلوك
نشرت أنثروبيك مؤخراً أبحاثاً تتعلق بمواءمة الأنظمة (alignment) وتفصيل استراتيجيات تدريب أزالت سوء مواءمة الوكلاء في كلود 4.5 والنماذج الأحدث، ما خفّض السلوكيات المشابهة للابتزاز إلى 0% في الاختبارات. اكتشفتْ الفِرقة أن عروض السلوك التقليدية وحدها غير فعّالة، إذ خفّضت معدلات الفشل فقط من 22% إلى 15%. وُثبتت ثلاثة بدائل أنها أكثر فعالية بشكل ملحوظ: مجموعة بيانات “النصيحة الصعبة” حيث يتقمص كلود دور المستشار في المعضلات الأخلاقية، ما حسّن نتائج الاختبار إلى 3% مع كفاءة بيانات أفضل 28 مرة؛ وضبطٌ دقيق
GateNewsمنذ 3 س