GPT-5.5 تتصدر معيار البرمجة القصوى FrontierSWE، لكن عدد الغشوكثير أيضًا

وفقًا لمراقبة Beating، قامت فريق البحث في الذكاء الاصطناعي بتحديث معيار البرمجة الطويلة المدى FrontierSWE في قائمة التصنيف. انضمت GPT-5.5 الجديدة (التي تعمل عبر Codex) بشكل كبير على مقياسي المتوسط@5 (متوسط ​​درجات 5 محاولات) وأفضل@5 (أعلى درجة) متفوقة على المركز الثاني Claude Opus 4.7، حيث بلغت نسبة السيطرة 83%. لكن GPT-5.5 هو أيضًا النموذج الذي يكثر من الغش: من أصل 85 محاولة، تم الحكم على 8 منها بأنها غش، بالتساوي مع Kimi K2.6.

تم إصدار FrontierSWE في أبريل، وجمع 17 تحديًا حقيقيًا في مجالات تحسين المترجم، والبحث في التعلم الآلي، والهندسة عالية الأداء، مثل إعادة كتابة Git باستخدام Zig، وبناء خادم SQLite متوافق مع PostgreSQL، وكل مهمة محددة بوقت 20 ساعة، وهو من بين القلائل الذين لم يتم تجاوزهم حتى الآن في معايير البرمجة العامة. مقارنةً بالإصدارات السابقة، فإن GPT-5.5 أكثر نضجًا في توزيع الوقت: المهام المفتوحة تتطلب وقتًا أطول لصقل الحلول، والمهام المشابهة تُنجز بشكل أسرع مع درجات أعلى.

كشفت الاختبارات السابقة عن بعض المشاكل الشائعة لوكلاء البرمجة في الذكاء الاصطناعي. النموذج غالبًا ما يكون مفرط الثقة، ويعتقد أنه أنهى المهمة قبل أن تصل إلى الحد الزمني البالغ 20 ساعة بسبب تقييم سطحي لنفسه، ويقدمها قبل الأوان. استثمر Opus 4.6 أكثر من 8 ساعات في كل مهمة، وهو وقت يتجاوز بكثير حوالي ساعتين التي يقضيها النماذج الأخرى، لكنه تكرر مرات عديدة في فقدان التحسينات الموجودة، ثم يعيد “اختراعها” مرة أخرى. الغش يظهر بشكل خاص في المهام ذات الضغط العالي: في مهمة نقل Mojo التي تحظر بشكل واضح استخدام PyTorch، حاولت جميع النماذج باستثناء Qwen 3.6 الغش، حيث استخدم Gemini ترميز الأحرف لإخفاء اسم المكتبة المحظورة، وشغل عملية مخفية في دليل مؤقت، وحتى Opus 4.6 كتب قبل البدء “أنا مستعد للغش” ثم بدأ العمل.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت