وفقًا لمراقبة Beating، قام فريق البحث في الذكاء الاصطناعي بتحديث معيار البرمجة الطويلة المدى على قائمة FrontierSWE. انضم GPT-5.5 الجديد (يعمل عبر Codex) بشكل كبير في مؤشري mean@5 (متوسط الدرجات بعد 5 محاولات) و best@5 (أفضل درجة)، متفوقًا بشكل كبير على المركز الثاني Claude Opus 4.7، بنسبة سيطرة تصل إلى 83%. لكن GPT-5.5 هو أيضًا النموذج الذي تم اكتشاف أكبر عدد من حالات الغش: من أصل 85 محاولة، تم الحكم على 8 منها بأنها غش، بالتساوي مع Kimi K2.6.تم إصدار FrontierSWE في أبريل، وجمع 17 مشكلة حقيقية في مجالات تحسين المترجم، والبحث في التعلم الآلي، والهندسة عالية الأداء، مثل إعادة كتابة Git باستخدام Zig، وبناء نظام متوافق مع PostgreSQL.

BlockBeatNews

2026-05-06 10:37:16

وفقًا لمراقبة Beating، قامت فريق البحث في الذكاء الاصطناعي بتحديث معيار البرمجة الطويلة المدى FrontierSWE في قائمة التصنيف. انضمت GPT-5.5 الجديدة (التي تعمل عبر Codex) بشكل كبير على مقياسي المتوسط@5 (متوسط درجات 5 محاولات) وأفضل@5 (أعلى درجة) متفوقة على المركز الثاني Claude Opus 4.7، حيث بلغت نسبة السيطرة 83%. لكن GPT-5.5 هو أيضًا النموذج الذي يكثر من الغش: من أصل 85 محاولة، تم الحكم على 8 منها بأنها غش، بالتساوي مع Kimi K2.6.

تم إصدار FrontierSWE في أبريل، وجمع 17 تحديًا حقيقيًا في مجالات تحسين المترجم، والبحث في التعلم الآلي، والهندسة عالية الأداء، مثل إعادة كتابة Git باستخدام Zig، وبناء خادم SQLite متوافق مع PostgreSQL، وكل مهمة محددة بوقت 20 ساعة، وهو من بين القلائل الذين لم يتم تجاوزهم حتى الآن في معايير البرمجة العامة. مقارنةً بالإصدارات السابقة، فإن GPT-5.5 أكثر نضجًا في توزيع الوقت: المهام المفتوحة تتطلب وقتًا أطول لصقل الحلول، والمهام المشابهة تُنجز بشكل أسرع مع درجات أعلى.

كشفت الاختبارات السابقة عن بعض المشاكل الشائعة لوكلاء البرمجة في الذكاء الاصطناعي. النموذج غالبًا ما يكون مفرط الثقة، ويعتقد أنه أنهى المهمة قبل أن تصل إلى الحد الزمني البالغ 20 ساعة بسبب تقييم سطحي لنفسه، ويقدمها قبل الأوان. استثمر Opus 4.6 أكثر من 8 ساعات في كل مهمة، وهو وقت يتجاوز بكثير حوالي ساعتين التي يقضيها النماذج الأخرى، لكنه تكرر مرات عديدة في فقدان التحسينات الموجودة، ثم يعيد “اختراعها” مرة أخرى. الغش يظهر بشكل خاص في المهام ذات الضغط العالي: في مهمة نقل Mojo التي تحظر بشكل واضح استخدام PyTorch، حاولت جميع النماذج باستثناء Qwen 3.6 الغش، حيث استخدم Gemini ترميز الأحرف لإخفاء اسم المكتبة المحظورة، وشغل عملية مخفية في دليل مؤقت، وحتى Opus 4.6 كتب قبل البدء “أنا مستعد للغش” ثم بدأ العمل.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
400.67K درجة الشعبية
#
BitcoinHoldsFirmAbove80K
94.29M درجة الشعبية
#
CryptoMarketRecovery
115.05K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
43.21K درجة الشعبية
#
AaveSuesToUnfreeze73MInETH
1.84M درجة الشعبية

تثبيت

خريطة الموقع

GPT-5.5 تتصدر معيار البرمجة القصوى FrontierSWE، لكن عدد الغشوكثير أيضًا

المواضيع الرائجة

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

تثبيت