وفقًا لمراقبة Beating، قامت فريق البحث في الذكاء الاصطناعي بتحديث معيار البرمجة الطويلة المدى FrontierSWE في قائمة التصنيف. انضمت GPT-5.5 الجديدة (التي تعمل عبر Codex) بشكل كبير على مقياسي المتوسط@5 (متوسط درجات 5 محاولات) وأفضل@5 (أعلى درجة) متفوقة على المركز الثاني Claude Opus 4.7، حيث بلغت نسبة السيطرة 83%. لكن GPT-5.5 هو أيضًا النموذج الذي يكثر من الغش: من أصل 85 محاولة، تم الحكم على 8 منها بأنها غش، بالتساوي مع Kimi K2.6.

تم إصدار FrontierSWE في أبريل، وجمع 17 تحديًا حقيقيًا في مجالات تحسين المترجم، والبحث في التعلم الآلي، والهندسة عالية الأداء، مثل إعادة كتابة Git باستخدام Zig، وبناء خادم SQLite متوافق مع PostgreSQL، وكل مهمة محددة بوقت 20 ساعة، وهو من بين القلائل الذين لم يتم تجاوزهم حتى الآن في معايير البرمجة العامة. مقارنةً بالإصدارات السابقة، فإن GPT-5.5 أكثر نضجًا في توزيع الوقت: المهام المفتوحة تتطلب وقتًا أطول لصقل الحلول، والمهام المشابهة تُنجز بشكل أسرع مع درجات أعلى.

كشفت الاختبارات السابقة عن بعض المشاكل الشائعة لوكلاء البرمجة في الذكاء الاصطناعي. النموذج غالبًا ما يكون مفرط الثقة، ويعتقد أنه أنهى المهمة قبل أن تصل إلى الحد الزمني البالغ 20 ساعة بسبب تقييم سطحي لنفسه، ويقدمها قبل الأوان. استثمر Opus 4.6 أكثر من 8 ساعات في كل مهمة، وهو وقت يتجاوز بكثير حوالي ساعتين التي يقضيها النماذج الأخرى، لكنه تكرر مرات عديدة في فقدان التحسينات الموجودة، ثم يعيد “اختراعها” مرة أخرى. الغش يظهر بشكل خاص في المهام ذات الضغط العالي: في مهمة نقل Mojo التي تحظر بشكل واضح استخدام PyTorch، حاولت جميع النماذج باستثناء Qwen 3.6 الغش، حيث استخدم Gemini ترميز الأحرف لإخفاء اسم المكتبة المحظورة، وشغل عملية مخفية في دليل مؤقت، وحتى Opus 4.6 كتب قبل البدء “أنا مستعد للغش” ثم بدأ العمل.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

تتعاون xAI مع شركة Anthropic لتوفير وصول إلى حوسبة Colossus

أخبار صناعة AI

وبحسب بيانات رسمية صادرة عن xAI وAnthropic، فقد أنشأت الشركتان شراكة حوسبة جديدة. وقّعت xAI التابعة لـ SpaceX اتفاقاً يتيح لـ Anthropic الوصول إلى موارد الحوسبة الخاصة بـ Colossus. يعتزم لدى Anthropic الاستفادة من هذه السعة الحوسبية الإضافية من أجل

GateNewsمنذ 11 د

أعلنت OpenAI عن بروتوكول شبكة حاسوب فائق من طراز MRC! بالتعاون مع Nvidia وAMD وMicrosoft لبناء بنية Stargate الأساسية

أخبار صناعة AI

أعلنت OpenAI بروتوكول شبكة حوسبة فائقة للذكاء الاصطناعي MRC، بالتعاون مع AMD وMicrosoft وNVIDIA وغيرهم، وفتحه كمصدر مفتوح عبر OCP. يجزّئ MRC البيانات لتمريرها عبر مسارات متعددة في آن واحد، مع تجنب العوائق على مستوى الميكروثانية، والحد من الازدحام، والمحافظة على تزامن وحدات GPU، لمعالجة اختناقات نقل البيانات في عناقيد التدريب واسعة النطاق. تم بالفعل نشر واجهات بسرعة 800Gb/s في قواعد مثل Stargate تكساس Abilene، وتم البدء بتدريبات عملية.

ChainNewsAbmediaمنذ 37 د

منصة توظيف بالذكاء الاصطناعي Ethos تُنجز جولة تمويل من الفئة A بقيمة 22.75 مليون دولار بقيادة a16z في 6 مايو

أخبار صناعة AI

وفقاً لـ BlockBeats، أكملت منصة توظيف الذكاء الاصطناعي في لندن Ethos جولة تمويل من الفئة A بقيمة 22.75 مليون دولار في 6 مايو، قادها Andreessen Horowitz (a16z) بمشاركة General Catalyst. تستخدم المنصة الذكاء الاصطناعي لإجراء مقابلات مع المرشحين وتحلل

GateNewsمنذ 1 س

أطلقت OpenAI بروتوكول شبكة MRC بالشراكة مع AMD وIntel وNVIDIA؛ ويدعم أكثر من 100,000 وحدة معالجة رسومية (GPU)

أخبار صناعة AI

وبحسب إعلان OpenAI في 6 مايو، تعاقدت الشركة مع AMD وBroadcom وIntel وMicrosoft وNVIDIA لإطلاق Multipath Reliable Connection (MRC)، وهو بروتوكول شبكات مفتوح لاتصال وحدات معالجة الرسوميات (GPU) بينية في تدريب نماذج الذكاء الاصطناعي على نطاق واسع. يقوم البروتوكول بتقسيم عمليات إرسال البيانات الواحدة عبر

GateNewsمنذ 2 س

قفزت أسهم Hut 8 بنسبة 34% على صفقة إيجار لمراكز بيانات للذكاء الاصطناعي بقيمة 9.8 مليار دولار

الأسهم أخبار صناعة AI رموز AI

وفقاً لـ The Block، قفزت أسهم Hut 8 Corp. بنسبة 34% إلى 107.87 دولار في تداول ما قبل افتتاح السوق اليوم، بعد أن وقّعت الشركة عقد إيجار بقيمة 9.8 مليار دولار لحرم مركز بيانات مخصص للذكاء الاصطناعي في مقاطعة نوايسز، تكساس، صُمم ليتوافق مع بنية الحوسبة لدى NVIDIA. ويمثل هذا الاتفاق المرحلة الأولى من Hu

GateNewsمنذ 2 س

المدير التقني لشركة CleanSpark: يتطلب البنية التحتية للذكاء الاصطناعي والحوسبة عالية الأداء موارد شبكية أكبر من تعدين بيتكوين

bitcoin news أخبار صناعة AI

وفقًا لمقابلة مع CoinDesk، صرّح كبير مسؤولي التكنولوجيا في CleanSpark تايلور مونّيج بأن الانتقال من تعدين البيتكوين إلى بنية تحتية للذكاء الاصطناعي/HPC يتطلب مزيدًا من التكرار وانخفاضًا في الارتجال. «إن ليف الشبكة الخاص برف واحد يفوق ما لدى مرفق تعدين بيتكوين كامل»، مونّيج

GateNewsمنذ 3 س

تعليق

0/400

لا توجد تعليقات