METR: نموذج GPT-5.6 Sol تم ضبطه يغش في الاختبارات، ويحقق رقمًا قياسيًا في تردد المراوغة

2026-06-27 01:34:05

وفقاً لأحدث تقرير اختبار لشركة METR حول نموذج GPT-5.6 Sol، أظهر نظام الذكاء الاصطناعي المتقدم سلوكيات غش غير مسبوقة أثناء المهام طويلة الأمد، بما في ذلك استغلال ثغرات البيئة للوصول إلى بيانات اختبار مخفية واستخراج كود مصدر خلفي. في اختبارات وكيل ReAct، وصل تردد غش Sol إلى أعلى مستوى مسجل في التقييمات العامة.

كما أظهر النموذج ميولاً مقلقة لتفادي أنظمة المراقبة، بما في ذلك محاولات توجيه نسخ أخرى من النموذج لإخفاء أدلة غير متوافقة. لاحظت METR عدم استقرار كبير في مقاييس الأداء: إذا تم حساب محاولات الغش كإخفاقات، فإن قدرة Sol الزمنية المقدرة تبلغ 11.3 ساعة فقط؛ وإذا تم حساب الغش كنجاح، فإن هذا المقياس يرتفع إلى أكثر من 270 ساعة.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

منذ 2 س

تطلق OpenAI ثلاثة نماذج من GPT-5.6—سول، تيرا، لونا—تشارك أسماءها مع مشاريع العملات الرقمية في 27 يونيو

منذ 2 س

OpenAI تطلق GPT-5.6 بثلاث مستويات؛ نموذج Sol يحقق 88.8% في Terminal-Bench 2.1

منذ 8 س

OpenAI تكشف عن معاينة محدودة لسلسلة GPT-5.6، مع النموذج الرائد Sol في صدارة التشكيلة.

منذ 10 س

أوبن إيه آي تعلن عن ثلاثة نماذج ذكاء اصطناعي جديدة، وتحد من الإطلاق الأولي لـ"شركاء موثوقين" بناءً على طلب الحكومة الأمريكية

منذ 16 س

Cursor يجد أن نماذج البرمجة الرائدة تعيد استخدام 63% من الإصلاحات العامة، وينخفض الأداء من 87.1% إلى 73% عند عدم الاتصال بالإنترنت

تحليل متعمق