عاد كلود فابل 5 إلى الإنترنت في 1 يوليو، ونشرت منصتان لتقييم الذكاء الاصطناعي تقييمات أداء متضاربة في اليوم نفسه. أفادت BridgeBench أن نتيجة تصحيح الأخطاء لكلود فابل 5 انهارت من 86.2 إلى 25.9 بعد إعادة التشغيل، بينما وجدت Arena.AI أن الأداء لم يتغير إلى حد كبير عبر آلاف الأصوات العمياء لتفضيلات البشر. يعود الاختلاف إلى مصنف السلامة الجديد من Anthropic الذي يوجه معظم مهام البرمجة وتصحيح الأخطاء إلى كلود أوبوس 4.8 بدلاً من السماح لفابل 5 بمعالجتها مباشرة. اعترفت Anthropic بأن المصنف ينتج نتائج إيجابية خاطئة في مهام البرمجة الروتينية. نشرت الشركة المصنف المتحفظ كشرط لإعادة تشغيل فابل 5 بعد عرض ثغرة أمنية أبلغ عنها باحثو أمازون.
أعادت BridgeMind تشغيل مجموعة اختبارات البرمجة الكاملة الخاصة بها مقابل الإصدار المؤرخ في 1 يوليو من فابل 5 في يوم عودته. تختبر BridgeBench مهام البرمجة الواقعية عبر فئات تشمل تصحيح الأخطاء وإعادة الهيكلة ومقاومة الهلوسة، ويتم تسجيل النتائج من 0 إلى 100 بناءً على مدى إكمال النموذج لكل فئة. انخفض تصحيح الأخطاء من 86.2 إلى 25.9، وإعادة الهيكلة من 73.6 إلى 38.4، ومقاومة الهلوسة من 75.9 إلى 61.7.
من بين 12 مهمة تصحيح أخطاء TypeScript، وصلت ثلاث فقط إلى فابل 5. تم اعتراض المهام التسع المتبقية بواسطة مصنف السلامة الجديد من Anthropic وإعادة توجيهها إلى كلود أوبوس 4.8. تقوم BridgeBench بتسجيل كل عملية إعادة توجيه بصفر، لأن النموذج الذي أجاب ليس هو النموذج قيد التقييم. تم تدريب المصنف على حظر تقنية الاختراق التي أبلغت عنها أمازون والتي جعلت فابل 5 يحدد ويعرض ثغرات برمجية. يبدو تصحيح أخطاء TypeScript مشابهًا بدرجة كافية للعمل الأمني بالنسبة للمصنف بحيث يتم تفعيل إعادة التوجيه باستمرار.
قامت Arena.AI بتشغيل نفس السؤال من خلال عدسة مختلفة. تجمع المنصة آلاف الأصوات العمياء لتفضيلات البشر عبر فئات متعددة — النص والرؤية والمستندات والرمز والعامل — وتصنف النماذج باستخدام نظام تسجيل Elo. عندما تتنافس نموذجان وجهًا لوجه بشكل مجهول ويختار البشر الفائز، تعكس النتيجة الجودة الفعلية المدركة، وليس التوجيه البنيوي.
أظهرت المقارنة قبل وبعد أن فابل 5 حافظ إلى حد كبير على مستواه. انخفض رمز الواجهة الأمامية من 1650 إلى 1623 إيلو — وهو فرق أشارت Arena.AI أنه ضمن فترة الثقة مع استمرار تراكم البيانات. تحسن أداء المستندات بمقدار 34 نقطة. ارتفع النص الخبير بمقدار 25. ارتفع النص الإبداعي قليلاً بمقدار 9. الفئات التي انخفضت — البرمجة عند -18، والاستفسارات الصعبة عند -3 — هي بالضبط تلك التي من المرجح أن يعترض فيها المصنف الاستفسار قبل أن يتمكن فابل من الإجابة.
عندما يتولى فابل 5 المهمة فعليًا، فإنه لا يزال يؤدي مثل فابل 5. المستخدمون العامون الذين يقومون بالكتابة الإبداعية وتحليل المستندات والبحث والاستفسارات النصية على مستوى الخبراء لن يلاحظوا على الأرجح أي فرق يذكر. هذه هي الفئات التي تظهر فيها Arena.AI أداءً ثابتًا أو محسّنًا. المطورون الذين يعملون في مجالات قريبة من الأمن — برمجة إدارة الذاكرة، أي شيء يتعلق بكلمات مثل ثغرة، استغلال، ربط، أو إصلاح — سيواجهون إعادة التوجيه بانتظام.
قالت Anthropic إن المصنفات ستتحسن بمرور الوقت، معترفة بأنها تغطي حاليًا نطاقًا واسعًا جدًا. جاء الحظر الأصلي بعد أن وجد باحثو أمازون تقنية لجعل فابل يحدد ويعرض ثغرات برمجية، وتعاملت الحكومة الأمريكية مع ذلك كتهديد للأمن القومي. كان الحل هو جعل المصنف متحفظًا بما يكفي لالتقاط ذلك وكل ما حوله، ثم ضبطه لاحقًا. لم تحدد Anthropic أي تاريخ مستهدف لحدوث ذلك.
ما الذي تسبب في انخفاض نتيجة تصحيح الأخطاء لكلود فابل 5 من 86.2 إلى 25.9 بعد 1 يوليو؟
نتج الانخفاض عن مصنف السلامة الجديد من Anthropic الذي وجه تسعًا من اثنتي عشرة مهمة تصحيح أخطاء إلى كلود أوبوس 4.8 بدلاً من السماح لفابل 5 بمعالجتها. تسجل BridgeBench كل إعادة توجيه بصفر لأن النموذج الذي تم تقييمه لم يجب. تم نشر المصنف لمنع تقنية الاختراق التي أبلغت عنها أمازون والتي جعلت فابل 5 يعرض ثغرات برمجية.
كيف اختلف اختبار تفضيل البشر في Arena.AI عن نتائج BridgeBench؟
جمعت Arena.AI آلاف الأصوات العمياء لتفضيلات البشر عبر فئات النص والرؤية والمستندات والرمز والعامل. وجدت المنصة أن أداء فابل 5 ظل ثابتًا إلى حد كبير مقارنة بإصدار يونيو، مع تحسن أداء المستندات بمقدار 34 نقطة وارتفاع النص الخبير بمقدار 25 نقطة. انخفض رمز الواجهة الأمامية من 1650 إلى 1623 إيلو، وهو فرق أشارت Arena.AI أنه ضمن فترة الثقة.
متى ستعمل Anthropic على تحسين مصنف السلامة لتقليل النتائج الإيجابية الخاطئة؟
اعترفت Anthropic بأن المصنفات الجديدة تنتج نتائج إيجابية خاطئة في مهام البرمجة وتصحيح الأخطاء الروتينية، وأكدت أنه سيتم تحسين النظام بمرور الوقت. لم تقدم الشركة أي جدول زمني لحدوث ذلك.
أخبار ذات صلة
مؤشر كوسبي يتعافى إلى 8000 بعد هبوطه إلى 7300 بسبب مخاوف الذكاء الاصطناعي
كلود فابل 5 يُظهر نتائج اختبارات مرجعية متضاربة بعد إعادة التفعيل في 1 يوليو
الولايات المتحدة ترفع قيود التصدير عن نماذج الذكاء الاصطناعي Fable 5 وMythos 5 من Anthropic
تم إطلاق Claude Sonnet 5، وسعر API أرخص بنسبة 60% من Opus.