بحسب شركة Beating، أطلقت شركة التقييم الخاصة بالذكاء الاصطناعي Vals AI معيارها الخاص بوكيل التمويل من الجيل الثاني v2 في 14 مايو، حيث اختبرت سير عمل التحليل المالي عبر 927 سؤالًا تمت مراجعتها من خبراء. وتصدّر GPT-5.5 الترتيب بنسبة دقة بلغت 51.76%، متبوعًا بفارقٍ ضئيل بـ Claude Opus 4.7 (51.51%) وClaude Sonnet 4.6 (51.03%). وقد تطلّب الاختبار من النماذج تحديد الأقسام ذات الصلة بشكل مستقل عبر مئات الصفحات من البيانات المالية 10-K و10-Q، وإتمام حسابات متعددة الخطوات مع أرقام وسيطة دقيقة.

وبموجب معايير تقييم صارمة تتطلب إجابات صحيحة بالكامل، انخفضت نسب دقة جميع النماذج الرائدة إلى أقل من 40%، إذ وصلت الفئات الأصعب—بناء النماذج المالية وتحليل السوابق—إلى 23% كحد أقصى فقط. ومن بين النماذج الأخرى، احتل Kimi K2.6 المركز الخامس بنسبة 44.87%، تلاه GLM 5.1 (44.79%) وDeepSeek V4 (44.08%). وبالمقارنة مع النسخة السابقة التي سجل فيها Opus 4.7 نسبة 64.4%، فإن هذا التراجع الكبير يبرز أن الذكاء الاصطناعي يتعامل مع الاسترجاع البسيط، لكنه يظل بعيدًا عن تعويض محللي البشر في المجال المالي المعقّد الذي يتطلب دقة رقمية صارمة.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-14 06:25

ستطلق Google Gemini 3.2 Flash في مؤتمر I/O يوم 20 مايو، مع مطابقة أداء GPT-5.5 بتكلفة 1/15

05-14 04:53

تم الوصول إلى GPT-5.6 بنجاح عبر OAuth الخاصة بـ Codex، وتوسّع نافذة السياق إلى 1.5 مليون رمز؛ ومن المتوقع الإطلاق في يونيو

05-14 03:05

قدرات اختراق الذكاء الاصطناعي تتضاعف كل 4.7 أشهر؛ معاينة Claude Mythos وGPT-5.5 تتجاوزان حدود الاختبار

05-14 01:49

تتحدث Mistral AI مع البنوك الأوروبية حول نشر منتج منافس لـ Mythos

05-12 12:58

إطلاق منصة Artificial Analysis لمعيار وكيل برمجي؛ تتصدر Zhipu GLM-5.1 الترتيب بين النماذج مفتوحة المصدر

تحليل متعمق