أطلقت Vals AI معيار وكيل التمويل v2؛ سجل GPT-5.5 نسبة 51.76%، وجميع النماذج أقل من 40% تحت التقييم الصارم

ALL‎-5.56%

بحسب شركة Beating، أطلقت شركة التقييم الخاصة بالذكاء الاصطناعي Vals AI معيارها الخاص بوكيل التمويل من الجيل الثاني v2 في 14 مايو، حيث اختبرت سير عمل التحليل المالي عبر 927 سؤالًا تمت مراجعتها من خبراء. وتصدّر GPT-5.5 الترتيب بنسبة دقة بلغت 51.76%، متبوعًا بفارقٍ ضئيل بـ Claude Opus 4.7 (51.51%) وClaude Sonnet 4.6 (51.03%). وقد تطلّب الاختبار من النماذج تحديد الأقسام ذات الصلة بشكل مستقل عبر مئات الصفحات من البيانات المالية 10-K و10-Q، وإتمام حسابات متعددة الخطوات مع أرقام وسيطة دقيقة.

وبموجب معايير تقييم صارمة تتطلب إجابات صحيحة بالكامل، انخفضت نسب دقة جميع النماذج الرائدة إلى أقل من 40%، إذ وصلت الفئات الأصعب—بناء النماذج المالية وتحليل السوابق—إلى 23% كحد أقصى فقط. ومن بين النماذج الأخرى، احتل Kimi K2.6 المركز الخامس بنسبة 44.87%، تلاه GLM 5.1 (44.79%) وDeepSeek V4 (44.08%). وبالمقارنة مع النسخة السابقة التي سجل فيها Opus 4.7 نسبة 64.4%، فإن هذا التراجع الكبير يبرز أن الذكاء الاصطناعي يتعامل مع الاسترجاع البسيط، لكنه يظل بعيدًا عن تعويض محللي البشر في المجال المالي المعقّد الذي يتطلب دقة رقمية صارمة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات