بحسب شركة Beating، أطلقت شركة التقييم الخاصة بالذكاء الاصطناعي Vals AI معيارها الخاص بوكيل التمويل من الجيل الثاني v2 في 14 مايو، حيث اختبرت سير عمل التحليل المالي عبر 927 سؤالًا تمت مراجعتها من خبراء. وتصدّر GPT-5.5 الترتيب بنسبة دقة بلغت 51.76%، متبوعًا بفارقٍ ضئيل بـ Claude Opus 4.7 (51.51%) وClaude Sonnet 4.6 (51.03%). وقد تطلّب الاختبار من النماذج تحديد الأقسام ذات الصلة بشكل مستقل عبر مئات الصفحات من البيانات المالية 10-K و10-Q، وإتمام حسابات متعددة الخطوات مع أرقام وسيطة دقيقة.
وبموجب معايير تقييم صارمة تتطلب إجابات صحيحة بالكامل، انخفضت نسب دقة جميع النماذج الرائدة إلى أقل من 40%، إذ وصلت الفئات الأصعب—بناء النماذج المالية وتحليل السوابق—إلى 23% كحد أقصى فقط. ومن بين النماذج الأخرى، احتل Kimi K2.6 المركز الخامس بنسبة 44.87%، تلاه GLM 5.1 (44.79%) وDeepSeek V4 (44.08%). وبالمقارنة مع النسخة السابقة التي سجل فيها Opus 4.7 نسبة 64.4%، فإن هذا التراجع الكبير يبرز أن الذكاء الاصطناعي يتعامل مع الاسترجاع البسيط، لكنه يظل بعيدًا عن تعويض محللي البشر في المجال المالي المعقّد الذي يتطلب دقة رقمية صارمة.
Related News
يقول خبراء إن إثباتات Zk تمنح شبكات DePINs ميزة مع تزايد الطلب على الثقة المرتبطة بالذكاء الاصطناعي
فيديليتي تعلن دعمها العلني لمشروع قانون CLARITY، قائلة إنه يوفر نهجاً تنظيمياً متوازناً
تتفاوض Mistral AI مع بنك أوروبي لتطوير نموذج أمني بديل للشبكة باسم Mythos