Vals AI Ra mắt điểm chuẩn Finance Agent v2; GPT-5.5 đạt 51,76%, mọi mô hình đều dưới 40% khi chấm điểm nghiêm ngặt

ALL-5,56%

Theo Beating, công ty đánh giá AI Vals AI đã phát hành benchmark Finance Agent v2 thế hệ thứ hai vào ngày 14 tháng 5, thử nghiệm các quy trình phân tích tài chính thông qua 927 câu hỏi được chuyên gia rà soát. GPT-5.5 dẫn đầu bảng xếp hạng với tỷ lệ chính xác 51,76%, theo sát là Claude Opus 4.7 (51,51%) và Claude Sonnet 4.6 (51,03%). Bài kiểm tra yêu cầu các mô hình phải tự độc lập xác định các phần liên quan trong hàng trăm trang của báo cáo tài chính 10-K và 10-Q, đồng thời hoàn thành các phép tính nhiều bước với các con số trung gian chính xác.

Trong các tiêu chuẩn chấm điểm nghiêm ngặt đòi hỏi câu trả lời hoàn toàn đúng, tỷ lệ chính xác của tất cả các mô hình dẫn đầu đều giảm xuống dưới 40%, và các nhóm khó nhất—mô hình hóa tài chính và phân tích tiền lệ—chỉ đạt tối đa 23%. Trong số các mô hình khác, Kimi K2.6 xếp thứ năm với 44,87%, tiếp theo là GLM 5.1 (44,79%) và DeepSeek V4 (44,08%). So với phiên bản trước, khi Opus 4.7 đạt 64,4%, mức sụt giảm đáng kể cho thấy rằng dù AI có thể xử lý tốt việc truy xuất đơn giản, nó vẫn còn rất xa so với việc thay thế các nhà phân tích con người trong lĩnh vực tài chính phức tạp, nơi cần độ chính xác số liệu nghiêm ngặt.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận