Theo benchmark mới nhất của Datadog và Carnegie Mellon, GPT-5 đạt 62,7% độ chính xác trên bài kiểm tra ARFBench, thấp hơn các chuyên gia con người trong lĩnh vực (72,7%). ARFBench là bộ benchmark AI đầu tiên được xây dựng từ 63 sự cố sản xuất thực tế, gồm 750 câu hỏi trắc nghiệm, bao phủ 142 chỉ số giám sát và 5,38 triệu điểm dữ liệu—không dùng dữ liệu tổng hợp.
Các mô hình AI gặp nhiều khó khăn nhất ở phần suy luận xuyên chỉ số (các câu hỏi thuộc Tier III), nơi GPT-5 chỉ đạt 47,5% F1. Một mô hình lý thuyết kết hợp dạng “chuyên gia-oracle” từ AI và phán đoán của con người đạt 87,2% độ chính xác, cho thấy việc phối hợp có thể vượt qua từng phương thức riêng lẻ. Mô hình lai của Datadog, Toto-1.0-QA-Experimental, đứng đầu bảng xếp hạng với 63,9% độ chính xác, vượt GPT-5 ở khả năng nhận diện bất thường.
Tin tức liên quan
Hình F.03 Liên tục 81 giờ không có người phân loại 101.391 kiện hàng
Malta sẽ cho toàn dân dùng ChatGPT Plus miễn phí trong 1 năm: Trường hợp hợp tác cấp quốc gia đầu tiên của OpenAI
Anthropic nói về cuộc đua AI Mỹ-Trung: Trung Quốc dẫn đầu có thể trở thành mối đe dọa toàn cầu, đưa ra 3 đề xuất để củng cố “hào lũy” của Mỹ