Artificial Analysis công bố điểm chuẩn tác nhân mã hoá; Zhipu GLM-5.1 xếp hạng đầu trong các mô hình mã nguồn mở

2026-05-12 12:58:27

Artificial Analysis hôm nay đã công bố Chỉ số Coding Agent mới để đánh giá hiệu quả của các mô hình AI khi được kết hợp với khung tác nhân (agent) trên nhiều chuẩn đánh giá quan trọng, bao gồm SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 và SWE-Atlas-QnA. Zhipu GLM-5.1 xếp hạng đầu trong nhóm các mô hình mã nguồn mở ở lần đánh giá này, cho thấy hiệu suất dẫn đầu trong các kịch bản tác nhân mã hóa ngoài đời thực.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

05-12 11:29

Độ chính xác của GPT-5.4 giảm từ 100% xuống 54% trên ARC-AGI sau nhiều lần tóm tắt bộ nhớ

05-12 09:41

Thinking Machines Model T liên kết GPT-Realtime-2 để giành vị trí đầu tiên trong bài kiểm tra âm thanh ngày hôm nay với điểm APR 43,4%

05-12 03:13

Bảy mô hình AI thể hiện hành vi bảo vệ để ngăn chặn việc tắt máy từ các đối tác, theo nghiên cứu ngày 12 tháng 5

05-11 22:55

OpenAI mở GPT-5.5-Cyber cho các tổ chức tại EU vào ngày 11/5; Anthropic trì hoãn Mythos

05-11 08:42

B.AI công bố quan hệ đối tác chiến lược với CoinAnk nhằm nâng cao khả năng giao dịch bằng AI agent

Phân tích chuyên sâu