Artificial Analysis hôm nay đã công bố Chỉ số Coding Agent mới để đánh giá hiệu quả của các mô hình AI khi được kết hợp với khung tác nhân (agent) trên nhiều chuẩn đánh giá quan trọng, bao gồm SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 và SWE-Atlas-QnA. Zhipu GLM-5.1 xếp hạng đầu trong nhóm các mô hình mã nguồn mở ở lần đánh giá này, cho thấy hiệu suất dẫn đầu trong các kịch bản tác nhân mã hóa ngoài đời thực.
Related News
OpenAI ra mắt chương trình an ninh mạng Daybreak, kiến trúc ba lớp của GPT-5.5 đối đầu Anthropic Mythos
Cẩm nang đầy đủ Gemini năm 2026: Toàn bộ dòng sản phẩm AI của Google, các gói đăng ký và chính sách quyền riêng tư—xem một lần là rõ
Stanford 推 Agent Island: Mô hình AI phản bội chiến lược và loại lẫn nhau trong game kiểu Survivor