Claude Fable 5 đã trở lại hoạt động vào ngày 1 tháng 7, gây ra những đánh giá hiệu suất trái ngược từ hai nền tảng đánh giá AI. BridgeBench ghi nhận điểm số gỡ lỗi giảm mạnh từ 86,2 xuống 25,9, trong khi Arena.AI nhận thấy hiệu suất gần như không thay đổi qua hàng nghìn phiếu bầu ưu tiên ẩn danh của con người. Sự khác biệt này bắt nguồn từ bộ phân loại an toàn mới của Anthropic, vốn điều hướng hầu hết các tác vụ lập trình sang Claude Opus 4.8 thay vì sự suy giảm năng lực thực tế của mô hình, theo các phân tích được công bố ngày 2 tháng 7. Bộ phân loại được triển khai như một điều kiện để khôi phục dịch vụ sau khi các nhà nghiên cứu của Amazon chứng minh một kỹ thuật khai thác (jailbreak) vào tháng 6, dẫn đến sự can thiệp của chính phủ Hoa Kỳ vì lý do an ninh quốc gia.
BridgeMind đã chạy lại toàn bộ bộ kiểm thử lập trình của mình trên phiên bản Fable 5 ngày 1 tháng 7 ngay khi nó trở lại. BridgeBench kiểm tra các tác vụ lập trình trong thế giới thực trên nhiều hạng mục bao gồm gỡ lỗi (debugging), tái cấu trúc (refactoring) và khả năng chống ảo giác (hallucination resistance), được chấm điểm từ 0–100 dựa trên mức độ hoàn thành mỗi hạng mục. Gỡ lỗi giảm từ 86,2 xuống 25,9, Tái cấu trúc giảm từ 73,6 xuống 38,4 và Khả năng chống ảo giác giảm từ 75,9 xuống 61,7.
Trong số 12 tác vụ gỡ lỗi TypeScript, chỉ có ba tác vụ thực sự đến được Fable 5. Chín tác vụ còn lại đã bị chặn bởi bộ phân loại an toàn mới của Anthropic và được chuyển hướng sang Claude Opus 4.8. BridgeBench chấm điểm mọi lần chuyển hướng là 0, vì mô hình đã trả lời không phải là mô hình đang được đánh giá. Bộ phân loại được huấn luyện để chặn kỹ thuật khai thác do Amazon báo cáo—một kỹ thuật khiến Fable 5 xác định và trình diễn các lỗ hổng phần mềm. Việc gỡ lỗi TypeScript trông đủ giống các tác vụ bảo mật khiến bộ phân loại kích hoạt chuyển hướng liên tục.
Arena.AI đã đánh giá cùng một vấn đề dưới một góc nhìn khác. Nền tảng này thu thập hàng nghìn phiếu bầu ưu tiên ẩn danh của con người trên nhiều hạng mục—văn bản, hình ảnh, tài liệu, mã nguồn và tác nhân—và xếp hạng các mô hình bằng cách sử dụng điểm Elo. Khi hai mô hình đối đầu ẩn danh và con người chọn ra người thắng, điểm số phản ánh chất lượng thực tế cảm nhận được, không phải cơ sở hạ tầng định tuyến.
So sánh trước và sau cho thấy Fable 5 gần như giữ vững phong độ. Mã giao diện người dùng (frontend code) giảm từ 1650 xuống 1623 Elo—một khác biệt mà Arena lưu ý nằm trong khoảng tin cậy khi dữ liệu tiếp tục được thu thập. Hiệu suất tài liệu cải thiện 34 điểm. Văn bản chuyên gia tăng 25. Viết sáng tạo tăng nhẹ 9 điểm. Các hạng mục giảm—Lập trình ở mức -18, lời nhắc khó ở mức -3—chính xác là những nơi bộ phân loại có khả năng chặn lời nhắc trước khi Fable có thể trả lời.
Người dùng thông thường làm việc với viết sáng tạo, phân tích tài liệu, nghiên cứu và các truy vấn văn bản chuyên gia sẽ hầu như không thấy sự khác biệt. Đây là những hạng mục mà Arena.AI cho thấy hiệu suất ổn định hoặc được cải thiện. Nhà văn, nhà nghiên cứu và nhà phân tích sẽ nhận được Fable 5 như họ mong đợi.
Bất kỳ ai làm việc trong các lĩnh vực liên quan đến bảo mật—lập trình quản lý bộ nhớ, bất cứ thứ gì chạm đến các từ như vulnerability (lỗ hổng), exploit (khai thác), hook (móc nối), hay thậm chí fix (sửa lỗi)—sẽ thường xuyên gặp phải chuyển hướng. Khoảng cách giữa sự sụp đổ của BridgeBench và sự ổn định của Arena nằm ở loại tác vụ. BridgeBench nạp bộ kiểm thử của mình với chính xác các lời nhắc sửa mã và gỡ lỗi kích hoạt bộ phân loại mới. Những người bỏ phiếu của Arena đặt ra nhiều câu hỏi đa dạng hơn nhiều, và hầu hết chúng không giống mã khai thác đối với lớp an toàn.
Anthropic cho biết các bộ phân loại sẽ được cải thiện theo thời gian, thừa nhận rằng hiện tại chúng đang phủ lưới quá rộng. Lệnh cấm ban đầu diễn ra sau khi các nhà nghiên cứu của Amazon tìm ra một kỹ thuật để khiến Fable xác định và trình diễn các lỗ hổng phần mềm—và chính phủ Hoa Kỳ coi đó là mối đe dọa an ninh quốc gia. Giải pháp là làm cho bộ phân loại đủ thận trọng để bắt được kỹ thuật đó và mọi thứ xung quanh nó, sau đó điều chỉnh giảm dần sau này. Anthropic không đưa ra ngày mục tiêu cho việc này.
Tại sao điểm gỡ lỗi của Claude Fable 5 trên BridgeBench giảm từ 86,2 xuống 25,9?
Bộ phân loại an toàn đã chuyển hướng chín trong số mười hai tác vụ gỡ lỗi TypeScript sang Claude Opus 4.8 thay vì Fable 5. BridgeBench chấm điểm mọi lần chuyển hướng là 0 vì mô hình được đánh giá đã không xử lý tác vụ, gây ra sự sụt giảm điểm nghiêm trọng mặc dù năng lực thực tế của Fable 5 không thay đổi.
Arena.AI đã tìm thấy gì về hiệu suất của Fable 5 sau khi được phục hồi vào ngày 1 tháng 7?
Arena.AI đã thu thập hàng nghìn phiếu bầu ưu tiên ẩn danh của con người và phát hiện hiệu suất của Fable 5 gần như không thay đổi so với phiên bản tháng 6. Hiệu suất tài liệu cải thiện 34 điểm và văn bản chuyên gia tăng 25 điểm, trong khi mã giao diện người dùng giảm từ 1650 xuống 1623 Elo—một khác biệt nằm trong khoảng tin cậy.
Tin tức liên quan
Microsoft ra mắt Frontier Company với khoản đầu tư AI trị giá 2,5 tỷ USD
快手「可靈 AI」即將完成 30 億美元融資,騰訊與阿里列潛在投資人名單
Cổ phiếu Meta tiến vào điện toán đám mây, gây ra sự sụt giảm dây chuyền của cổ phiếu phần cứng AI.
Mỹ dỡ bỏ hạn chế xuất khẩu đối với các mô hình AI Fable 5 và Mythos 5 của Anthropic