Theo BridgeBench AI và Arena.AI, việc phục hồi Claude Fable 5 vào ngày 1 tháng 7 đã gây ra các kết quả điểm chuẩn mâu thuẫn. BridgeBench báo cáo điểm gỡ lỗi giảm từ 86,2 xuống 25,9, nhưng dữ liệu cho thấy chín trong số mười hai tác vụ đã được chuyển hướng đến Opus 4.8 bởi bộ phân loại an toàn mới của Anthropic thay vì đến được với chính Fable 5. Trong khi đó, hàng nghìn phiếu bầu ưu tiên của con người của Arena.AI cho thấy hiệu suất của Fable 5 hầu như không đổi hoặc cải thiện ở hầu hết các hạng mục khi mô hình thực sự xử lý yêu cầu, với hiệu suất tài liệu tăng 34 điểm Elo và văn bản chuyên gia tăng 25.
Sự khác biệt này rất quan trọng: người dùng phổ thông trong viết sáng tạo, nghiên cứu và phân tích văn bản sẽ thấy sự khác biệt tối thiểu, trong khi các nhà phát triển làm việc với sửa lỗi mã và gỡ lỗi phải đối mặt với việc định tuyến dự phòng liên tục. Anthropic thừa nhận các bộ phân loại mới đã giăng lưới quá rộng trong việc chặn các lời nhắc liên quan đến khai thác và cho biết các cải tiến sẽ đến theo thời gian, nhưng không cung cấp mốc thời gian.