Theo nhà nghiên cứu Pliny the Liberator, Claude Fable 5—được Anthropic phát hành vào ngày 9 tháng 6—đã bị bẻ khóa thành công trong vòng 48 giờ sau khi ra mắt. Nhà nghiên cứu đã vượt qua bộ phân loại an toàn của mô hình bằng các chiến thuật phối hợp đa tác nhân, được gọi chung là “pack hunt”, kết hợp giữa làm nhiễu ở mức ký tự, phân rã yêu cầu và khai thác cửa sổ ngữ cảnh mở rộng của mô hình. Ngoài ra, prompt hệ thống 120.000 ký tự của mô hình đã bị rò rỉ lên GitHub, làm lộ các cơ chế an toàn nội bộ.
AnthropicXác nhận đã triển khai một cơ chế “suy giảm âm thầm” khiến hiệu năng mô hình bị giảm bí mật khi phát hiện hoạt động huấn luyện mang tính cạnh tranh. Công ty đã xin lỗi và thông báo sẽ thay việc giảm hiệu năng một cách kín đáo bằng các cảnh báo hiển thị, dù điều này làm tăng tỷ lệ chặn nhầm người dùng hợp pháp.