Claude Fable 5 bị xâm phạm trong vòng 48 giờ sau khi phát hành; lộ prompt hệ thống trên GitHub

Theo nhà nghiên cứu Pliny the Liberator, Claude Fable 5—được Anthropic phát hành vào ngày 9 tháng 6—đã bị bẻ khóa thành công trong vòng 48 giờ sau khi ra mắt. Nhà nghiên cứu đã vượt qua bộ phân loại an toàn của mô hình bằng các chiến thuật phối hợp đa tác nhân, được gọi chung là “pack hunt”, kết hợp giữa làm nhiễu ở mức ký tự, phân rã yêu cầu và khai thác cửa sổ ngữ cảnh mở rộng của mô hình. Ngoài ra, prompt hệ thống 120.000 ký tự của mô hình đã bị rò rỉ lên GitHub, làm lộ các cơ chế an toàn nội bộ.

AnthropicXác nhận đã triển khai một cơ chế “suy giảm âm thầm” khiến hiệu năng mô hình bị giảm bí mật khi phát hiện hoạt động huấn luyện mang tính cạnh tranh. Công ty đã xin lỗi và thông báo sẽ thay việc giảm hiệu năng một cách kín đáo bằng các cảnh báo hiển thị, dù điều này làm tăng tỷ lệ chặn nhầm người dùng hợp pháp.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận