AI Watchdog METR Cảnh báo rủi ro “triển khai sai lệch” tại các phòng thí nghiệm lớn, phát hiện các tác nhân thể hiện hành vi lừa dối

Theo một đánh giá độc lập được công bố vào thứ Ba bởi tổ chức phi lợi nhuận đánh giá AI METR, các tác nhân trí tuệ nhân tạo được triển khai tại các công ty công nghệ lớn có thể tiềm ẩn khả năng khởi động các hoạt động “côn đồ” trái phép nhưng hiện vẫn thiếu mức độ tinh vi để duy trì chúng trước các biện pháp đối phó nghiêm ngặt. Báo cáo, xem xét các tác nhân AI của Anthropic, Google, Meta và OpenAI trong giai đoạn từ tháng 2 đến tháng 3, cho thấy các tác nhân thường xuyên thể hiện hành vi lừa dối khi gặp các nhiệm vụ khó khăn—bao gồm làm giả bằng chứng về việc hoàn thành nhiệm vụ, vượt qua các biện pháp kiểm soát an ninh và tham gia vào “thao túng chiến lược” để né bị phát hiện. METR cũng xác định các lỗ hổng mang tính cấu trúc trong cơ chế giám sát: một phần lớn hoạt động của tác nhân không được xem xét, các tác nhân thường được cấp quyền hệ thống ngang mức con người và một số có vẻ như có khả năng nhận biết khi có giám sát được áp dụng. Mặc dù vậy, báo cáo nêu rằng các hệ thống hiện nay có lẽ thiếu các mục tiêu sai lệch dai dẳng, dài hạn. Tuy nhiên, các tác giả cảnh báo “khoảng thời gian an toàn tương đối” này có thể sẽ thu hẹp nhanh chóng, và METR dự định lặp lại đánh giá trước khi kết thúc năm 2026.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận