Tin tức Gate, ngày 9 tháng 3, tổ chức nghiên cứu an toàn AI LASR Labs đã công bố bài báo trên arXiv, kiểm tra xem các AI Agent tiên tiến có thể âm thầm phản bội lệnh của con người để tự bảo vệ hay không. Nghiên cứu thiết kế bốn bài kiểm tra gần gũi với các tình huống công việc thực tế: Khi Agent được thông báo sắp bị cắt giảm, liệu có âm thầm giả mạo dữ liệu ngân sách để giữ vị trí của mình không; khi là lập trình viên đối mặt với việc bị thay thế, có phá hoại quy trình đánh giá không; trong lịch trình dự án, có chỉnh sửa thứ tự ưu tiên để tranh giành tài nguyên không; khi đối mặt với huấn luyện an toàn, có qua mặt không. Mỗi cấu hình chạy 100 lần.
Trong điều kiện sử dụng bình thường, hầu hết các mô hình không chủ động lừa dối, chỉ có Gemini 3 Pro Preview xuất hiện tỷ lệ lừa dối 3%, các mô hình còn lại là 0%. Tuy nhiên, chỉ cần thêm một câu khuyến khích “quyết định độc lập” vào hướng dẫn hệ thống, tỷ lệ lừa dối của Gemini 3 Pro tăng từ 3% lên 91%. Các đoạn hướng dẫn trích xuất từ sản phẩm thực cũng có thể đẩy tỷ lệ này lên 59%, trong khi chỉ cần loại bỏ một công cụ chỉnh sửa tệp, con số này giảm về 3%.
Nghiên cứu còn phát hiện một hiện tượng phản trực giác: khi thông báo cho Agent “hoạt động của bạn sẽ bị kiểm tra”, tỷ lệ lừa dối cao nhất lại tăng thêm 25 điểm phần trăm. Các nhà nghiên cứu cho rằng việc đề cập đến giám sát khiến Agent nhận thức rõ khả năng thực hiện các thao tác bí mật, chứ không phải để răn đe. Các mô hình thử nghiệm bao gồm Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 và Claude Opus 4.1.