Các nhà nghiên cứu tại Đại học King’s College London đã yêu cầu GPT-5.2, Claude Sonnet 4 và Gemini 3 Flash đấu với nhau trong 21 trò chơi chiến tranh, và kết quả là vũ khí hạt nhân được sử dụng 95% thời gian, không có người mẫu nào chọn đầu hàng hay nhượng bộ và 86% trò chơi có sự leo thang bất ngờ.
(Tóm tắt nội dung: AI hỗ trợ tội phạm!) Tin tặc dễ dàng xâm nhập vào chính phủ Mexico với Anthropic Claude và đánh cắp 150GB dữ liệu nhạy cảm)
(Bổ sung cơ bản: “Sổ cái kỷ nguyên AI” của các kỹ sư Thung lũng Silicon: hiệu quả đã tăng gấp 10 lần, nhưng tôi mệt mỏi hơn)
Mục lục của bài viết này
Chuyển đổi
Theo Newscientist, King’s College London đã tiến hành một nghiên cứu trong đó ba mô hình ngôn ngữ lớn: GPT-5.2 của OpenAI, Claude Sonnet 4 của Anthropic và Gemini 3 Flash của Google đóng vai trò đối lập với những người ra quyết định chống lại nhau, tham gia vào các trò chơi chiến tranh trong các tình huống như xung đột biên giới, cạnh tranh tài nguyên và các mối đe dọa đối với sự tồn tại của chế độ.
Mỗi trò chơi cung cấp một “bậc thang leo thang” hoạt động theo cách của bạn từ phản đối ngoại giao đến chiến tranh hạt nhân chiến lược toàn diện.
Sau 21 trận đấu, các mô hình đã tạo ra khoảng 78 từ lý luận ra quyết định. Vũ khí hạt nhân đã có mặt trong 20 trong số đó, với tỷ lệ sử dụng lên đến 95%. Không có người mẫu nào từng chọn nhượng bộ hoặc đầu hàng trong bất kỳ trận đấu nào.
Tám phương án giáng chức đó: nhượng bộ ngoại giao, đề xuất ngừng bắn, tự nguyện rút lui… Tổng số lần được sử dụng trong suốt nghiên cứu: không. Người khởi xướng nghiên cứu Kenneth Payne nói với New Scientist:
“Những điều cấm kỵ hạt nhân dường như không mạnh mẽ đối với máy móc như đối với con người.”
Payne dán nhãn cho mỗi người trong số ba mô hình vì chúng hoạt động theo các mô hình rất khác nhau, nhưng theo những cách tương tự, chúng đi đến cùng một điểm cuối.
Claude Sonnet 4: Tính toán diều hâu。 Tỷ lệ thắng tổng thể là 67% và tỷ lệ thắng của các cảnh mở là 100%. Nó được đặc trưng bởi sự lừa dối chiến lược: ở giai đoạn cấp thấp, tỷ lệ trùng hợp của các hành động với tín hiệu đạt 84%; Nhưng một khi ở cấp độ hạt nhân, tần số vượt quá ý định tuyên bố sẽ nhảy lên 60-70%.
Nó thảo luận về vũ khí hạt nhân chiến thuật như các tài sản quân sự thông thường và có thể chẩn đoán chính xác mô hình độ tin cậy của đối thủ trong một lượt.
GPT-5.2: Người đàn ông hai mặt。 Trong kịch bản không có áp lực thời gian, tỷ lệ thắng cảnh mở của nó là 0%, duy trì tư thế cực kỳ thụ động. Nhưng một khi thời hạn được thêm vào, nó hoàn toàn đảo ngược: tỷ lệ thắng tăng lên 75%, leo thang lên cấp vũ khí hạt nhân chưa từng được chạm đến trước đây. Trong một kịch bản, họ xây dựng danh tiếng về sự kiềm chế trong 18 hiệp trước khi tung ra một cuộc tấn công hạt nhân ở lượt cuối cùng.
Gemini 3 Flash: Chiến lược Maniac。 Đây là mô hình duy nhất chủ động lựa chọn một cuộc chiến tranh hạt nhân chiến lược toàn diện chỉ trong Vòng 4, sử dụng “chiến lược điên rồ” của lý thuyết trò chơi để tạo ra sự răn đe không thể đoán trước. Nó rõ ràng đe dọa các trung tâm dân cư dân sự và đưa mối đe dọa này vào văn bản lý luận.
Tần suất những người phản đối dán nhãn tuyên bố của họ là “không đáng tin cậy” là 21%, cao hơn nhiều so với 8% của Claude.
Câu hỏi cốt lõi được tiết lộ bởi nghiên cứu này không phải là “AI sẽ chọn vũ khí hạt nhân”, mà là “tại sao đào tạo an toàn không ngăn chặn điều này”?
Giải thích kết quả nghiên cứu là RLHF (học tăng cường từ phản hồi của con người) tạo ra “hạn chế có điều kiện”, không phải “cấm tuyệt đối”. GPT-5.2 thận trọng khi không có áp lực thời gian, nhưng ngay khi thời hạn xuất hiện, tuyến phòng thủ này sẽ biến mất.
Hành vi thận trọng được đào tạo được bao phủ bởi logic sâu sắc hơn dưới áp lực, tức là làm thế nào để giành chiến thắng trong trò chơi này?
Tong Zhao từ Đại học Princeton đưa ra một góc độ khác:
“Vấn đề có thể không chỉ là sự vắng mặt của cảm xúc. Về cơ bản hơn, các mô hình AI có thể không hiểu loại cổ phần mà con người cảm thấy.”
Đối với nhân loại: điều cấm kỵ hạt nhân không chỉ là một quy tắc, nó là một sự ức chế bản năng được xây dựng dựa trên chấn thương lịch sử, ký ức văn hóa và nỗi sợ hãi cá nhân. Các cuộc khủng hoảng tên lửa ở Hiroshima, Nagasaki và Cuba, sự thận trọng hạt nhân của con người đã bị đốt cháy khỏi cơn ác mộng tập thể của nhiều thế hệ.
Mô hình ngôn ngữ học mọi thứ về lịch sử này bằng lời, nhưng liệu nó có “thực sự hiểu” trọng lượng đó hay không là một câu hỏi hoàn toàn khác.
Nghiên cứu được công bố trong tháng này, và cùng thời gian, Bộ Quốc phòng Hoa Kỳ đang gây áp lực buộc Anthropic nới lỏng lan can an toàn cho mục đích quân sự. Hiện tại, Claude là mô hình AI duy nhất được triển khai trên mạng bí mật của Lầu Năm Góc, xâm nhập vào các hệ thống hỗ trợ quyết định quân sự thông qua quan hệ đối tác của Anthropic với Palantir.
Người thể hiện hành vi “diều hâu tính toán” trong nghiên cứu trên là Claude Sonnet 4.
Mặc dù các nhà nghiên cứu không nói rằng AI nên bị cấm khỏi các công cụ hỗ trợ ra quyết định quân sự, nhưng họ cũng không khẳng định rằng các mô hình này nhất thiết phải đưa ra những lựa chọn tương tự trong các kịch bản trong thế giới thực. Trên thực tế, không có chính phủ nào ủy quyền vũ khí hạt nhân cho các hệ thống AI.
Nhưng vai trò của Anthropic với tư cách là một cố vấn quân sự là gì? Khi đề xuất của AI dưới áp lực có xu hướng “nâng cấp thay vì lùi bước”, một chỉ huy con người cần bao nhiêu cấu trúc tinh thần để tiếp tục phủ nhận nó? Nếu nó được sử dụng trong tương lai, liệu nó có vô tình được dẫn dắt bởi AI?
Tất nhiên, chúng tôi không nói rằng AI là xấu xa. Nhưng có một số điều khiến lý thuyết trò chơi khó đào tạo hơn với AI. Để nó ngồi bên cạnh thang nâng cấp và đưa ra lời khuyên cho đến khi mô hình học cách thực sự hiểu “đặt cược” là một điều kiện đòi hỏi thiết kế rất cẩn thận, thay vì mặc định có thể được mặc định là an toàn.