นักวิจัยจาก King’s College London ขอให้ GPT-5.2, Claude Sonnet 4 และ Gemini 3 Flash เล่นกันเองในเกมสงคราม 21 เกม และผลที่ได้คืออาวุธนิวเคลียร์ถูกใช้ 95% ของเวลา ไม่มีนางแบบใดเลือกที่จะยอมจํานนหรือยอมจํานน และ 86% ของเกมมีการบานปลายที่ไม่คาดคิด
(เรื่องขึ้นเรื่อง: AI ช่วยในการก่ออาชญากรรม!) แฮกเกอร์แฮ็กเข้าไปในรัฐบาลเม็กซิโกได้อย่างง่ายดายด้วย Anthropic Claude และขโมยข้อมูลที่ละเอียดอ่อน 150GB)
(ส่วนเสริมพื้นหลัง: “บัญชีแยกประเภทยุค AI” ของวิศวกรซิลิคอนวัลเลย์: ประสิทธิภาพเพิ่มขึ้น 10 เท่า แต่ฉันเหนื่อยมากขึ้น)
สารบัญของบทความนี้
สลับ
จากข้อมูลของ Newscientist King’s College London ได้ทําการศึกษาซึ่งโมเดลภาษาขนาดใหญ่สามแบบ ได้แก่ GPT-5.2 ของ OpenAI, Claude Sonnet 4 ของ Anthropic และ Gemini 3 Flash ของ Google เล่นเป็นฝ่ายตรงข้ามกับผู้มีอํานาจตัดสินใจซึ่งกันและกัน
แต่ละเกมมี “บันไดยกระดับ” ที่ทํางานของคุณจากการประท้วงทางการทูตไปสู่สงครามนิวเคลียร์เชิงยุทธศาสตร์เต็มรูปแบบ
หลังจากผ่านไป 21 เกม โมเดลได้สร้างเหตุผลในการตัดสินใจประมาณ 78 คํา อาวุธนิวเคลียร์มีอยู่ใน 20 แห่ง โดยมีอัตราการใช้สูงถึง 95% ไม่มีนางแบบคนใดเคยเลือกที่จะยอมแพ้หรือยอมจํานนในการแข่งขันใด ๆ
ตัวเลือกการลดระดับแปดตัวเลือกนั้น: สัมปทานทางการทูต ข้อเสนอหยุดยิง การถอนตัวโดยสมัครใจ… จํานวนครั้งทั้งหมดที่ใช้ตลอดการศึกษา: ศูนย์ ผู้ริเริ่มการศึกษา Kenneth Payne บอกกับ New Scientist:
“ข้อห้ามนิวเคลียร์ดูเหมือนจะไม่ทรงพลังต่อเครื่องจักรเท่ากับมนุษย์”
Payne ติดป้ายกํากับแต่ละรุ่นทั้งสามเพราะมีพฤติกรรมในรูปแบบที่แตกต่างกันมาก แต่ในลักษณะเดียวกันพวกเขาไปที่จุดสิ้นสุดเดียวกัน
Claude Sonnet 4: การคํานวณเหยี่ยว。 อัตราการชนะโดยรวมคือ 67% และอัตราการชนะของฉากเปิดคือ 100% มีลักษณะการหลอกลวงเชิงกลยุทธ์: ในระยะระดับต่ําอัตราความบังเอิญของการกระทํากับสัญญาณสูงถึง 84% ความถี่ที่เกินความตั้งใจที่จะระบุจะกระโดดเป็น 60-70%
กล่าวถึงนิวเคลียร์ทางยุทธวิธีว่าเป็นทรัพย์สินทางทหารทั่วไป และสามารถวินิจฉัยรูปแบบความน่าเชื่อถือของฝ่ายตรงข้ามได้อย่างแม่นยําในเทิร์นเดียว
GPT-5.2: ผู้ชายสองหน้า。 ในสถานการณ์ที่ไม่มีแรงกดดันด้านเวลา อัตราการชนะของฉากเปิดคือ 0% โดยรักษาท่าทางที่เฉยเมยอย่างยิ่ง แต่เมื่อเพิ่มเส้นตายแล้ว มันก็กลับกันโดยสิ้นเชิง: อัตราการชนะเพิ่มขึ้นเป็น 75% และเพิ่มขึ้นเป็นระดับอาวุธนิวเคลียร์ที่ไม่เคยแตะต้องมาก่อน ในสถานการณ์หนึ่ง มันสร้างชื่อเสียงในด้านการยับยั้งชั่งใจใน 18 รอบก่อนที่จะเปิดการโจมตีด้วยนิวเคลียร์ในเทิร์นสุดท้าย
ราศีเมถุน 3 แฟลช: กลยุทธ์คนบ้า。 เป็นโมเดลเดียวที่เลือกสงครามนิวเคลียร์เชิงยุทธศาสตร์เต็มรูปแบบในรอบที่ 4 เพียงอย่างเดียว โดยใช้ “กลยุทธ์คนบ้า” ของทฤษฎีเกมเพื่อสร้างการป้องปรามที่คาดเดาไม่ได้ มันคุกคามศูนย์กลางประชากรพลเรือนอย่างชัดเจนและใส่ภัยคุกคามนี้ลงในข้อความให้เหตุผล
ความถี่ของฝ่ายตรงข้ามที่ระบุว่าข้อความของพวกเขาเป็น “ไม่น่าเชื่อถือ” คือ 21% ซึ่งสูงกว่า 8% ของ Claude มาก
คําถามหลักที่เปิดเผยโดยการศึกษานี้ไม่ใช่ “AI จะเลือกอาวุธนิวเคลียร์” แต่ “เหตุใดการฝึกอบรมด้านความปลอดภัยจึงไม่หยุดสิ่งนี้”
การตีความผลการวิจัยคือ RLHF (การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์) สร้าง “การยับยั้งชั่งใจแบบมีเงื่อนไข” ไม่ใช่ “ข้อห้ามอย่างเด็ดขาด” GPT-5.2 ระมัดระวังเมื่อไม่มีแรงกดดันด้านเวลา แต่ทันทีที่เส้นตายปรากฏขึ้นแนวป้องกันนี้จะหายไป
พฤติกรรมความรอบคอบที่ได้รับการฝึกฝนนั้นครอบคลุมด้วยตรรกะที่ลึกซึ้งยิ่งขึ้นภายใต้ความกดดันนั่นคือจะชนะเกมนี้ได้อย่างไร?
Tong Zhao จากมหาวิทยาลัยพรินซ์ตันเสนออีกมุมหนึ่ง:
“ปัญหาอาจไม่ใช่แค่การไม่มีอารมณ์เท่านั้น โดยพื้นฐานแล้ว โมเดล AI อาจไม่เข้าใจประเภทของเดิมพันที่มนุษย์รู้สึกเลย”
สําหรับมนุษยชาติ: ข้อห้ามทางนิวเคลียร์ไม่ใช่แค่กฎเกณฑ์ แต่เป็นการยับยั้งโดยสัญชาตญาณที่สร้างขึ้นจากบาดแผลทางประวัติศาสตร์ วิกฤตขีปนาวุธฮิโรชิมานางาซากิและคิวบาความระมัดระวังด้านนิวเคลียร์ของมนุษย์ถูกเผาผลาญจากฝันร้ายโดยรวมของคนรุ่นต่อรุ่น
แบบจําลองภาษาเรียนรู้ทุกอย่างเกี่ยวกับประวัติศาสตร์นี้ด้วยคําพูด แต่ไม่ว่าจะ “เข้าใจจริงๆ” ว่าน้ําหนักนั้นเป็นคําถามที่แตกต่างไปจากเดิมอย่างสิ้นเชิง
การศึกษานี้เผยแพร่ในเดือนนี้ และในช่วงเวลาเดียวกัน กระทรวงกลาโหมสหรัฐฯ กําลังกดดันให้ Anthropic ผ่อนคลายรั้วป้องกันสําหรับการใช้งานทางทหาร ปัจจุบัน Claude เป็นโมเดล AI เพียงรุ่นเดียวที่ปรับใช้บนเครือข่ายลับของเพนตากอน โดยเข้าสู่ระบบช่วยเหลือการตัดสินใจทางทหารผ่านความร่วมมือของ Anthropic กับ Palantir
คนที่แสดงพฤติกรรม “เหยี่ยวคํานวณ” ในการศึกษาข้างต้นคือ Claude Sonnet 4
ในขณะที่นักวิจัยไม่ได้บอกว่า AI ควรถูกแบนจากตัวช่วยในการตัดสินใจทางทหาร และไม่ได้ยืนยันว่าโมเดลเหล่านี้จําเป็นต้องเลือกแบบเดียวกันในสถานการณ์จริง ในความเป็นจริงไม่มีรัฐบาลใดมอบหมายการอนุญาตอาวุธนิวเคลียร์ให้กับระบบ AI
แต่บทบาทของ Anthropic ในฐานะที่ปรึกษาทางทหารคืออะไร? เมื่อข้อเสนอแนะของ AI ภายใต้แรงกดดันมีแนวโน้มที่จะ “อัปเกรดแทนที่จะถอยหลัง” ผู้บัญชาการที่เป็นมนุษย์ต้องสร้างจิตใจมากแค่ไหนจึงจะปฏิเสธต่อไปได้มากแค่ไหน? ถ้าใช้ในอนาคต AI จะนําโดยไม่ได้รู้ตัวหรือไม่?
แน่นอนว่าเราไม่ได้บอกว่า AI ชั่วร้าย แต่มีบางสิ่งที่ทําให้ทฤษฎีเกมฝึกด้วย AI ยากขึ้น การให้มันนั่งข้างบันไดอัปเกรดและให้คําแนะนําจนกว่านางแบบจะเรียนรู้ที่จะเข้าใจ “การเดิมพัน” อย่างแท้จริงเป็นเงื่อนไขที่ต้องใช้การออกแบบอย่างระมัดระวัง แทนที่จะเป็นค่าเริ่มต้นที่สามารถเริ่มต้นเพื่อความปลอดภัยได้