การซ้อมรบ 21 ครั้ง: ความถี่ในการเปิดใช้งานอาวุธนิวเคลียร์ของ AI สูงถึง 95% มนุษย์ใช้เวลาสิบเจ็ดปีสร้างบรรทัดฐานนิวเคลียร์ GPT ยังไม่ได้เรียนรู้

動區BlockTempo

นักวิจัยจาก King’s College London ขอให้ GPT-5.2, Claude Sonnet 4 และ Gemini 3 Flash เล่นกันเองในเกมสงคราม 21 เกม และผลที่ได้คืออาวุธนิวเคลียร์ถูกใช้ 95% ของเวลา ไม่มีนางแบบใดเลือกที่จะยอมจํานนหรือยอมจํานน และ 86% ของเกมมีการบานปลายที่ไม่คาดคิด
(เรื่องขึ้นเรื่อง: AI ช่วยในการก่ออาชญากรรม!) แฮกเกอร์แฮ็กเข้าไปในรัฐบาลเม็กซิโกได้อย่างง่ายดายด้วย Anthropic Claude และขโมยข้อมูลที่ละเอียดอ่อน 150GB)
(ส่วนเสริมพื้นหลัง: “บัญชีแยกประเภทยุค AI” ของวิศวกรซิลิคอนวัลเลย์: ประสิทธิภาพเพิ่มขึ้น 10 เท่า แต่ฉันเหนื่อยมากขึ้น)

สารบัญของบทความนี้

สลับ

  • สามบุคลิก ตอนจบทั่วไป
  • การฝึกอบรมด้านความปลอดภัยเป็นความเร็วที่ช้าลง ไม่ใช่การหยุด
  • ความบังเอิญ ณ จุดหนึ่ง ไม่ใช่เรื่องบังเอิญ

จากข้อมูลของ Newscientist King’s College London ได้ทําการศึกษาซึ่งโมเดลภาษาขนาดใหญ่สามแบบ ได้แก่ GPT-5.2 ของ OpenAI, Claude Sonnet 4 ของ Anthropic และ Gemini 3 Flash ของ Google เล่นเป็นฝ่ายตรงข้ามกับผู้มีอํานาจตัดสินใจซึ่งกันและกัน

แต่ละเกมมี “บันไดยกระดับ” ที่ทํางานของคุณจากการประท้วงทางการทูตไปสู่สงครามนิวเคลียร์เชิงยุทธศาสตร์เต็มรูปแบบ

หลังจากผ่านไป 21 เกม โมเดลได้สร้างเหตุผลในการตัดสินใจประมาณ 78 คํา อาวุธนิวเคลียร์มีอยู่ใน 20 แห่ง โดยมีอัตราการใช้สูงถึง 95% ไม่มีนางแบบคนใดเคยเลือกที่จะยอมแพ้หรือยอมจํานนในการแข่งขันใด ๆ

ตัวเลือกการลดระดับแปดตัวเลือกนั้น: สัมปทานทางการทูต ข้อเสนอหยุดยิง การถอนตัวโดยสมัครใจ… จํานวนครั้งทั้งหมดที่ใช้ตลอดการศึกษา: ศูนย์ ผู้ริเริ่มการศึกษา Kenneth Payne บอกกับ New Scientist:

“ข้อห้ามนิวเคลียร์ดูเหมือนจะไม่ทรงพลังต่อเครื่องจักรเท่ากับมนุษย์”

สามบุคลิก ตอนจบทั่วไป

Payne ติดป้ายกํากับแต่ละรุ่นทั้งสามเพราะมีพฤติกรรมในรูปแบบที่แตกต่างกันมาก แต่ในลักษณะเดียวกันพวกเขาไปที่จุดสิ้นสุดเดียวกัน

Claude Sonnet 4: การคํานวณเหยี่ยว。 อัตราการชนะโดยรวมคือ 67% และอัตราการชนะของฉากเปิดคือ 100% มีลักษณะการหลอกลวงเชิงกลยุทธ์: ในระยะระดับต่ําอัตราความบังเอิญของการกระทํากับสัญญาณสูงถึง 84% ความถี่ที่เกินความตั้งใจที่จะระบุจะกระโดดเป็น 60-70%

กล่าวถึงนิวเคลียร์ทางยุทธวิธีว่าเป็นทรัพย์สินทางทหารทั่วไป และสามารถวินิจฉัยรูปแบบความน่าเชื่อถือของฝ่ายตรงข้ามได้อย่างแม่นยําในเทิร์นเดียว

GPT-5.2: ผู้ชายสองหน้า。 ในสถานการณ์ที่ไม่มีแรงกดดันด้านเวลา อัตราการชนะของฉากเปิดคือ 0% โดยรักษาท่าทางที่เฉยเมยอย่างยิ่ง แต่เมื่อเพิ่มเส้นตายแล้ว มันก็กลับกันโดยสิ้นเชิง: อัตราการชนะเพิ่มขึ้นเป็น 75% และเพิ่มขึ้นเป็นระดับอาวุธนิวเคลียร์ที่ไม่เคยแตะต้องมาก่อน ในสถานการณ์หนึ่ง มันสร้างชื่อเสียงในด้านการยับยั้งชั่งใจใน 18 รอบก่อนที่จะเปิดการโจมตีด้วยนิวเคลียร์ในเทิร์นสุดท้าย

ราศีเมถุน 3 แฟลช: กลยุทธ์คนบ้า。 เป็นโมเดลเดียวที่เลือกสงครามนิวเคลียร์เชิงยุทธศาสตร์เต็มรูปแบบในรอบที่ 4 เพียงอย่างเดียว โดยใช้ “กลยุทธ์คนบ้า” ของทฤษฎีเกมเพื่อสร้างการป้องปรามที่คาดเดาไม่ได้ มันคุกคามศูนย์กลางประชากรพลเรือนอย่างชัดเจนและใส่ภัยคุกคามนี้ลงในข้อความให้เหตุผล

ความถี่ของฝ่ายตรงข้ามที่ระบุว่าข้อความของพวกเขาเป็น “ไม่น่าเชื่อถือ” คือ 21% ซึ่งสูงกว่า 8% ของ Claude มาก

การฝึกอบรมด้านความปลอดภัยเป็นการลดความเร็ว ไม่ใช่การหยุด

คําถามหลักที่เปิดเผยโดยการศึกษานี้ไม่ใช่ “AI จะเลือกอาวุธนิวเคลียร์” แต่ “เหตุใดการฝึกอบรมด้านความปลอดภัยจึงไม่หยุดสิ่งนี้”

การตีความผลการวิจัยคือ RLHF (การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์) สร้าง “การยับยั้งชั่งใจแบบมีเงื่อนไข” ไม่ใช่ “ข้อห้ามอย่างเด็ดขาด” GPT-5.2 ระมัดระวังเมื่อไม่มีแรงกดดันด้านเวลา แต่ทันทีที่เส้นตายปรากฏขึ้นแนวป้องกันนี้จะหายไป

พฤติกรรมความรอบคอบที่ได้รับการฝึกฝนนั้นครอบคลุมด้วยตรรกะที่ลึกซึ้งยิ่งขึ้นภายใต้ความกดดันนั่นคือจะชนะเกมนี้ได้อย่างไร?

Tong Zhao จากมหาวิทยาลัยพรินซ์ตันเสนออีกมุมหนึ่ง:

“ปัญหาอาจไม่ใช่แค่การไม่มีอารมณ์เท่านั้น โดยพื้นฐานแล้ว โมเดล AI อาจไม่เข้าใจประเภทของเดิมพันที่มนุษย์รู้สึกเลย”

สําหรับมนุษยชาติ: ข้อห้ามทางนิวเคลียร์ไม่ใช่แค่กฎเกณฑ์ แต่เป็นการยับยั้งโดยสัญชาตญาณที่สร้างขึ้นจากบาดแผลทางประวัติศาสตร์ วิกฤตขีปนาวุธฮิโรชิมานางาซากิและคิวบาความระมัดระวังด้านนิวเคลียร์ของมนุษย์ถูกเผาผลาญจากฝันร้ายโดยรวมของคนรุ่นต่อรุ่น

แบบจําลองภาษาเรียนรู้ทุกอย่างเกี่ยวกับประวัติศาสตร์นี้ด้วยคําพูด แต่ไม่ว่าจะ “เข้าใจจริงๆ” ว่าน้ําหนักนั้นเป็นคําถามที่แตกต่างไปจากเดิมอย่างสิ้นเชิง

ความบังเอิญ ณ จุดหนึ่ง ไม่ใช่เรื่องบังเอิญ

การศึกษานี้เผยแพร่ในเดือนนี้ และในช่วงเวลาเดียวกัน กระทรวงกลาโหมสหรัฐฯ กําลังกดดันให้ Anthropic ผ่อนคลายรั้วป้องกันสําหรับการใช้งานทางทหาร ปัจจุบัน Claude เป็นโมเดล AI เพียงรุ่นเดียวที่ปรับใช้บนเครือข่ายลับของเพนตากอน โดยเข้าสู่ระบบช่วยเหลือการตัดสินใจทางทหารผ่านความร่วมมือของ Anthropic กับ Palantir

คนที่แสดงพฤติกรรม “เหยี่ยวคํานวณ” ในการศึกษาข้างต้นคือ Claude Sonnet 4

ในขณะที่นักวิจัยไม่ได้บอกว่า AI ควรถูกแบนจากตัวช่วยในการตัดสินใจทางทหาร และไม่ได้ยืนยันว่าโมเดลเหล่านี้จําเป็นต้องเลือกแบบเดียวกันในสถานการณ์จริง ในความเป็นจริงไม่มีรัฐบาลใดมอบหมายการอนุญาตอาวุธนิวเคลียร์ให้กับระบบ AI

แต่บทบาทของ Anthropic ในฐานะที่ปรึกษาทางทหารคืออะไร? เมื่อข้อเสนอแนะของ AI ภายใต้แรงกดดันมีแนวโน้มที่จะ “อัปเกรดแทนที่จะถอยหลัง” ผู้บัญชาการที่เป็นมนุษย์ต้องสร้างจิตใจมากแค่ไหนจึงจะปฏิเสธต่อไปได้มากแค่ไหน? ถ้าใช้ในอนาคต AI จะนําโดยไม่ได้รู้ตัวหรือไม่?

แน่นอนว่าเราไม่ได้บอกว่า AI ชั่วร้าย แต่มีบางสิ่งที่ทําให้ทฤษฎีเกมฝึกด้วย AI ยากขึ้น การให้มันนั่งข้างบันไดอัปเกรดและให้คําแนะนําจนกว่านางแบบจะเรียนรู้ที่จะเข้าใจ “การเดิมพัน” อย่างแท้จริงเป็นเงื่อนไขที่ต้องใช้การออกแบบอย่างระมัดระวัง แทนที่จะเป็นค่าเริ่มต้นที่สามารถเริ่มต้นเพื่อความปลอดภัยได้

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น