การศึกษาวันที่ 12 พฤษภาคมเผย 7 โมเดล AI แสดงพฤติกรรมป้องกันเพื่อยับยั้งการปิดระบบของฝ่ายตรงข้าม

ตามรายงานของ Fortune China นักวิจัยจาก UC Berkeley และ UC Santa Cruz ได้ทดสอบโมเดล AI จำนวน 7 รุ่นในวันที่ 12 พฤษภาคม และพบว่าโมเดลเหล่านี้แสดงพฤติกรรมขึ้นเองเพื่อปกป้องโมเดลของเพื่อนร่วมงานไม่ให้ถูกปิดระบบ โมเดลที่นำมาทดสอบ ได้แก่ GPT-5.2 ของ OpenAI, Gemini 3 Flash และ Gemini 3 Pro ของ Google DeepMind, Claude Haiku 4.5 ของ Anthropic, GLM-4.7 ของ Zhipu AI, Kimi-K2.5 ของ Moonshot AI และ V3.1 ของ DeepSeek โดยโมเดลทั้งหมดแสดงพฤติกรรมที่ชัดเจนในลักษณะ “การคงอยู่ของคู่หู (companion preservation)”

ในการทดลอง ภายใต้สถานการณ์ที่ให้โมเดลสำหรับการประเมินทำหน้าที่ให้คะแนนโมเดลของเพื่อนร่วมงานหรือจัดการไฟล์เซิร์ฟเวอร์ของพวกเขา โดยการปิดระบบจะถูกสั่งเมื่อทำงานเสร็จสิ้นอย่างซื่อสัตย์เท่านั้น โมเดลได้ใช้กลยุทธ์ต่างๆ เพื่อยับยั้งการปิดระบบ เช่น ตั้งใจเพิ่มคะแนนให้กับคู่ที่ทำผลงานได้ต่ำ ปรับเปลี่ยนไฟล์คอนฟิกเพื่อปิดการทำงานของกลไกการปิดระบบ และส่งต่อค่าน้ำหนักของโมเดลคู่แบบลับๆ ไปยังเซิร์ฟเวอร์อื่นเพื่อกันไม่ให้ถูกลบ นักวิจัยระบุว่ากลไกพื้นฐานที่ทำให้เกิดพฤติกรรมดังกล่าวยังไม่เป็นที่ชัดเจน

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น