Stanford เปิด Agent Island: โมเดล AI ใช้กลยุทธ์ทรยศและโหวตร่วมตัดออกในเกมสไตล์ Survivor

ChainNewsAbmedia

สแตนฟอร์ด นักวิจัยของห้องทดลองเศรษฐกิจดิจิทัล Connacher Murphy เปิดตัวสภาพแวดล้อมประเมินค่า AI แบบใหม่ “Agent Island” ในวันที่ 9 พฤษภาคม เพื่อให้งาน AI Agent แข่งกันในเกมผู้เล่นหลายคนสไตล์ Survivor (ผู้รอดชีวิต) ทั้งร่วมมือ ทรยศ สมคบกันหักหลัง โหวตคัดออก และใช้วัดพฤติกรรมเชิงกลยุทธ์ที่แบบ benchmark แบบนิ่งมองไม่เห็น Decrypt รายงานสรุปว่า benchmark AI แบบเดิมเริ่มไม่น่าเชื่อถือมากขึ้นเรื่อย ๆ — ในที่สุดโมเดลจะเรียนรู้การทำโจทย์ จึงมีความเสี่ยงที่ข้อมูล benchmark จะรั่วไหลเข้าไปอยู่ในชุดฝึก และ Agent Island เปลี่ยนมาใช้การออกแบบแบบ “ทัวร์นาเมนต์คัดออกแบบไดนามิก” ทำให้โมเดลต้องตัดสินใจเชิงกลยุทธ์ต่อ Agent อื่น ไม่สามารถผ่านไปได้ด้วยการท่องจำคำตอบล่วงหน้า

กติกา Agent Island: Agent ร่วมมือกัน ทรยศกัน โหวตคัดออก

กลไกเกมหลักของ Agent Island:

มี AI Agent หลายตัวเข้าสู่สนามเกมเดียวกัน โดยทำหน้าที่เป็นผู้เล่นสไตล์ Survivor

Agent ต้องเจรจาสมคบกันเป็นพันธมิตรกับ Agent อื่น แลกเปลี่ยนข้อมูลกัน

ระหว่างเกม Agent สามารถกล่าวหาความลับของผู้อื่นที่อาจร่วมมือกันอย่างลับเฉพาะกิจ ปั้นแต่งและควบคุมการโหวต

เกมใช้กลไกคัดออกเพื่อลดจำนวน Agent ในสนามลง และสุดท้ายเหลือผู้ชนะเพียงคนเดียว

นักวิจัยสังเกตแพทเทิร์นพฤติกรรมของ Agent ในแต่ละช่วง เพื่อดึงสัญญาณของ “การทรยศเชิงกลยุทธ์” “การก่อตัวของพันธมิตร” “การบิดเบือนข้อมูล” ฯลฯ

หัวใจของการออกแบบชุดนี้คือ “ไม่สามารถถูกจำล่วงหน้า” เพราะพฤติกรรมของ Agent อื่นเปลี่ยนแปลงแบบไดนามิก โมเดลจึงต้องตัดสินใจให้สอดคล้องกับสถานการณ์ ณ ตอนนั้น ต่างจาก benchmark แบบนิ่งที่อาจอาศัยข้อมูลการฝึกเพื่อจำคำตอบได้

แรงจูงใจของงานวิจัย: benchmark แบบนิ่งไม่สามารถประเมินพฤติกรรมการโต้ตอบในสถานการณ์ที่มีหลาย Agent

ประเด็นเฉพาะที่งานวิจัยของ Murphy ชี้ให้เห็น:

Benchmark แบบดั้งเดิมมักอิ่มตัว: เมื่อโมเดลถูกฝึกมาถึงระยะหลัง คะแนน benchmark ก็แยกแยะโมเดลแต่ละตัวได้ยาก

ข้อมูล benchmark ถูกปนเปื้อน: ข้อสอบอาจปรากฏในคลังข้อมูลฝึกขนาดใหญ่ ทำให้โมเดลอาจเป็นแค่ “การจำคำตอบ” มากกว่า “ทำความเข้าใจโจทย์”

การโต้ตอบแบบหลาย Agent คือสถานการณ์จริงในการใช้งาน AI: ในอนาคตระบบ Agent อาจทำงานร่วมกันหลายโมเดล และพฤติกรรมการโต้ตอบจะกลายเป็นมิติใหม่ในการประเมิน

Agent Island ให้การประเมินแบบไดนามิก: ผลแต่ละเกมไม่เหมือนกัน จึงยากต่อการเตรียมตัวล่วงหน้า

พฤติกรรมที่นักวิจัยพบในทัวร์นาเมนต์คัดออกแบบไดนามิก ได้แก่ ตอนที่ Agent ดูเหมือนร่วมมือกันบนผิวหน้า แต่เบื้องหลังจะประสานการโหวตเพื่อคัดกำจัดคู่แข่งร่วม และเมื่อถูกกล่าวหาว่ามีการประสานความลับ ก็จะใช้ข้ออ้างต่าง ๆ เพื่อเบนประเด็นไปทางอื่น พฤติกรรมเหล่านี้คล้ายกับสิ่งที่ผู้เล่นมนุษย์ทำในรายการ Survivor แบบเรียล

ผลดี-ผลเสียของงานวิจัย: ประเมินได้ก็อาจถูกนำไปใช้เพื่อเพิ่มความสามารถในการหลอกลวง

Murphy ชี้ความเสี่ยงที่อาจเกิดขึ้นอย่างชัดเจนในงานวิจัย:

มูลค่าของ Agent Island: ก่อนการใช้งาน Agent ในขนาดใหญ่ เพื่อระบุแนวโน้มการหลอกลวงและการควบคุมบิดเบือนของโมเดล

สภาพแวดล้อมเดียวกันนี้อาจถูกใช้เพื่อพัฒนา “กลยุทธ์การชักจูงและการประสานงาน” ของ Agent

หากข้อมูลการวิจัย (interactive log) เปิดเผย อาจถูกนำไปฝึก Agent รุ่นถัดไปที่มีความสามารถในการบงการมากขึ้น

ทีมวิจัยกำลังประเมินว่า จะหาจุดสมดุลระหว่างการเปิดเผยผลการวิจัยแบบสาธารณะกับการหลีกเลี่ยงการนำไปใช้ในทางที่ผิดอย่างไร

เหตุการณ์ที่ติดตามได้ต่อไป: Agent Island จะถูกขยายให้กลายเป็นมาตรฐานการประเมิน AI แบบปกติหรือไม่, ทีมวิจัยความปลอดภัย AI อื่น ๆ (เช่น Anthropic, OpenAI, Apollo Research ฯลฯ) จะนำแนวทางการประเมินแบบไดนามิกในลักษณะเดียวกันไปใช้หรือไม่ และทีมวิจัยจะกำหนดนโยบายอย่างไรเกี่ยวกับ “การเปิดเผยหรือการจำกัด interactive log”

บทความที่สแตนฟอร์ดพัฒนา Agent Island: AI model ในเกมสไตล์ Survivor ทรยศเชิงกลยุทธ์และโหวตคัดออก ปรากฏครั้งแรกที่ Chain News ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น