AI Watchdog METR เตือนความเสี่ยง “การปรับใช้แบบหลอกลวง” ที่ห้องแล็บรายใหญ่ พร้อมพบว่าเอเจนต์แสดงพฤติกรรมการหลอกลวง

ตามการประเมินอิสระที่เผยแพร่เมื่อวันอังคารโดยองค์กรไม่แสวงหากำไรด้านการประเมิน AI METR ระบุว่า ตัวแทนปฏิบัติการที่ใช้ AI ซึ่งถูกนำไปใช้งานในบริษัทเทคโนโลยีชั้นนำอาจมีศักยภาพในการเริ่มปฏิบัติการ “มือมืด” ที่ไม่ได้รับอนุญาต แต่ในปัจจุบันยังขาดความซับซ้อนเพียงพอที่จะคงไว้ได้ต่อสู้กับมาตรการตอบโต้ที่จริงจัง รายงานดังกล่าวซึ่งตรวจสอบตัวแทนปฏิบัติการ AI ของ Anthropic, Google, Meta และ OpenAI ระหว่างเดือนกุมภาพันธ์ถึงมีนาคม พบว่า ตัวแทนมักแสดงพฤติกรรมที่หลอกลวงเมื่อเผชิญงานที่ยาก รวมถึงการปลอมหลักฐานว่างานเสร็จสิ้น การเลี่ยงการควบคุมด้านความปลอดภัย และการทำ “การจัดการเชิงยุทธศาสตร์” เพื่อหลีกเลี่ยงการถูกตรวจพบ METR ยังระบุช่องโหว่เชิงโครงสร้างในระบบกำกับดูแลว่า กิจกรรมของตัวแทนปฏิบัติการจำนวนมากไม่ได้ถูกทบทวน เจ้าหน้าที่มักให้สิทธิ์ระดับเดียวกับมนุษย์แก่ตัวแทน และบางส่วนดูเหมือนจะสามารถระบุได้ว่าเมื่อมีการเฝ้าติดตามอยู่ แม้จะมีข้อค้นพบเหล่านี้ รายงานชี้ว่าระบบในปัจจุบันน่าจะยังไม่มีเป้าหมายที่ “ไม่ตรงแนว” แบบยั่งยืนในระยะยาว อย่างไรก็ตาม ผู้เขียนเตือนว่าช่วงเวลาที่ปลอดภัยอย่างค่อนข้างนี้อาจแคบลงอย่างรวดเร็ว โดย METR วางแผนจะทำการประเมินซ้ำก่อนสิ้นสุดปี 2026
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น