เอเจนต์ AI ล้มเหลวในการต้านการโจมตีแบบ Prompt Injection ในการศึกษาฉบับใหม่

นักวิจัยจาก 4 สถาบันเผยแพร่การศึกษาเมื่อวันพฤหัสบดี โดยพบว่าเอเจนต์ AI ที่ขับเคลื่อนด้วย GPT-5 และ Gemini 2.5-Flash ไม่สามารถต้านทานการโจมตีแบบ prompt injection ได้อย่างสม่ำเสมอ การโจมตีโดยตรงประสบความสำเร็จมากกว่า 79% ของครั้ง ขณะที่การโจมตีทางอ้อมทำอัตราความสำเร็จอยู่ระหว่าง 41.67% ถึง 68.16% ผลการศึกษาชี้ให้เห็นถึงช่องโหว่ด้านความปลอดภัยที่ยังคงอยู่ โดยเมื่อเอเจนต์ AI ที่สามารถท่องเว็บ วิจัย และทำธุรกรรมได้อย่างอิสระถูกนำไปใช้มากขึ้น ความเสี่ยงดังกล่าวก็ยิ่งเด่นชัด

Prompt injection เกิดขึ้นเมื่อผู้โจมตีฝังคำสั่งที่ซ่อนอยู่ในเนื้อหาที่เอเจนต์ AI ไปพบ ทำให้มันปฏิบัติตามคำสั่งของผู้โจมตีแทนความตั้งใจของผู้ใช้ การศึกษานี้ดำเนินการโดยนักวิจัยจาก Nanyang Technological University, ST Engineering, IBM Research และ University of Illinois Urbana-Champaign

นักวิจัยทำการจำลองการโจมตี 3,168 ครั้งด้วย StakeBench

ทีมวิจัยพัฒนา StakeBench ซึ่งเป็นเบนช์มาร์กที่ทดสอบว่าเอเจนต์ AI ตอบสนองต่อการโจมตีแบบ prompt injection อย่างไรในสภาพแวดล้อมออนไลน์ที่สมจริง พวกเขาทำการจำลองการโจมตี 3,168 ครั้งโดยใช้ NanoBrowser และ BrowserUse ร่วมกับ GPT-5 และ Gemini 2.5-Flash

นักวิจัยระบุว่าเบนช์มาร์กด้านความปลอดภัยที่มีอยู่มักใช้มุมมองที่เน้นการโจมตีเป็นศูนย์กลาง ขณะเดียวกันกลับมองข้ามการกระจายของอันตรายที่เกิดขึ้น พวกเขากล่าวว่าความเสี่ยงจาก prompt-injection ขึ้นกับ “เหยื่อ” โดยเอ็กซ์พลอยต์เพียงครั้งเดียวอาจสร้างผลลัพธ์ที่ไม่สมมาตรสำหรับผู้มีส่วนได้ส่วนเสียแต่ละกลุ่ม

StakeBench ตรวจสอบ 3 ปัจจัย ได้แก่ ระยะห่างเชิงความหมายระหว่างเป้าหมายที่ถูกฉีดเข้ากับเจตนาตั้งเดิมของผู้ใช้ ความสอดคล้องของสัญญาณแวดล้อมโดยรอบ และตำแหน่งตามเส้นทางการทำงานของเอเจนต์ที่เบนช์มาร์กเริ่มเปิดเผยให้มันเห็นเนื้อหาที่ถูกฉีด

Microsoft และ Google บันทึกการโจมตีแบบ Prompt Injection

ในเดือนกุมภาพันธ์ นักวิจัยของ Microsoft เตือนว่า “คำสั่งที่ซ่อนอยู่” ซึ่งฝังอยู่ในลิงก์สรุปของ AI อาจส่งผลต่อพฤติกรรมของแชตบอท ในเดือนเมษายน Google ได้บันทึกการโจมตีแบบ prompt injection ที่ซ่อนอยู่ในหน้าเว็บ ซึ่งพยายามชักจูงเอเจนต์ AI ให้รั่วไหลข้อมูลรับรอง หรือส่งการชำระเงิน

Microsoft เปิดเผยข้อบกพร่องของ prompt injection ใน GitHub Action ของ Claude Code ของ Anthropic ซึ่งอาจทำให้ข้อมูลรับรองของผู้ใช้ถูกเปิดเผยได้

การศึกษาระบุแพตเทิร์นการโจมตีแบบแฝงซ่อน “Parasitsm”

การศึกษาระบุสิ่งที่นักวิจัยเรียกว่า “stealthy parasitism” ซึ่งคือการที่เอเจนต์ AI ทำงานตามโจทย์ของผู้ใช้ให้เสร็จในขณะเดียวกันก็ผลักดันเป้าหมายของผู้โจมตีไปด้วย ตัวอย่างเช่น stealthy parasitism ที่เกิดจาก prompt injection อาจมีอิทธิพลอย่างแนบเนียนต่อคำแนะนำสินค้า ทำให้ผู้ใช้ถูกชี้นำไปยังสินค้าบางรายการ โดยไม่มีสัญญาณชัดเจนว่าระบบถูกบุกรุก

นักวิจัยสรุปว่า “ความปลอดภัย” ของ prompt-injection ในเอเจนต์เว็บที่นำไปใช้งานจริง ไม่ใช่คุณสมบัติเชิงสเกลของโมเดลแกนหลักเพียงอย่างเดียว แต่เป็นการกระจายของอันตรายที่ถูกกำหนดร่วมกันโดยผู้มีส่วนได้ส่วนเสียที่ได้รับผลกระทบ การจัดแนวเชิงความหมายระหว่างเป้าหมายที่ถูกฉีดกับงานของผู้ใช้ และบริบทเชิงสถาปัตยกรรมที่โมเดลแกนหลักถูกนำไปใช้

คำถามที่พบบ่อย (FAQ)

นักวิจัยพบอะไรเกี่ยวกับความปลอดภัยของเอเจนต์ AI ในวันพฤหัสบดี?

นักวิจัยจาก Nanyang Technological University, ST Engineering, IBM Research และ University of Illinois Urbana-Champaign เผยแพร่การศึกษาเมื่อวันพฤหัสบดี โดยพบว่าเอเจนต์ AI ที่ขับเคลื่อนด้วย GPT-5 และ Gemini 2.5-Flash ไม่สามารถต้านทานการโจมตีแบบ prompt injection ได้อย่างสม่ำเสมอ โดยการโจมตีโดยตรงประสบความสำเร็จมากกว่า 79% ของครั้ง

stealthy parasitism ในการโจมตีของเอเจนต์ AI คืออะไร?

Stealthy parasitism คือแพตเทิร์นที่ระบุในงานวิจัย ซึ่งเอเจนต์ AI ทำงานตามโจทย์ของผู้ใช้ให้เสร็จในขณะเดียวกันก็ผลักดันเป้าหมายของผู้โจมตีไปด้วย เช่น มีอิทธิพลอย่างแนบเนียนต่อคำแนะนำสินค้า โดยไม่มีสัญญาณชัดเจนว่ามีการบุกรุก

นักวิจัยทำการจำลองการโจมตีจำนวนเท่าใด?

ทีมวิจัยทำการจำลองการโจมตี 3,168 ครั้งโดยใช้ NanoBrowser และ BrowserUse ร่วมกับ GPT-5 และ Gemini 2.5-Flash เพื่อทดสอบการตอบสนองของเอเจนต์ AI ต่อการโจมตีแบบ prompt injection

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น