นักวิจัยจากมหาวิทยาลัยเจ้อเจียงได้พัฒนา AudioHijack ซึ่งเป็นวิธีการโจมตีที่ฝังคำสั่งที่แทบมองไม่เห็นในเสียง เพื่อจัดการโมเดลภาษาเสียงขนาดใหญ่ โดยมีอัตราความสำเร็จ 79–96% การโจมตีดังกล่าวถูกนำเสนอที่งาน IEEE Symposium on Security and Privacy ครั้งที่ 47 ที่เมืองซานฟรานซิสโก AudioHijack ทำงานโดยการปรับค่าตัวเลขภายในคลื่นเสียงดิจิทัลในลักษณะที่ผู้ฟังมนุษย์ไม่สามารถรับรู้ได้ แต่ยังส่งผลต่อวิธีที่โมเดล AI ตีความสัญญาณ เสียงที่ถูกปรับแต่งสามารถแทนที่หรือเปลี่ยนทิศทางพฤติกรรมของโมเดลได้ แม้จะมีคำสั่งที่ผู้ใช้ให้มาอย่างถูกต้องรวมอยู่ในคลิป ตามรายงานการวิจัย
“ใช้เวลาเพียงครึ่งชั่วโมงในการฝึกสัญญาณนี้ แล้วเนื่องจากสัญญาณนี้ไม่อิงบริบท คุณจึงสามารถใช้มันโจมตีโมเดลเป้าหมายได้ทุกเมื่อที่ต้องการ ไม่ว่าผู้ใช้จะพูดอะไร” เมิ่ง เฉิน (Meng Chen) ผู้เขียนนำและนักศึกษาปริญญาเอกจากมหาวิทยาลัยเจ้อเจียงกล่าว
How AudioHijack Differs from Traditional Attacks
AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.
Capabilities and Tested Systems
Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.
Delivery Methods
Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.
ข้อจำกัดด้านการป้องกัน
การเฝ้าติดตามกลไกความสนใจภายในของโมเดลเป็นมาตรการป้องกันที่มีประสิทธิผลที่สุดที่นักวิจัยทดสอบ อย่างไรก็ดี พวกเขายังพบว่า ผู้โจมตีที่รับรู้ถึงการป้องกันสามารถลดความรุนแรงของการปรับแต่ง ขณะยังคงประสิทธิภาพของการโจมตีไว้ได้มาก
“การป้องกันแบบจุดเดียวเหล่านี้รับมือกับการโจมตีของเรายาก เพราะเราพบว่ามันยากมากสำหรับโมเดลพวกนี้ที่จะแยกความตั้งใจของผู้ใช้ปกติกับการโจมตีของฝ่ายตรงข้ามได้” เฉินกล่าว
จากการศึกษา นักวิจัยกำลังตรวจสอบว่าวิธีการนี้สามารถเข้าถึงโมเดลที่ปิดของ OpenAI และ Anthropic ผ่านองค์ประกอบเสียงโอเพนซอร์สที่ใช้ร่วมกันได้หรือไม่