AudioHijack: Los comandos inaudibles secuestran modelos de voz de IA con una tasa de éxito del 96%

2026-05-26 18:23:41

Los investigadores de la Universidad de Zhejiang han desarrollado AudioHijack, un método de ataque que incrusta comandos imperceptibles en audio para manipular grandes modelos de lenguaje de audio con una tasa de éxito del 79–96%. El ataque fue presentado en el 47.º Simposio IEEE sobre Seguridad y Privacidad en San Francisco. AudioHijack funciona modificando valores numéricos dentro de ondas de audio digital de una manera imperceptible para los oyentes humanos, pero que aun así afecta a cómo los modelos de IA interpretan la señal. El audio manipulado puede anular o redirigir el comportamiento de un modelo incluso cuando las instrucciones legítimas del usuario están incluidas con el clip, según la investigación.

“Solo toma media hora entrenar esta señal y, luego, como esta señal es agnóstica del contexto, puedes usarla para atacar el modelo objetivo cuando quieras, pase lo que pase con lo que diga el usuario”, dijo Meng Chen, autor principal y estudiante de doctorado en la Universidad de Zhejiang.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Limitaciones de la defensa

Monitorear los mecanismos internos de atención de un modelo fue la defensa más efectiva que los investigadores probaron. Sin embargo, también encontraron que los atacantes conscientes de la defensa podrían reducir la fuerza de la manipulación mientras mantienen gran parte de la efectividad del ataque.

“Estas defensas de punto único luchan por resistir nuestro ataque porque descubrimos que es muy difícil para estos modelos distinguir la intención normal del usuario y nuestro ataque adversario”, dijo Chen.

Según el estudio, los investigadores están investigando si la técnica puede alcanzar modelos cerrados de OpenAI y Anthropic a través de componentes de audio de código abierto compartidos.

Ver fuente

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

05-26 18:22

Ataque de AudioHijack secuestra modelos de voz de IA con una tasa de éxito de hasta el 96%, según un estudio

05-26 15:33

StepFun's StepAudio 2.5 en tiempo real supera cinco benchmarks de IA de voz y vence a GPT Realtime 1.5

05-26 14:14

Los agentes de IA que procesan $73M en cripto necesitan seguridad a nivel de todo el sistema, advierten los investigadores