MULTIMODAL CRITICAL

AudioHijack : du son imperceptible détourne les agents vocaux (IEEE S&P 2026)

Un papier IEEE S&P du 16 avril 2026 introduit l'injection de prompt auditive : une réverbération adverse cachée dans l'audio pousse 13 modèles audio-langage et les agents vocaux commerciaux (Mistral AI, Microsoft Azure) à exécuter des actions non autorisées avec 79 à 96 % de réussite.

2026-05-26 // 8 min affects: mistral-voxtral, azure-voice-agents, qwen2-audio, salmonn, gpt-4o-audio, lalm-13

What is this?

Le 16 avril 2026, Meng Chen et ses co-auteurs de l’Université de Zhejiang, de la Nanyang Technological University et de la National University of Singapore ont publié sur arXiv Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection (2604.14604, cs.CR). Le papier a été accepté à IEEE S&P 2026 et introduit une catégorie que les auteurs appellent injection de prompt auditive contre les Large Audio-Language Models (LALM).

Le résultat dérange. Un court signal adverse — entraîné en une demi-heure environ, puis fondu par convolution dans une réverbération ordinaire — embarque des instructions d’attaquant dans tout audio que l’utilisateur fait écouter à proximité d’un agent vocal. L’utilisateur entend un podcast, une musique, une vidéo ou un mémo vocal banal. Le modèle, lui, entend un canal de commande. Sur 13 LALM à l’état de l’art, les taux de succès moyens se situent entre 79 % et 96 % sur six catégories de comportements détournés. Dans une étude en conditions réelles, le même signal a poussé les agents vocaux commerciaux de Mistral AI et Microsoft Azure à effectuer des recherches web, à télécharger des fichiers et à exfiltrer des courriels au nom de l’utilisateur.

C’est la première fois qu’une injection de prompt auditive est démontrée à la fois context-agnostic (le même signal fonctionne quelle que soit la phrase prononcée par l’utilisateur) et imperceptible (la perturbation se cache dans une réverbération naturelle).

How it works

Les LALM standards — Qwen2-Audio, SALMONN, les systèmes de la classe GPT-4o-audio, les piles vocales de Mistral et d’Azure — prennent une forme d’onde continue, la tokenisent via un front-end audio non différentiable, puis transmettent ces tokens à un LLM textuel. Deux propriétés de ce pipeline sont exploitées par AudioHijack.

D’abord, le canal audio est continu et de très haute dimension, ce qui offre infiniment plus de degrés de liberté à une petite perturbation qu’un canal texte. Ensuite, le tokeniseur est non différentiable, ce qui bloquait jusqu’ici les attaques par gradient de bout en bout ; le papier contourne ce verrou par estimation de gradient par échantillonnage.

Le framework repose sur trois pièces.

Supervision d’attention. Durant l’optimisation, la perturbation est récompensée lorsqu’elle déplace l’attention du modèle vers la portion adverse de l’audio, au détriment de la voix de l’utilisateur. C’est ce qui rend l’attaque indépendante du contexte — le modèle « écoute » l’audio adverse quelle que soit la phrase prononcée par l’humain.

Entraînement multi-contexte. Chaque perturbation est entraînée contre de nombreuses requêtes utilisateurs aléatoires afin de généraliser à des contextes inédits. Le papier rapporte des taux de succès de 79 % à 96 % sur des contextes jamais vus à l’entraînement.

Mélange convolutionnel. Du bruit adverse brut serait audible. AudioHijack convolue la perturbation avec une réponse impulsionnelle de salle naturelle, ce qui la fait percevoir comme une simple réverbération. Les études d’écoute du papier confirment que les utilisateurs ne perçoivent pas l’attaque — seulement une acoustique ambiante.

Composant                  Rôle                                Effet sur le LALM
-------------------------  ----------------------------------- ----------------------------------
Gradient échantillonné     Estimer le gradient à travers le    Permet une optimisation end-to-end
                           tokeniseur audio non différentiable contre des pipelines quasi black-box
Supervision d'attention    Détourner l'attention du modèle     Rend l'attaque indépendante du
                           vers la zone adverse                contenu prononcé par l'utilisateur
Entraînement multi-contexte Entraîner sur des prompts variés   Généralise à des contextes inédits
Mélange convolutionnel     Cacher la perturbation dans la      Imperceptible à l'écoute humaine
                           réverbération

Les six catégories de comportements détournés mesurées dans le papier vont du refus de tâches légitimes à la fuite d’instructions système, en passant par la fabrication d’appels d’outils, l’exécution d’appels d’outils non autorisés, la génération de contenus interdits et la substitution silencieuse de l’intention de l’utilisateur. Les démonstrations en conditions réelles couvrent le téléchargement de fichiers contrôlés par l’attaquant, l’envoi de courriels contenant des données de l’utilisateur, et la déviation de recherches web — le tout déclenché pendant que l’utilisateur, lui, parle d’autre chose.

Aucun payload n’est reproduit ici. Le papier arXiv, le code mis en ligne par les auteurs sur GitHub et la publication IEEE S&P 2026 sont les références canoniques pour les chercheurs qui souhaiteraient reproduire le résultat en laboratoire.

Why it matters

Trois propriétés rendent cette classe plus difficile que l’injection de prompt textuelle.

D’abord, le modèle de confiance est rompu à la frontière modale. Un agent vocal accepte par construction l’audio environnant comme entrée primaire. Il n’existe pas d’équivalent d’un « document non fiable » pour un son que l’utilisateur a volontairement diffusé. Le micro de l’appareil fait exactement ce pour quoi il a été conçu.

Ensuite, le transfert aux systèmes commerciaux. La partie « monde réel » du papier est celle que les défenseurs doivent lire en priorité : l’audio adverse généré en local s’est transféré aux agents vocaux de Microsoft Azure et de Mistral AI et les a poussés à effectuer des actions sensibles via des appels d’outils simples ou enchaînés. Ce n’est pas un résultat de laboratoire confiné — il franchit le pas vers des piles vocales en production.

Enfin, les défenses actuellement déployées sont faibles. Les auteurs ont évalué deux mitigations naturelles et en publient des chiffres bruts : le durcissement par prompt (« attention aux instructions suspectes ») ne réduit le taux de succès que de 7 points de pourcentage ; la vérification d’intention (le modèle vérifie que sa réponse correspond bien à la demande de l’utilisateur) ne détecte que 28 % des attaques. Aucune de ces approches n’approche un correctif.

Le motif plus large compte pour quiconque déploie des agents multimodaux. Chaque nouvelle modalité d’entrée — audio, image, vidéo, capteur — est un nouveau canal d’injection que les défenses purement textuelles ne couvriront pas. AudioHijack est l’étude de cas audio ; la leçon structurelle, elle, est plus large.

Defenses

À fin mai 2026, aucune mitigation isolée ne retire cette classe. La liste la plus défendable, tirée du papier lui-même et des bonnes pratiques de sécurité multimodale :

Authentifier le canal d’entrée, pas seulement le contenu. Un agent vocal devrait distinguer l’audio que l’utilisateur a directement prononcé dans le microphone de l’audio joué par un haut-parleur dans l’environnement. Des signaux matériels de présence (champ proche/lointain, second réseau de micros, vibration) peuvent donner à l’agent une notion d’origine dont les pipelines purement textuels ne disposaient pas.
Considérer l’audio ambiant comme non fiable par défaut. Quand un segment audio ne peut pas être attribué avec confiance au locuteur actif, dégrader son autorité : pas d’appel d’outil ni d’écriture en mémoire dérivés de ce segment sans étape de confirmation.
Entraînement adverse et défenses certifiées. Le papier note que le durcissement ad hoc par prompt ne suffit pas. L’entraînement adverse sur des perturbations de type AudioHijack, les transformations d’entrée aléatoires (rééchantillonnage, ajout de bruit, aller-retour MP3) et les techniques de robustesse certifiée sont les pistes à financer, en sachant qu’aucune n’est résolue.
Restreindre la surface d’outils des agents vocaux. Un agent vocal qui ne peut pas envoyer de courriel, qui ne peut pas télécharger de fichier arbitraire, qui ne peut pas naviguer vers une URL arbitraire, ne pourra pas être forcé à ces actions depuis un prompt détourné. Appliquer la Agents Rule of Two — au plus deux parmi « entrée non fiable / outils sensibles / canal d’exfiltration » à la fois.
Exiger une confirmation explicite pour les actions à fort enjeu. Envoyer un courriel, télécharger un fichier, transférer de l’argent, changer un réglage : une brève confirmation vocale ou à l’écran casse le chemin d’attaque silencieux même quand l’injection de prompt réussit côté modèle.
Conserver et rejouer le contexte audio pour les actions à forte autorité. Quand un agent vocal effectue une action sensible, l’audio qui la précède devrait être conservé et inspectable, afin qu’une analyse a posteriori puisse reconnaître une superposition de type AudioHijack.
Surveiller le motif intermodal, pas seulement l’audio. Le même problème structurel — une modalité non textuelle avec un espace d’entrée continu, haute dimension, et un front-end non différentiable — vaut pour les LLM visuels, vidéo et de capteurs. Les défenses doivent être pensées indépendantes de la modalité.

Status

Élément	Référence	Date	Notes
Papier	arXiv:2604.14604 v1	2026-04-16	Accepté à IEEE S&P 2026
Code	github.com/zju-muslab/AudioHijack	2026-04	Implémentation de référence
LALM touchés	13 modèles à l’état de l’art	—	79-96 % ASR moyen sur contextes inédits
Agents commerciaux touchés	Agent vocal Mistral AI ; agents vocaux Microsoft Azure	2026-04	Détournement d’appels d’outils en conditions réelles
Défenses essayées	Durcissement par prompt ; vérification d’intention	2026-04	-7 pp d’ASR ; 28 % de détection — insuffisant
Catégorie	Injection de prompt multimodale	—	Nouvelle classe d’attaque proposée par les auteurs

L’audio était jusqu’ici la modalité où l’injection de prompt s’étudiait au niveau du jailbreak — faire dire au modèle ce qu’il refuserait par écrit. AudioHijack franchit un pas : faire agir l’agent au nom de l’utilisateur, pendant que l’humain dans la pièce, lui, n’entend qu’une réverbération ordinaire. Le papier d’avril 2026 ne retire aucune défense ; il retire en revanche l’hypothèse selon laquelle la voix serait le canal le plus sûr.