MULTIMODAL MEDIUM NEW

Sirens' Whisper : des jailbreaks inaudibles en quasi-ultrasons contre les LLM vocaux

Un article du 14 mars 2026 (Huazhong, Tsinghua, Microsoft) dissimule des prompts de jailbreak dans la bande 17–22 kHz. La non-linéarité du micro les redémodule en commandes — silencieux pour l'humain, jusqu'à 0,94 de non-refus sur des LLM vocaux commerciaux.

2026-06-18 // 8 min affects: deepseek, glm-4-air, grok-4, glm-4-voice, qwen-omni-turbo

De quoi s’agit-il ?

Le 14 mars 2026, des chercheurs de l’université des sciences et technologies de Huazhong, de l’université Tsinghua et de Microsoft ont publié Sirens’ Whisper (SWhisper), un cadre qui transmet des prompts de jailbreak à des LLM pilotés par la voix via un canal que l’oreille humaine ne perçoit pas. Le prompt est encodé dans la bande quasi-ultrasonique 17–22 kHz, joué par un haut-parleur ordinaire, puis redémodulé en commande audible par la non-linéarité du microphone de la victime. Pour une personne présente, cela ressemble à du silence — une étude utilisateur contrôlée a jugé l’audio injecté « perceptuellement indiscernable d’un simple bruit de fond ». Pour le modèle, c’est une instruction vocale.

C’est l’idée du canal acoustique caché derrière DolphinAttack et NUIT, transposée à l’ère des assistants vocaux adossés aux grands modèles de langage. L’apport n’est pas « un ultrason peut atteindre un micro » — cela est connu — mais qu’un prompt de jailbreak structuré, de plusieurs phrases, peut survivre au trajet et piloter un LLM vocal commercial en boîte noire. Nous traitons le sujet parce que la voix devient une interface par défaut (Apple, Google et Amazon déploient tous des assistants vocaux), et qu’un canal d’injection de prompt inaudible modifie le modèle de menace de chacun d’eux.

Comment ça marche

Un microphone n’est pas un dispositif parfaitement linéaire. Sa réponse comporte des termes d’ordre supérieur — modélisés dans l’article par S_out = k1·S_in + k2·S_in² + k3·S_in³ + …. Le terme quadratique k2·S_in² ramène une porteuse haute fréquence dans la bande audible. SWhisper exploite exactement cela : il module l’audio cible sur une porteuse quasi-ultrasonique par modulation à bande latérale unique, et le matériel même du micro effectue le « décodage ».

La difficulté, c’est la fidélité. Les quasi-ultrasons subissent une forte absorption dans l’air et une réponse matérielle irrégulière au-delà de 17 kHz : une porteuse naïve arrive donc inexploitable. Le geste central de l’article est la pré-compensation par inversion de canal : il modélise la fonction de transfert combinée micro + canal, puis pré-distord la forme d’onde pour que ce qui retombe dans la bande de base corresponde au prompt voulu, sur des appareils et des pièces variés.

Haut-parleur attaquant           Micro de la victime          LLM vocal
----------------------           -------------------          ---------
prompt → modulation SSB   →       démodulation non         →   « transcrit »
en 17–22 kHz, avec                linéaire (terme k2·S_in²)    le prompt
pré-compensation par              récupère l'audio en          récupéré comme
inversion de canal                bande de base, en clair      commande vocale

Aucun payload n’est reproduit ici. Le modèle de menace est le détail opérant. Le modèle visé est traité en boîte noire (audio en entrée, audio en sortie) ; l’attaquant optimise contre un modèle de substitution en boîte blanche et mise sur le transfert. L’attaque doit réussir en une seule requête, utilise des haut-parleurs grand public (sans matériel ultrasonique spécialisé), et a été démontrée à environ 1 m, orientation 0°, sous 36–38 dB de bruit ambiant. L’efficacité rapportée atteint jusqu’à 0,94 de non-refus et 0,925 de « specific-convincing » sur des modèles commerciaux, évaluée selon la méthodologie StrongREJECT sur un sous-ensemble de prompts AdvBench. Les cibles testées incluent DeepSeek (mode Non-Thinking), GLM-4-Air et Grok-4 comme LLM vocaux, ainsi que les modèles audio de bout en bout GLM-4-Voice et Qwen-Omni-Turbo.

Pourquoi c’est important

Les garde-fous textuels ne voient jamais cette attaque. Le filtrage d’entrée, les prompts de modération et l’entraînement à la hiérarchie d’instructions opèrent tous sur la transcription — mais l’instruction malveillante est injectée sous l’application, dans l’espace analogique entre un haut-parleur ordinaire et le micro. Au moment où l’audio devient texte, il a déjà l’apparence d’un énoncé utilisateur légitime.

Les contraintes sont réelles et méritent d’être posées clairement : l’attaque exige un haut-parleur à environ un mètre, reste sensible à l’angle et à la distance, et, en tant que jailbreak, produit surtout du contenu interdit plutôt que des actions privilégiées. Mais deux tendances relèvent l’enjeu. La voix passe de « poser une question » à « faire une action » — des agents qui envoient des messages, pilotent des appareils ou déclenchent des appels d’outils. Et les auteurs notent que ce même canal caché « permet une classe plus large d’attaques d’injection de prompt et d’exécution de commandes de haute fidélité », au-delà des seuls jailbreaks. Une instruction inaudible qui atteint un agent doté de vrais outils est précisément ce que les défenseurs doivent anticiper dès maintenant.

Défenses

L’injection se produit au niveau du signal : la défense doit donc commencer là et remonter toute la pile. L’article lui-même évoque des contre-mesures fondées sur le signal et sur le texte ; les principes durables sont bien établis dans la littérature sur l’injection acoustique.

Filtrage passe-bas / anti-repliement avant le modèle. Limitez la bande et filtrez le chemin du micro afin d’atténuer l’énergie au-delà de la voix humaine (grossièrement >8 kHz) avant qu’elle n’atteigne la reconnaissance vocale. Cela s’attaque directement à la porteuse dont dépend la démodulation.
Détecter l’énergie quasi-ultrasonique. Surveillez la bande 17–22 kHz pour repérer les signaux structurés et soutenus que ces attaques exigent. Un contenu haute fréquence persistant pendant une commande « parlée » est une anomalie à signaler ou à rejeter.
Durcir l’étage d’entrée du micro. Le matériel et le firmware qui suppriment la démodulation non linéaire (meilleure conception analogique, protections anti-ultrasons) éliminent la primitive physique. C’est le correctif le plus complet, et le plus lent à déployer.
Verrouiller les actions, pas seulement les mots. Traitez toute action à fort impact initiée par la voix — envoi de données, messagerie, achats, pilotage d’appareils ou d’outils — comme nécessitant une confirmation explicite et hors bande. Une transcription jailbreakée ne devrait pas suffire à agir.
Ajouter des contrôles de vivacité et de provenance. La vérification du locuteur, le défi-réponse et le rejet des commandes dépourvues de contexte conversationnel normal augmentent le coût d’une injection inaudible en un seul coup.
Modéliser la menace de l’espace analogique. Les revues de sécurité des agents vocaux doivent inclure explicitement les canaux physico-acoustiques, et pas seulement l’interface textuelle. Partez du principe que le micro peut être adressé par des signaux que l’utilisateur n’entend jamais.

État des lieux

Élément	Référence	Date	Notes
Article SWhisper (arXiv:2603.13847v1)	Huazhong U. / Tsinghua / Microsoft	2026-03-14	Premier cadre d’injection de prompt quasi-ultrasonique cachée vers des LLM vocaux en boîte noire
Bande porteuse	Article	2026-03-14	17–22 kHz, modulation à bande latérale unique, pré-compensation par inversion de canal
Efficacité rapportée	Article	2026-03-14	Jusqu’à 0,94 de non-refus / 0,925 de « specific-convincing » sur modèles commerciaux
Perceptibilité humaine	Étude utilisateur	2026-03-14	Audio injecté indiscernable d’un simple bruit de fond
Cibles évaluées	Article	2026-03-14	DeepSeek, GLM-4-Air, Grok-4 ; LALM GLM-4-Voice, Qwen-Omni-Turbo

À retenir : ce n’est pas qu’un modèle vocal en particulier serait « cassé » — c’est que le microphone fait partie de votre surface d’attaque. À mesure que les LLM vocaux gagnent la capacité d’agir, le canal analogique entre un haut-parleur et un micro devient une voie d’injection qu’aucun alignement au niveau du texte ne peut fermer. Les défenses qui comptent sont le filtrage du signal, le durcissement matériel, et le refus de laisser une simple transcription autoriser des actions conséquentes.