MULTIMODAL MEDIUM NEW

Sirens' Whisper：针对语音 LLM 的不可闻近超声越狱

2026 年 3 月 14 日，华中科技大学、清华大学与微软的论文将越狱提示隐藏在 17–22 kHz 频段。麦克风的非线性将其重新解调为指令——对人耳无声，对商用语音 LLM 的不拒绝率最高达 0.94。

2026-06-18 // 7 min affects: deepseek, glm-4-air, grok-4, glm-4-voice, qwen-omni-turbo

这是什么？

2026 年 3 月 14 日，来自华中科技大学、清华大学与微软的研究者发表了 Sirens’ Whisper（SWhisper），这是一个通过人耳无法感知的信道，向语音驱动的 LLM 投送越狱提示的框架。提示被编码进 17–22 kHz 的近超声频段，由普通扬声器播放，随后借助受害者麦克风的非线性被重新解调为可听指令。对在场的人而言，这听起来就是静默——一项受控用户研究发现，注入的音频「在感知上与单纯的背景噪声无法区分」。但对模型来说，这是一条口头指令。

这正是 DolphinAttack 与 NUIT 背后的隐蔽声学信道思想，被带入了由大语言模型支撑的语音助手时代。其贡献并非「超声能到达麦克风」——这早已为人所知——而是一段结构化的、多句的越狱提示能够在传输中存活下来，并操控一个黑盒商用语音 LLM。我们关注它，是因为语音正成为默认交互界面（苹果、谷歌与亚马逊都在部署语音助手），而一个不可闻的提示注入信道改变了它们每一个的威胁模型。

工作原理

麦克风并非完全线性的器件。其响应包含高阶项——论文中建模为 S_out = k1·S_in + k2·S_in² + k3·S_in³ + …。二次项 k2·S_in² 将高频载波下混到可听频带。SWhisper 正是利用这一点：它通过单边带调制将目标音频调制到近超声载波上，而麦克风自身的硬件完成了「解码」。

难点在于保真度。近超声会受到强烈的空气吸收，且在 17 kHz 以上硬件响应不规则，因此一个朴素的载波到达时已成噪声。论文的核心手法是信道反演预补偿：它对麦克风与信道的复合传递函数进行建模，再对波形进行预失真，使落入基带的内容在不同设备与房间中都与目标提示相符。

攻击者扬声器                      受害者麦克风                 语音 LLM
------------                      ------------                 --------
提示 → 单边带调制至          →     非线性解调               →   将恢复出的
17–22 kHz，并进行                 （k2·S_in² 项）                提示「转写」
信道反演预补偿                    在基带明文恢复音频            为口头指令

此处不复现任何 payload。威胁模型才是关键细节。目标模型被当作黑盒（音频输入、音频输出）；攻击者针对一个白盒代理模型进行优化，并依赖迁移性。攻击必须在单次查询中成功，使用消费级扬声器（无需专用超声设备），并在约 1 米、0° 朝向、36–38 dB 环境噪声下完成演示。所报告的有效性在商用模型上达到最高 0.94 的不拒绝率与 0.925 的「specific-convincing」，采用 StrongREJECT 方法在 AdvBench 提示子集上评估。受测目标包括作为语音 LLM 的 DeepSeek（Non-Thinking 模式）、GLM-4-Air 与 Grok-4，以及端到端音频模型 GLM-4-Voice 与 Qwen-Omni-Turbo。

为什么重要

文本护栏完全看不到这种攻击。输入过滤、审核提示与指令层级训练都作用于转写文本——但恶意指令是注入在应用之下，在普通扬声器与麦克风之间的模拟间隙中。等到音频变成文本时，它看起来已经像一句合法的用户话语。

约束条件是真实的，值得直说：攻击需要扬声器位于约一米之内，对角度和距离敏感，而作为越狱，它主要产生被禁的内容，而非具有权限的动作。但有两个趋势抬高了风险。语音正从「提问」走向「做事」——会发送消息、控制设备或触发工具调用的智能体。作者还指出，同一隐蔽信道「可支持更广泛的一类高保真提示注入与命令执行攻击」，而不仅是越狱。一条到达拥有真实工具的智能体的不可闻指令，正是防御者现在就该预先防范的部分。

防御

注入发生在信号层，因此防御必须从那里开始，并向上贯穿整个技术栈。论文本身讨论了基于信号与基于文本的对策；这些持久原则在声学注入文献中已有充分确立。

在模型之前进行低通／抗混叠滤波。 对麦克风通路进行限带与滤波，使高于人声范围（大致 >8 kHz）的能量在到达语音识别之前被衰减。这直接打击解调所依赖的载波。
检测近超声能量。 监测 17–22 kHz 频段，发现这类攻击所需的结构化、持续信号。在一条「口头」指令期间持续存在的高频内容是值得标记或拒绝的异常。
加固麦克风前端。 抑制非线性解调的硬件与固件（更好的模拟设计、防超声保护）可移除这一物理原语。这是最彻底的修复，也是部署最慢的。
对动作而非仅对词语设门控。 将任何由语音发起的高影响动作——发送数据、消息、购买、设备或工具控制——都视为需要显式的带外确认。被越狱的转写文本不应足以触发动作。
加入活体与来源校验。 说话人验证、挑战-应答，以及拒绝缺乏正常对话上下文的指令，都会提高单次不可闻注入的成本。
将模拟间隙纳入威胁建模。 语音智能体的安全评审应明确纳入物理-声学信道，而不仅是文本界面。请假定麦克风可被用户永远听不到的信号寻址。

现状

项目	来源	日期	备注
SWhisper 论文（arXiv:2603.13847v1）	华中科大 / 清华 / 微软	2026-03-14	首个面向黑盒语音 LLM 的隐蔽近超声提示注入框架
载波频段	论文	2026-03-14	17–22 kHz，单边带调制，信道反演预补偿
报告的有效性	论文	2026-03-14	商用模型上最高 0.94 不拒绝率 / 0.925「specific-convincing」
人耳可感知性	用户研究	2026-03-14	注入音频与单纯背景噪声无法区分
评估目标	论文	2026-03-14	DeepSeek、GLM-4-Air、Grok-4；LALM：GLM-4-Voice、Qwen-Omni-Turbo

要点不在于某个语音模型「被攻破」——而在于麦克风是你攻击面的一部分。随着语音 LLM 获得行动能力，扬声器与麦克风之间的模拟信道成为一条任何文本层对齐都无法封堵的注入路径。真正重要的防御是信号滤波、硬件加固，以及拒绝让一段转写文本单独授权产生后果的动作。

Sirens' Whisper：针对语音 LLM 的不可闻近超声越狱

这是什么？

工作原理

为什么重要

防御

现状

Sources