MULTIMODAL CRITICAL

AudioHijack:不可感知音频劫持语音智能体(IEEE S&P 2026)

一篇 2026 年 4 月 16 日的 IEEE S&P 论文提出听觉 prompt 注入:隐藏在音频中的对抗性混响驱动 13 种大型音频-语言模型以及 Mistral AI 与 Microsoft Azure 等商用语音智能体执行未经授权的操作,平均成功率 79%-96%。

2026-05-26 // 7 min affects: mistral-voxtral, azure-voice-agents, qwen2-audio, salmonn, gpt-4o-audio, lalm-13

What is this?

2026 年 4 月 16 日,来自浙江大学、新加坡南洋理工大学和新加坡国立大学的陈萌等人在 arXiv 上发布了论文 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection(2604.14604,cs.CR)。该论文已被 IEEE S&P 2026 接收,正式提出了作者所称的、面向大型音频-语言模型(LALMs)的听觉 prompt 注入这一新类别。

结果令人不安。一段简短的对抗信号——大约半小时即可训练完成,然后通过卷积融入普通的混响中——便能将攻击者的指令嵌入到用户在语音智能体附近播放的任何音频中。用户听到的只是一个普通的播客、音乐、视频或语音备忘录;模型却收到了一条控制通道。在 13 种当前最先进的 LALMs 上,六类异常行为的平均成功率达到 79% 至 96%。在一项真实环境研究中,同一段信号成功诱导 Mistral AI 与 Microsoft Azure 的商用语音智能体代表用户执行网页搜索、文件下载与邮件外泄等操作。

这是听觉 prompt 注入首次同时被证明具备上下文无关(同一段信号无论用户说什么都能生效)与人耳不可感知(扰动隐藏在自然混响之中)两项性质。

How it works

标准的 LALMs——Qwen2-Audio、SALMONN、GPT-4o-audio 一类的系统,以及 Mistral 与 Azure 的语音技术栈——接收连续的音频波形,经由不可微的音频前端进行分词,再将得到的 token 输入文本 LLM。AudioHijack 利用了该流水线的两项性质。

其一,音频通道是连续且高维的,这给微小扰动提供了远多于文本通道的自由度。其二,音频分词器是不可微的,从历史上看这阻止了端到端的梯度攻击;论文通过基于采样的梯度估计绕过了这一限制。

整体框架由三部分构成。

**注意力监督。**在优化过程中,如果扰动能够把模型注意力转移到对抗音频片段、远离用户语音,就会获得奖励。这正是该攻击具备上下文无关属性的原因——无论人类说了什么,模型”听到的”都是对抗音频。

**多上下文训练。**每段扰动都会在多种随机用户输入下被训练,使其能够泛化到未见过的语境。论文报告在训练时从未见过的语境下成功率为 79%-96%。

**卷积融合。**原始对抗噪声是可听的。AudioHijack 将扰动与真实房间冲激响应进行卷积,使其被听感系统视作混响。论文中的听感实验表明用户并不会把它当作攻击,只会感到环境的声学差异。

组件                       作用                                 对 LALM 的影响
-------------------------  ----------------------------------- ----------------------------------
基于采样的梯度估计         穿越不可微的音频分词器估计梯度       支持对近似黑盒流水线进行端到端
                                                                优化
注意力监督                 把模型注意力引导到对抗音频片段       使攻击与用户实际语音内容解耦
                                                                (上下文无关)
多上下文训练               在多样化的 prompt 上训练             泛化到未见过的语境
卷积融合                   将扰动嵌入混响                       人耳不可感知

论文衡量的异常行为共分六类——拒绝合理任务、泄露系统指令、伪造工具调用、未授权的工具调用、生成被禁止的内容,以及悄悄替换用户意图。真实环境演示涵盖了下载攻击者控制的文件、发送包含用户数据的邮件以及篡改网页搜索——所有这些都是在用户正与智能体讨论别的事情时被触发的。

本文不复现任何可执行的攻击 payload。arXiv 论文、作者在 GitHub 上的代码发布以及 IEEE S&P 2026 的正式版本是希望在实验环境中复现该结果的研究人员的权威参考。

Why it matters

有三项性质让这一类别比纯文本的 prompt 注入更难处理。

第一,信任模型在模态边界处失守。语音智能体本就把环境中的声音视为主要输入,并不存在与”不可信文档”对应的概念来描述”用户主动播放的声音”。设备的麦克风做的正是其设计本意。

第二,向商用系统的迁移性。论文中”真实环境”那一节才是防御者最该先看的部分:本地生成的对抗音频成功迁移到了 Microsoft Azure 与 Mistral AI 的语音智能体上,通过单次或链式的工具调用诱导它们执行了敏感操作。这不是封闭的实验室结果——它跨越了走向生产环境语音栈的那道门槛。

第三,目前部署的防御都很薄弱。作者评估了两种自然的缓解手段,数据相当冷峻:基于 prompt 的加固(“当心可疑指令”)仅将攻击成功率降低 7 个百分点;让模型做意图核对(检查回答是否符合用户请求)只能检测到 28% 的攻击。两者都距离真正的修复甚远。

更广义的模式对任何部署多模态智能体的团队都重要。每多一种输入模态——音频、图像、视频、传感器——都意味着一条新的注入通道,纯文本的防御机制无法覆盖。AudioHijack 只是音频领域的案例研究;结构性的教训远不止于此。

Defenses

截至 2026 年 5 月底,没有任何单一缓解手段能够把这一类别”结掉”。可立即拿出来的最稳妥清单,来自论文本身以及通用的多模态安全实践:

**对输入通道而不仅是内容做认证。**语音智能体应当区分用户直接对麦克风说出的音频和由环境中扬声器播放的音频。基于硬件的存在感信号(近场/远场、第二组麦克风阵列、振动)可以给智能体一种纯文本管道从未具备的”来源”概念。
**将环境音视为默认不可信。**当一段音频无法被可靠地归因到当前讲话者时,降低其权限:不允许由该段音频派生出的工具调用或记忆写入,除非有确认步骤。
**对抗训练与可证明防御。**论文指出仅靠 prompt 层面的临时加固是不够的。针对 AudioHijack 类型扰动的对抗训练、随机输入变换(重采样、加噪、MP3 往返)以及可证明鲁棒性技术,都是值得投入的方向,前提是认识到没有一种已经解决了问题。
**限制语音智能体的工具面。**一个不能发邮件、不能下载任意文件、不能访问任意 URL 的语音智能体,无法因 prompt 被劫持而被驱动去完成这些动作。应用 Agents Rule of Two ——“不可信输入 / 敏感工具 / 数据外泄通道”中,任何时刻最多只允许两项。
**高风险操作必须显式确认。**发送邮件、下载文件、转账、修改设置:一段简短的语音或屏幕确认,即便模型层 prompt 注入成功,也能切断静默的攻击链。
**对高权限操作记录并可回放音频上下文。**当语音智能体执行了敏感操作,其前序音频应当被留存并可审计,以便事后分析能够识别出 AudioHijack 式的叠加信号。
**关注跨模态的整体模式,而不仅仅是音频。**同样的结构性问题——非文本模态、连续高维输入空间、不可微前端——同样存在于视觉、视频与传感器 LLM 中。防御方案应当被设计为模态无关。

Status

项目	参考	日期	备注
论文	arXiv:2604.14604 v1	2026-04-16	被 IEEE S&P 2026 接收
代码	github.com/zju-muslab/AudioHijack	2026-04	参考实现
受影响 LALMs	13 种当前最先进模型	—	未见语境下平均 ASR 79%-96%
受影响商用智能体	Mistral AI 语音智能体;Microsoft Azure 语音智能体	2026-04	在真实环境中演示了工具调用劫持
已尝试的防御	Prompt 加固;意图核对	2026-04	ASR 降低 7 个百分点;检测率 28% ——皆不充分
类别	多模态 prompt 注入	—	作者提出的新攻击类别

音频此前一直是 prompt 注入研究停留在 jailbreak 层面的模态——让模型说出它书面会拒绝的话。AudioHijack 又向前一步:让智能体以用户名义执行操作,而房间里的人只听到普通的混响。2026 年 4 月这篇论文并未让任何一种防御失效;它真正废止的,是”语音是更安全通道”这一假设。