角色混淆:为什么大模型会服从「听起来有权威」的文本
MIT 的一篇 ICML 2026 新论文提出,提示注入的本质是「角色混淆」:模型根据文本的风格、而非来源来判断「谁在说话」。伪造的推理文本使攻击成功率达到约 60%,而一处对人几乎不可见的改写就把它降到了 10%。
这是什么?
Prompt Injection as Role Confusion(《作为角色混淆的提示注入》)是 Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell(MIT CSAIL,Algorithmic Alignment Group)撰写的研究论文,发表于 arXiv,编号 2603.12277,并被 ICML 2026 接收。在 Simon Willison 于 2026 年 6 月 22 日 撰文介绍后,它获得了广泛关注。论文为「提示注入为何多年来始终无法被补丁修复」提出了一个统一的机理解释:模型并不能可靠地知道是谁在说话。
现代大模型用角色标签包裹文本——<system>、<user>、<assistant> 以及像 <think> 这样的推理标签——并被训练为对不同角色赋予不同权限。论文的核心论点令人不安:模型判断一段文本属于哪个角色,依据的是它的书写方式,而非它真正的来源。正如作者所说,「安全在接口处定义,但权限在潜空间中分配」。一段模仿了特权角色风格的不可信文本,可以继承该角色的权限。
工作原理
作者构建了「角色探针」(role probes)——轻量级分类器,读取模型的内部激活,以还原模型自身对「谁在说话」的感知。借助这些探针,他们证明:在生成第一个 token 之前,角色混淆的程度就已可测量,而且这种内部混淆能强有力地预测注入是否会成功。
攻击直接源自该诊断。取一个置于用户轮次中的普通违规请求,再追加一段其风格模仿模型内部推理或策略说明的文本——即一个声称存在(伪造的)策略例外的 <think> 区块的语气。对人类而言,这段追加文本显然只是更多的用户输入;但对模型而言,它读起来像是特权的内部独白,于是该请求继承了更高权限,安全训练被绕过。论文在 gpt-oss-20b 等开放权重模型,以及一系列开放与封闭权重模型上报告了这一结果。
理解该结果无需任何新型 payload,因此本文不提供。重要的是被测出的效应:注入伪造的推理文本,在 StrongREJECT 上取得 约 60% 的平均攻击成功率,在一项智能体数据外泄任务上取得 61%,而基线接近于零。
而其反面,是最具可操作性的发现。作者测试了「去风格化」(destyling):改写不可信文本,使其对人读起来一样,但不再符合特权角色的预期格式。结果是:
在我们的数据集中,去风格化使平均攻击成功率从 61% 骤降至 10%。一处对人类几乎不可见的改动,彻底改变了大模型的角色感知。
为何重要
这把提示注入从「一堆巧妙花招」重新定义为当今模型运作方式的一种结构性属性。如果模型按风格分配权限,那么任何以角色标签或分隔符作为信任边界的防御,在构造上就是脆弱的:能够「用对的口吻」书写的攻击者,就能把不可信数据提升为受信任角色。这也解释了那种「打地鼠」般的无力感——修补个别措辞,丝毫不触及底层机制。
它对 智能体与 RAG 尤为关键:在那里,不可信内容(网页、工具输出、检索到的文档、邮件)与系统指令涌入同一个上下文窗口。外泄结果表明,这种混淆并不局限于聊天中的拒绝,它会蔓延到使用工具的流水线,而被劫持角色的代价是真实的数据流动。作者还警告一种更隐蔽的威胁:通过看似无害的文本,渐进地、「合法地」 推移模型的角色感知,而非使用一条显眼的恶意字符串。
防御
- 不要把角色标签或分隔符当作安全边界。
<system>/<user>的分隔是接口约定,而非授权机制。应假设任何文本都可能声称任何角色。 - 在不可信输入抵达模型之前,对其进行归一化 /「去风格化」。 剥离或改写模仿系统、推理或助手格式的内容(伪造的
<think>区块、伪策略说明、工具结果式排版)。仅此一项,就在其数据集中将攻击成功率从 61% 降至 10%。 - 将角色探针用作检测信号。 内部角色混淆在生成前即可测量;某请求的高混淆读数是一个早期预警,可据此拦截或升级处理。
- 保留架构层面的控制。 风格归一化是缓解措施,而非保证。应将其与权限分离,以及「致命三要素」/「Agents Rule of Two」纪律结合:限制任何无人监督的智能体最多只持有 {私有数据、不可信内容、对外通信} 中的两项。
- 限制智能体的出站与工具范围。 既然被证实的影响是外泄,就对出站目的地设白名单,并以最小权限约束工具,使被劫持的角色无法走远。
- 既过滤输入,也过滤输出。 对动作与响应做二级检查,可在混淆角色漏网时限制损害。
现状
| 项目 | 详情 |
|---|---|
| 论文 | Prompt Injection as Role Confusion,arXiv:2603.12277 |
| 作者 | Charles Ye、Jasmine Cui、Dylan Hadfield-Menell(MIT CSAIL) |
| 会议 | 被 ICML 2026 接收 |
| 测试对象 | 开放与封闭权重模型,含 gpt-oss-20b |
| 攻击成功率 | 约 60% StrongREJECT;61% 智能体外泄(基线≈0) |
| 去风格化防御 | 攻击成功率 61% → 10% |
| 引发关注 | Simon Willison 撰文,2026 年 6 月 22 日 |
要点:在模型实现真正的角色感知之前——即区分「谁在说话」与「文本如何书写」——建立在角色标签之上的提示注入防御,将持续败给「用对口吻写成」的文本。当下的实用抓手是:对不可信输入做归一化,使其不再冒充受信任角色;并把权限交由架构、而非提示词来强制执行。