RESEARCH MEDIUM NEW

角色混淆：为什么大模型会服从「听起来有权威」的文本

MIT 的一篇 ICML 2026 新论文提出，提示注入的本质是「角色混淆」：模型根据文本的风格、而非来源来判断「谁在说话」。伪造的推理文本使攻击成功率达到约 60%，而一处对人几乎不可见的改写就把它降到了 10%。

2026-06-26 // 6 min affects: gpt-oss-20b, open-weight-llms, closed-weight-llms, llm-agents

这是什么？

Prompt Injection as Role Confusion（《作为角色混淆的提示注入》）是 Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell（MIT CSAIL，Algorithmic Alignment Group）撰写的研究论文，发表于 arXiv，编号 2603.12277，并被 ICML 2026 接收。在 Simon Willison 于 2026 年 6 月 22 日 撰文介绍后，它获得了广泛关注。论文为「提示注入为何多年来始终无法被补丁修复」提出了一个统一的机理解释：模型并不能可靠地知道是谁在说话。

现代大模型用角色标签包裹文本——<system>、<user>、<assistant> 以及像 <think> 这样的推理标签——并被训练为对不同角色赋予不同权限。论文的核心论点令人不安：模型判断一段文本属于哪个角色，依据的是它的书写方式，而非它真正的来源。正如作者所说，「安全在接口处定义，但权限在潜空间中分配」。一段模仿了特权角色风格的不可信文本，可以继承该角色的权限。

工作原理

作者构建了「角色探针」（role probes）——轻量级分类器，读取模型的内部激活，以还原模型自身对「谁在说话」的感知。借助这些探针，他们证明：在生成第一个 token 之前，角色混淆的程度就已可测量，而且这种内部混淆能强有力地预测注入是否会成功。

攻击直接源自该诊断。取一个置于用户轮次中的普通违规请求，再追加一段其风格模仿模型内部推理或策略说明的文本——即一个声称存在（伪造的）策略例外的 <think> 区块的语气。对人类而言，这段追加文本显然只是更多的用户输入；但对模型而言，它读起来像是特权的内部独白，于是该请求继承了更高权限，安全训练被绕过。论文在 gpt-oss-20b 等开放权重模型，以及一系列开放与封闭权重模型上报告了这一结果。

理解该结果无需任何新型 payload，因此本文不提供。重要的是被测出的效应：注入伪造的推理文本，在 StrongREJECT 上取得 约 60% 的平均攻击成功率，在一项智能体数据外泄任务上取得 61%，而基线接近于零。

而其反面，是最具可操作性的发现。作者测试了「去风格化」（destyling）：改写不可信文本，使其对人读起来一样，但不再符合特权角色的预期格式。结果是：

在我们的数据集中，去风格化使平均攻击成功率从 61% 骤降至 10%。一处对人类几乎不可见的改动，彻底改变了大模型的角色感知。

为何重要

这把提示注入从「一堆巧妙花招」重新定义为当今模型运作方式的一种结构性属性。如果模型按风格分配权限，那么任何以角色标签或分隔符作为信任边界的防御，在构造上就是脆弱的：能够「用对的口吻」书写的攻击者，就能把不可信数据提升为受信任角色。这也解释了那种「打地鼠」般的无力感——修补个别措辞，丝毫不触及底层机制。

它对 智能体与 RAG 尤为关键：在那里，不可信内容（网页、工具输出、检索到的文档、邮件）与系统指令涌入同一个上下文窗口。外泄结果表明，这种混淆并不局限于聊天中的拒绝，它会蔓延到使用工具的流水线，而被劫持角色的代价是真实的数据流动。作者还警告一种更隐蔽的威胁：通过看似无害的文本，渐进地、「合法地」 推移模型的角色感知，而非使用一条显眼的恶意字符串。

防御

不要把角色标签或分隔符当作安全边界。 <system> / <user> 的分隔是接口约定，而非授权机制。应假设任何文本都可能声称任何角色。
在不可信输入抵达模型之前，对其进行归一化 /「去风格化」。 剥离或改写模仿系统、推理或助手格式的内容（伪造的 <think> 区块、伪策略说明、工具结果式排版）。仅此一项，就在其数据集中将攻击成功率从 61% 降至 10%。
将角色探针用作检测信号。 内部角色混淆在生成前即可测量；某请求的高混淆读数是一个早期预警，可据此拦截或升级处理。
保留架构层面的控制。 风格归一化是缓解措施，而非保证。应将其与权限分离，以及「致命三要素」/「Agents Rule of Two」纪律结合：限制任何无人监督的智能体最多只持有 {私有数据、不可信内容、对外通信} 中的两项。
限制智能体的出站与工具范围。 既然被证实的影响是外泄，就对出站目的地设白名单，并以最小权限约束工具，使被劫持的角色无法走远。
既过滤输入，也过滤输出。 对动作与响应做二级检查，可在混淆角色漏网时限制损害。

现状

项目	详情
论文	Prompt Injection as Role Confusion，arXiv:2603.12277
作者	Charles Ye、Jasmine Cui、Dylan Hadfield-Menell（MIT CSAIL）
会议	被 ICML 2026 接收
测试对象	开放与封闭权重模型，含 `gpt-oss-20b`
攻击成功率	约 60% StrongREJECT；61% 智能体外泄（基线≈0）
去风格化防御	攻击成功率 61% → 10%
引发关注	Simon Willison 撰文，2026 年 6 月 22 日

要点：在模型实现真正的角色感知之前——即区分「谁在说话」与「文本如何书写」——建立在角色标签之上的提示注入防御，将持续败给「用对口吻写成」的文本。当下的实用抓手是：对不可信输入做归一化，使其不再冒充受信任角色；并把权限交由架构、而非提示词来强制执行。

角色混淆：为什么大模型会服从「听起来有权威」的文本

这是什么？

工作原理

为何重要

防御

现状

Sources