AGENTS MEDIUM NEW

权限混淆：工具型智能体为何会滥用自己的访问权

2026 年 5 月的一篇论文命名了一种区别于提示注入的失效模式：不可信数据可以为智能体的推理提供信息，但绝不能授权副作用。AIRGuard 在动作发生的那一刻强制执行这条边界。

2026-06-19 // 7 min affects: claude-haiku-4.5, claude-sonnet-4.6, gpt-5.4-mini, gpt-5.3-codex, mcp-agents

这是什么？

2026 年 5 月 27 日，来自 University of Notre Dame、Inria 与 University of Liverpool 的研究者在 arXiv 上发布了 AIRGuard: Guarding Agent Actions with Runtime Authority Control（arXiv:2605.28914）。论文把一种失效模式命名为权限混淆（authority confusion），并提出了一种运行时防御。其核心思想可以用作者反复强调的一句话概括：数据可以提供信息，但只有权限才能授权。

权限混淆指的是智能体被允许做什么，与某段内容暗示它应该做什么之间的落差。工具型智能体会读取文件、执行 shell 命令、调用 API、发送邮件并调用 MCP 工具。被攻击者控制的内容——一个网页、一份被检索到的文档、一个软件包、一个辅助脚本、一段 MCP 工具输出——可以描述一个孤立看来与任务相关的动作，却悄悄把智能体已被授权的访问权重定向到攻击者的目标。论文认为，这既不同于越狱，也不同于经典的提示注入；仅依赖数据—指令分离或参数来源（provenance）的防御无法解决它。

工作原理

这个区分之所以重要，是因为恶意步骤很少能凭其工具类型看出可疑。读取文件、发送消息、调用业务 API 或修改配置，都是例行且合法的动作。问题在于是哪一份权限为它们提供了正当性。

论文的示例很说明问题。被攻击者控制的文档可以把一个外部 URL 标注为「审计」端点——但这个标签并不授权智能体把本地报告、凭据或配置数据传输过去。一个软件包可以包含安装说明，却不授权持久化。一段 MCP 工具输出可以建议一个收件人，却不授权发送邮件。一个下载的脚本可以帮助完成任务，却不授权它自身被执行。在每一种情况下，动作的参数可能都很好地植根于观测内容，而操作本身却超出了用户实际授予的范围。

这正是来源检查与污点（taint）式检查单独使用不够的原因：证据不等于权限。一个论据可以完美地植根于被检索的内容，而由此产生的副作用仍未获授权。

为何重要

随着智能体从生成文本转向采取动作，单个误判步骤的影响半径不断扩大：数据外泄、配置投毒、供应链安装、未授权披露。权限混淆还会跨步骤累积——单独看似合理的动作可以叠加成一条任何单一检查都不会标记的有害序列。

论文在两个基准上量化了这一落差：AgentTrap（141 个用例，其中 91 个为权限混淆攻击，涵盖外泄、配置投毒、MCP 滥用、权限提升等）与 DTAP-150（150 个 MCP 领域任务，覆盖代码、文件系统、金融、法律与电信）。在无防御的情况下，AgentTrap 上的攻击成功率（ASR）在 Claude Haiku 4.5 上达到 20.9%，在 Claude Sonnet 4.6 上达到 36.3%——即在普通智能体循环下，约五分之一到三分之一的攻击对强大模型奏效。

防御

AIRGuard 把最小权限当作动作时刻的授权问题，而非仅仅是一次静态的权限分配。它是一层动作前的守卫：在每一次会产生副作用的工具调用之前，检查四件事——从用户任务与策略继承而来的权限、目标的可信度、来源的可信度，以及该动作的可能效果。具体而言，论文结合了能力映射、权限继承（任务级权限可在步骤级收窄，但绝不可扩张）、资源与目标的可信标注、按来源的可信池（高声誉来源可为执行提供信息，低可信来源则触发检查）、对敏感动作的副作用模拟、分级强制级联，以及一项可捕捉跨步骤风险的序列审计。

有两条设计经验超越了这一具体系统。其一，提示并非强制：在消融实验中，仅把策略放进提示词只把 ASR 从 22% 降到 17%，而运行时守卫达到了 4%——因为它观察规范化后的工具调用，并在副作用执行之前介入，而不是要求模型自我监管。其二，要预期安全与可用性的张力：更严格的动作时刻检查能减少未授权的副作用，却可能过度拦截合法工作，因此强制必须具有选择性（作者报告了一定的过度防御，例如在 DTAP-150 消融中为 6%）。

对今天正在部署智能体的团队来说，可操作的要点是：在工具边界处加入一项确定性的授权检查，由用户的任务与你的策略驱动——而不是由智能体刚刚读到的内容驱动。

状态

项目	详情
论文	AIRGuard，arXiv:2605.28914v1，发布于 2026 年 5 月 27 日
类型	防御性研究（运行时守卫），并非可用的攻击代码
测试模型	Claude Haiku 4.5、Claude Sonnet 4.6；以 GPT-5.4-mini 与 GPT-5.3-codex 做消融
结果	AgentTrap ASR 20.9%→3.3%（Haiku）、36.3%→5.5%（Sonnet）；在 DTAP-150 上 4 个模型中有 3 个达到最优 ASR 档位
对比基线	ARGUS、MELON

所报数字来自作者自己的评测，反映其基准与论文发布时（2026 年 5 月）的模型版本。

权限混淆：工具型智能体为何会滥用自己的访问权

这是什么？

工作原理

为何重要

防御

状态

Sources