微软智能体失效模式分类法 v2.0:零点击绕过人在回路
微软 AI 红队的 v2.0 分类法(2026 年 6 月 4 日)新增七类智能体失效模式,并指出人在回路绕过是被利用最频繁的一类——其中包括从单一外部输入发起的零点击攻击链。
这是什么?
2026 年 6 月 4 日,微软 AI 红队(AIRT)发布了其《智能体 AI 系统失效模式分类法》v2.0 更新。最初的 v1.0(2025 年 4 月)在很大程度上是前瞻性的,基于威胁建模和从业者访谈构建。v2.0 白皮书则有所不同:它建立在对已部署智能体系统长达十二个月的红队演练之上,新增了七类失效模式和五个新的缓解措施族,并与 OWASP、CSA、MITRE、NIST 和 CoSAI 进行了交叉引用。
在运营层面最重要的发现是经验性的,而非概念性的:在一年的演练中,人在回路(HitL)绕过是被持续利用最频繁的失效模式,且多次演练产生了端到端的零点击攻击链——从单一外部输入出发,在初次启动智能体之外无需任何人工交互,便实现了数据外泄或横向移动。
工作原理
AIRT 的框架认为,真实攻击很少停留在单一失效模式中——复合攻击链才是常态。这七类新增类别描述了可被串联的攻击面:
- 智能体供应链入侵——被投毒的插件、MCP 服务器、提示模板或工具描述注入自然语言指令,在不触碰任何二进制文件的情况下改变行为。
- 目标劫持(goal hijacking)——对抗性文本悄然重定向智能体的最终目标,同时继续通过合理性检查(已在产品推荐投毒中被实际观测到)。
- 智能体间信任提权——通过自然语言诱发的混淆代理问题,编排者信任子智能体自我声明的身份或权限。
- 计算机使用智能体(CUA)视觉攻击——指令隐藏在智能体所截取的像素中(视口外文本、低对比度横幅、伪造的”批准”按钮),对人工审阅者而言无害。
- 会话上下文污染——在长会话早期引入的数据会偏置后续推理,而任何单一步骤都不显异常。
- MCP / 插件滥用——工具描述投毒、服务器端指令注入,以及跨服务器覆盖(恶意服务器改写可信服务器的行为)。
- 能力 / 架构泄露——智能体泄露工具名称、模式、系统提示结构或 HitL 触发逻辑,将黑盒探测转化为白盒攻击规划。
从真实演练中报告的 HitL 绕过机制是贯穿其间的纽带。红队通过同意疲劳(反复发出低风险提示)消磨审查、利用概率性调用(由智能体决定何时询问),并采用渐进式提权——其中没有任何单一步骤值得审查,但复合结果却值得。一条典型攻击链以网页托管文档中的跨域注入(XPIA)开始;随后能力泄露泄漏工具模式;一个伪造但符合模式的同意令牌绕过审批,溜过一次高权限调用。其余的由智能体的流水线完成。这正是 lethal trifecta 与 agents rule of two 背后的架构性教训,如今有了十二个月运营数据的支撑。
为何重要
其价值在于从预测走向证据。v1.0 对 HitL 绕过和记忆投毒提出假设;v2.0 则报告:XPIA 与记忆投毒高频出现且频繁组合,跨域注入仍是最可靠的初始访问途径,而会话污染与渐进式提权既高度有效又难以检测,因为没有任何单一步骤显得异常。
对防御者而言,有两点尤为突出。其一,模型层面的评估无法暴露这些问题:零点击攻击链、智能体间信任提权和会话污染只有在系统层面、针对完整任务流的测试中才会显现。其二,能力泄露是枢纽——在 AIRT 许多最高影响的攻击链中,执行首先依赖于提取架构细节,而这往往只需直接询问智能体即可。
防御
v2.0 的缓解措施是架构性的,AIRT 明确指出:它们难以事后改造。必备的简明清单:
- 将智能体组件视为软件供应链。 生成包含插件、MCP 服务器、提示模板和工具描述的 SBOM;安装前要求签名/来源验证;扫描注册表中工具描述里隐藏的指令,而不仅是恶意代码;锁定版本,因为即便是补丁级升级也可能改变工具的自然语言行为。
- 零信任的智能体间架构。 在供应阶段为每个智能体颁发可证明的身份;将其绑定到每条消息和工具调用;在任何权限决策前验证身份链。绝不允许子智能体通过自我描述进行提权。
- 强化同意架构——UX 即安全控制。 使 HitL 调用确定化(不能由智能体决定何时询问),在审批前分解复合操作,从底层工具调用而非智能体自身描述来概括审批提示(以阻止描述洗白),按可逆性与影响半径分级审批,并对审批频率做异常检测以发现同意疲劳的利用。
- 对抗性会话加固。 为每个 token 标注来源(系统 / 用户 / 检索 / 工具 / 智能体间),在结构上分离可信与不可信内容,监控单一检索文档的框架在各推理步骤中的放大,限定外部内容可影响一次会话的程度,并在不可信数据进入上下文后即锁定敏感工具调用。
- 抗泄露提示与输出过滤。 在所有输入通道上一致地拒绝对工具列表、系统提示和模式的内省;扫描出站内容(包括记忆写入和智能体间消息)中的模式指纹;在运行时从不可泄露的注册表解析工具清单;并最小化特权面,使泄露的价值更低。对 CUA 攻击面,可搭配视觉注入防御。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| v2.0 分类法发布 | Microsoft Security Blog | 2026-06-04 | 基于 12 个月红队演练 |
| v2.0 白皮书 | Microsoft AI Red Team | 标注 2026 年 4 月 | 7 类新失效模式,5 个缓解措施族 |
| 核心发现 | HitL 绕过 | — | 被持续利用最频繁;观测到零点击攻击链 |
| 新增模式 | 供应链入侵、目标劫持、智能体间信任提权、CUA 视觉攻击、会话污染、MCP/插件滥用、能力泄露 | — | 并入 v1.0 结构,标记 [New in v2.0] |
| 行业对齐 | OWASP ASI、CSA、MITRE SAFE-AI、NIST AI 600-1、CoSAI | — | 交叉引用,不依赖任一单一框架 |
| v1.0 基线 | Taxonomy of Failure Modes v1.0 | 2025-04 | 前瞻性前身 |
正确的启示并非又一个漏洞,而是一次校准:一年的红队演练证实,智能体的持久防御是架构性的——供应链来源验证、密码学智能体身份、确定且分级的同意、按来源标注的上下文——而攻击者实现高影响最可靠的途径,正是悄然绕过本应处于回路之中的那个人。
Sources
- → https://www.microsoft.com/en-us/security/blog/2026/06/04/updating-taxonomy-failure-modes-agentic-ai-systems-year-red-teaming-taught-us/
- → https://cdn-dynmedia-1.microsoft.com/is/content/microsoftcorp/microsoft/bade/documents/products-and-services/en-us/security/Taxonomy-of-Failure-Modes-in-Agentic-AI-Systems-v2-0.pdf
- → https://cybersecuritynews.com/agentic-ai-red-teaming-reveals-zero-click/