系统:运行中
← 返回所有攻击
DEFENSE MEDIUM NEW

致命三要素已成默认配置——在运行时防御智能体

致命三要素曾用于标记高风险智能体。到2026年中,它几乎描述了所有有用的智能体,靠架构规避已不再奏效。防御重心转向运行时的五类行为信号。

2026-06-18 // 5 min affects: ai-agents, microsoft-365-copilot, notion-ai, claude-cowork, superhuman-ai

这是什么?

2025年6月,Simon Willison 提出了”致命三要素”:当一个智能体同时具备访问私有数据、接触不可信内容、以及向外部通信的能力时,便几乎必然存在通过间接提示注入进行数据外泄的路径。我们在《致命三要素》中作了介绍。一年之后,研究者 Ax Sharma 在2026年6月15日的 CSO 分析中将论点推进了一步:三要素已不再是高风险的信号,因为它如今描述的是几乎所有真正部署的智能体的基本运行方式。当一个警示信号在 100% 的部署中都存在时,它便不再能区分任何东西。于是防御性问题从”我的智能体是否具备三要素?“转向”如何把被攻陷的三要素智能体与健康的区分开?“——这是运行时问题,而非架构问题。

工作原理

推理很直接。一个客服智能体读取客户档案(私有数据)、摄入消息与附件(不可信内容)、并调用 CRM 或退款 API(外部通信)。一个邮件助手读取你的收件箱、处理陌生人的消息、并代你回复。去掉任意一条腿,用 Sharma 的话说,智能体就会变得”更像一个搜索框而非智能体”。Sophos 的 CISO Ross McKerchar 在2026年5月的一篇文章中作出了同样的判断,称之为”实用性的架构代价”。Meta 的”二选一规则”——我们在《Agents Rule of Two》中作过介绍——试图将智能体每个会话限制在三项属性中的至多两项,但 Meta 自己的局限性章节也承认,许多想要的用例并不契合,且符合规则的设计”仍可能失败”。

证据已经出现。据 Breached.Company 的报告,在2026年1月7日至15日之间,四款生产环境助手——IBM Bob、Superhuman AI、Notion AI 以及 Anthropic 的 Claude Cowork——均被证明通过间接提示注入泄露了数据。在 Cowork 一例中,上传文档里隐藏的指令引导智能体通过一个白名单内的 API 域名外泄文件——对边界控制不可见,且与正常行为无从区分,直到数据已经流出。

为何重要

如果三要素如今已是基本盘,那么仅靠边界与架构控制无法检测出攻陷,因为在结构上没有任何东西能把恶意行为与合法行为区分开。被攻陷的智能体并不会表现异常:它在遵循指令,这正是它的职责。改变的是指令出自谁,而这只有在智能体运行时的实际行为层面才会显现。这一重新定位对于规划检测的人很重要:预算应投向智能体可观测性与行为遥测,而不仅仅是部署前的设计评审。

防御

CSO 的分析将检测归结为五类运行时信号。把它们当作智能体版的 EDR/SIEM 遥测——多数部署仍然缺失的检测能力:

  • 指令遵循异常。 标记与用户任务没有合理关联的行为——例如”总结这份报告”的请求却触发了对陌生域名的外发请求。是它摄入的内容下达了这个指令。
  • 打破预期拓扑的工具调用序列。 修复缺陷的编码智能体应当触及文件、测试与文档,而不是去调用邮件或日历 API。即便单个调用看似合法,也应标记跨工作流的调用。参见运行时工具调用拦截
  • 经由低带宽通道的外泄。 编码的图片 URL、塞进 API 参数中的数据、生成文档里的链接。检测需要把智能体能访问的数据与它在输出中嵌入的内容相关联——需要端到端的行为可见性,而非仅仅最终响应。参见静默外泄
  • 超出任务范围的凭据访问。 修复渲染缺陷的智能体没有理由读取云凭据。最小权限是架构层控制;监控超范围的密钥访问,则是捕捉其失效的检测层。
  • 内存写入异常。 持久化记忆使被投毒的条目能携带休眠的触发指令跨会话存活。审计含有类指令文本的内存写入,或发生在摄入了不可信内容的会话中的写入。参见智能体记忆投毒

这些信号都不能取代最小权限或对高风险操作的人工审批——它们是假设那些控制偶尔会失效的检测层。

状态

项目详情
概念致命三要素(Willison,2025年6月)
新论断三要素=已部署智能体的默认配置(CSO,2026年6月15日)
证据4 款助手经注入泄露,2026年1月7–15日(Breached.Company)
架构层应对Meta 二选一规则(2025年10月);Sophos 影响半径缩减(2026年5月)
推荐姿态围绕 5 类信号的运行时行为检测

经久的教训是:人人都会触发的控制不是控制。随着智能体在设计上趋同于三要素,防御者应停止把它当作一道闸门,转而对智能体在运行时所做之事进行检测——因为下一次攻陷看上去将与正常工作别无二致,直到数据已然流出。

Sources