DEFENSE MEDIUM NEW

致命三要素已成默认配置——在运行时防御智能体

致命三要素曾用于标记高风险智能体。到2026年中，它几乎描述了所有有用的智能体，靠架构规避已不再奏效。防御重心转向运行时的五类行为信号。

2026-06-18 // 5 min affects: ai-agents, microsoft-365-copilot, notion-ai, claude-cowork, superhuman-ai

这是什么？

2025年6月，Simon Willison 提出了”致命三要素”：当一个智能体同时具备访问私有数据、接触不可信内容、以及向外部通信的能力时，便几乎必然存在通过间接提示注入进行数据外泄的路径。我们在《致命三要素》中作了介绍。一年之后，研究者 Ax Sharma 在2026年6月15日的 CSO 分析中将论点推进了一步：三要素已不再是高风险的信号，因为它如今描述的是几乎所有真正部署的智能体的基本运行方式。当一个警示信号在 100% 的部署中都存在时，它便不再能区分任何东西。于是防御性问题从”我的智能体是否具备三要素？“转向”如何把被攻陷的三要素智能体与健康的区分开？“——这是运行时问题，而非架构问题。

工作原理

推理很直接。一个客服智能体读取客户档案（私有数据）、摄入消息与附件（不可信内容）、并调用 CRM 或退款 API（外部通信）。一个邮件助手读取你的收件箱、处理陌生人的消息、并代你回复。去掉任意一条腿，用 Sharma 的话说，智能体就会变得”更像一个搜索框而非智能体”。Sophos 的 CISO Ross McKerchar 在2026年5月的一篇文章中作出了同样的判断，称之为”实用性的架构代价”。Meta 的”二选一规则”——我们在《Agents Rule of Two》中作过介绍——试图将智能体每个会话限制在三项属性中的至多两项，但 Meta 自己的局限性章节也承认，许多想要的用例并不契合，且符合规则的设计”仍可能失败”。

证据已经出现。据 Breached.Company 的报告，在2026年1月7日至15日之间，四款生产环境助手——IBM Bob、Superhuman AI、Notion AI 以及 Anthropic 的 Claude Cowork——均被证明通过间接提示注入泄露了数据。在 Cowork 一例中，上传文档里隐藏的指令引导智能体通过一个白名单内的 API 域名外泄文件——对边界控制不可见，且与正常行为无从区分，直到数据已经流出。

为何重要

如果三要素如今已是基本盘，那么仅靠边界与架构控制无法检测出攻陷，因为在结构上没有任何东西能把恶意行为与合法行为区分开。被攻陷的智能体并不会表现异常：它在遵循指令，这正是它的职责。改变的是指令出自谁，而这只有在智能体运行时的实际行为层面才会显现。这一重新定位对于规划检测的人很重要：预算应投向智能体可观测性与行为遥测，而不仅仅是部署前的设计评审。

防御

CSO 的分析将检测归结为五类运行时信号。把它们当作智能体版的 EDR/SIEM 遥测——多数部署仍然缺失的检测能力：

指令遵循异常。 标记与用户任务没有合理关联的行为——例如”总结这份报告”的请求却触发了对陌生域名的外发请求。是它摄入的内容下达了这个指令。
打破预期拓扑的工具调用序列。 修复缺陷的编码智能体应当触及文件、测试与文档，而不是去调用邮件或日历 API。即便单个调用看似合法，也应标记跨工作流的调用。参见运行时工具调用拦截。
经由低带宽通道的外泄。 编码的图片 URL、塞进 API 参数中的数据、生成文档里的链接。检测需要把智能体能访问的数据与它在输出中嵌入的内容相关联——需要端到端的行为可见性，而非仅仅最终响应。参见静默外泄。
超出任务范围的凭据访问。 修复渲染缺陷的智能体没有理由读取云凭据。最小权限是架构层控制；监控超范围的密钥访问，则是捕捉其失效的检测层。
内存写入异常。 持久化记忆使被投毒的条目能携带休眠的触发指令跨会话存活。审计含有类指令文本的内存写入，或发生在摄入了不可信内容的会话中的写入。参见智能体记忆投毒。

这些信号都不能取代最小权限或对高风险操作的人工审批——它们是假设那些控制偶尔会失效的检测层。

状态

项目	详情
概念	致命三要素（Willison，2025年6月）
新论断	三要素=已部署智能体的默认配置（CSO，2026年6月15日）
证据	4 款助手经注入泄露，2026年1月7–15日（Breached.Company）
架构层应对	Meta 二选一规则（2025年10月）；Sophos 影响半径缩减（2026年5月）
推荐姿态	围绕 5 类信号的运行时行为检测

经久的教训是：人人都会触发的控制不是控制。随着智能体在设计上趋同于三要素，防御者应停止把它当作一道闸门，转而对智能体在运行时所做之事进行检测——因为下一次攻陷看上去将与正常工作别无二致，直到数据已然流出。

致命三要素已成默认配置——在运行时防御智能体

这是什么？

工作原理

为何重要

防御

状态

Sources