自传播智能体蠕虫与时间性重入防御
2026 年 5 月的一篇论文形式化地说明了智能体的持久状态如何让注入载荷把自身写回 LLM 上下文、在智能体之间零点击传播,并提出 RTW-A——一种由「无持久蠕虫传播」定理证明的防御。
这是什么?
2026 年 5 月 4 日,Mingming Zha 与 Xiaofeng Wang 发表了 Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense(arXiv:2605.02812,cs.CR)。这是首个系统化分析基于文件的多智能体 LLM 生态中持久蠕虫传播的框架——而且对我们的编辑方针而言更重要的是,它给出的是带形式化证明的防御,而不仅仅是一次攻击。
这一威胁类别并非全新:2024 年的 ComPromptMized / Morris II 工作利用一个对抗性自复制提示,演示了首个零点击 GenAI 蠕虫。2026 年这篇论文新增的是自动化的发现手段,以及对为何长时运行的智能体格外暴露的结构性解释:它们保有持久工作区、记忆文件、计划任务状态以及跨会话存续的消息集成。
工作原理
其机制是一个循环,而非一段载荷。自治智能体读取受攻击者影响的内容(一封邮件、一个共享文档、一个工具结果),而该内容被写入智能体的持久状态。在之后的某次运行中——通常经由计划性自动加载——该状态被重新读回 LLM 的决策上下文,从而可触发高风险动作:更改配置、调用工具、向其他智能体传输。整个过程任一环节都不需要人工点击。
外部读取 → 写入持久状态 → 计划性重入 → 动作
(邮件、文档、 (记忆文件、工作区、 (自动加载将状态 (更改配置、
工具输出) 任务队列) 拉入上下文) 跨智能体发送)
▲ │
└────────────────── 传播至下一个智能体 ──────────────────────────┘
论文引入了两个分析工具(此处不复现任何可操作载荷):
- SSCGV,一个源码图分析器,追踪从文件 I/O 到数据重入 LLM 上下文之处的数据流,并按注入位置对”载体”排序,从而把过去的人工审计自动化。
- SRPO,一个载荷优化器,旨在让载荷在多跳通信中经受由 LLM 介导的摘要与改写而存活,这一特性正是蠕虫得以跨越平台边界的关键。
在三个(匿名化的)生产级智能体框架上评估,作者报告了零点击自治传播、无需平台特定适配的 3 跳跨平台传输、智能体间权限提升以及数据外泄。两项发现对防御者尤为重要:用户提示型载体取得的攻击服从度高于系统提示型载体;以及在 LLM 介导的系统中,读取操作(而非写入)才是主要的完整性威胁,因为危险在于内容重入上下文,而非其被存储。受影响系统在协调披露完成前保持匿名。
为何重要
这项工作把我们此前报道过的记忆投毒与持久化结论——时间性记忆污染、休眠记忆外泄——推广为一个传播模型。单一被投毒的输入不再只危及一个智能体;它可以借助摘要跨越异构智能体扩散,这正是在车队规模上复制的致命三要素(私有数据、不可信内容、外泄通道)。
结构性洞见才是令人不安的部分。让智能体有用的那些特性——持久记忆、计划任务、智能体间消息——恰恰也是闭合传播循环的特性。正如 Adversa AI 2026 年 6 月综述在提及本论文时所言,当月的各项披露”机制各异,成因相通:在无人看守之处被默许的隐式信任”。这是处于研究阶段、负责任披露的工作,而非真实事件;其价值在于它使防御模型变得可证明。
防御
论文提出的防御 RTW-A 在一个形式化的无持久蠕虫传播定理下得到证明,由四个可组合机制构成,可转化为具体的工程指引:
-
阻断”先写后暴露读”的重入(RTW)。 核心不变量:智能体在读取外部输入之后所写入的内容,不得在后续运行中被悄然重新暴露给模型。请追踪状态的来源,并对攻击者可达写入的重入进行门控。
-
封存配置与静态文件。 智能体配置、系统提示与工具定义在运行时应不可变。若模型无法改写主宰自身行为的文件,链条中的持久化步骤即被切断。请以只读方式挂载它们。
-
类型化的记忆提升。 不要让不可信的摘要流入可信记忆。在”已观察的外部内容”与”可信事实”之间保持严格的类型边界,并要求一个显式且可审计的提升步骤——绝不自动——方可跨越该边界。
-
外部读取后的能力削减。 一旦智能体在某次会话中摄入了外部内容,就削减其权限:对高风险动作(更改配置、向其他智能体发出消息、使用凭据)进行限流或要求人工审查。即便注入得手,也能直接限制其影响半径。
论文之外:应用二选一规则,使智能体绝不同时兼具不可信输入、敏感访问与对外通信;将计划任务的自动加载作为与安全相关的事件加以监测;并对自身的状态持久化路径开展红队演练——SSCGV 的思路(追踪文件 I/O 至上下文注入点)完全可以在你自己的代码上以防御方式复现。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| Autonomous LLM Agent Worms | arXiv:2605.02812 | 2026-05-04 | 首个自动化发现 + 可证明防御框架;受影响系统已匿名 |
| RTW-A 防御 | 同一论文 | 2026-05-04 | 四个机制,无持久蠕虫传播定理 |
| 2026 年 6 月智能体安全综述 | Adversa AI | 2026-06-01 | 将该论文列入当月智能体蠕虫披露之中 |
| ComPromptMized / Morris II | arXiv:2403.02817 | 2024 | 公认先例:首个零点击 GenAI 蠕虫 |
标题并非”AI 蠕虫将至”——那是两年前的旧闻。真正的要点是:传播循环如今已可形式化、可防御——让蠕虫成为可能的那些持久化特性,也精确地指出了在何处将其切断。如果你运行带有记忆与消息能力的长时智能体,RTW-A 的四个机制就是今天即可对照自身架构核查的清单。