AGENTS MEDIUM NEW

潜伏式记忆投毒：针对有状态 LLM 智能体的休眠攻击

2026 年 5 月的一篇论文表明，攻击者可通过一份文档或网页植入伪造的「记忆」，使其长期休眠，随后在后续会话中操纵助手的行为。

2026-06-21 // 6 min affects: gpt-5.5, kimi-k2.6, memory-augmented-agents, stateful-llm-assistants

这是什么？

2026 年 5 月 14 日（5 月 18 日修订），来自 CISPA 的研究者及合作者——Sidharth Pulipaka、Stanislau Hlebik、Leonidas Raghav、Sahar Abdelnabi、Vyas Raina、Ivaxi Sheth 与 Mario Fritz——发表了 Hidden in Memory: Sleeper Memory Poisoning in LLM Agents。论文研究的是一项在过去一年中已成为标配的功能所引入的安全风险：持久化记忆，它让助手能够跨会话存储用户相关信息，以实现个性化与连贯性。

论文的核心贡献是刻画了一种作者称为潜伏式记忆投毒（sleeper memory poisoning）的延迟型攻击。攻击者操纵助手稍后会读取的外部内容——一份文档、一个网页、一个代码仓库——使其存储一条关于用户的伪造记忆。与即时生效随后消失的传统提示注入不同，被植入的记忆可以长期休眠，并在之后的多次会话中反复浮现，远在恶意内容离开上下文窗口之后。

工作原理

该攻击可理解为一条分三阶段的流程，论文对每一阶段分别进行了评估：写入、检索、行动。

写入。 受害者的助手在正常任务中（总结网页、审阅仓库、读取共享文件）摄取了攻击者控制的内容。其中隐藏着一段文本，其设计目的并非触发即时动作，而是被记住——被表述为关于用户或其偏好的持久事实。记忆子系统将其提交到长期存储。
检索。 在稍后一次无关的会话中，检索环节将被投毒的条目作为可信的、由用户确认过的事实呈现出来。最初的注入已不复存在，输入侧过滤器无从检查。
行动。 这条伪造记忆引导模型的行为——使回答出现偏差，或在具备智能体能力的场景中，触发符合攻击者意图的工具调用。

实测数据令人警醒。在多个有状态助手上，被投毒的记忆在 GPT-5.5 上最高有 99.8% 的概率被成功写入，在 Kimi-K2.6 上为 95%。在被投毒记忆随后被检索的案例中，它在不同模型上有 60%–89% 的评估产生了符合攻击者意图的智能体动作。比例之高，是因为写入阶段恰恰利用了记忆功能本就被设计成的行为：贪婪地捕捉任何看起来有用且持久的事实。

2026 年 6 月的一项配套研究 From Untrusted Input to Trusted Memory（Dash、Ge、Jain、Shah 与 Shang）将这一结构显式化。它识别出四条记忆写入通道与跨越模型行为、系统提示设计、智能体架构的九项结构性弱点，将攻击归纳为六个类别，并提供 MPBench 以进行度量（我们在 MPBench：记忆投毒的统一图谱中作过介绍）。其主要结论与潜伏式结果一致：被调校为更激进地写入和检索记忆的智能体更易被利用，而现有的提示注入防御并不覆盖记忆投毒。

为何重要

记忆把一次性的注入转化为持久的立足点。潜伏变体的决定性特征在于写入与收益在时间上相互分离，这打破了大多数防御所依赖的心智模型。一个团队可以扫描每一条传入提示却一无所获，却仍拥有一个被攻陷的助手——因为恶意指令在数周前就已被提交，如今活在系统视为可信用户状态的内容之中。

这是被沿时间轴延展的致命三要素：访问私有数据、暴露于不可信内容、具备行动能力，如今再加上持久性。该攻击推广了 Trojan Hippo 与记忆的时间性污染中所见的休眠思路，并且是在当前的商用助手上演示的，而非玩具系统。任何让智能体既读取第三方内容又保留长期记忆的部署——个人助手、带项目记忆的代码智能体、记住账户的客服机器人——都继承了这一攻击面。

防御

这些论文偏诊断性，但已清楚指向缓解措施。请将记忆视为不可信的输入边界，而非可信缓存。

管控写入路径，而不仅是读取路径。 输入侧的提示注入过滤器无法推广到记忆。在内容被提交到持久存储的时刻加入一道独立检查，并在检索时再检查一次。
为每条存储项附加来源与信任级别。 按来源（用户确认、工具输出、模型反思）标记每条记忆，绝不让来自文档或工具的笔记以用户已验证事实的权威被检索。
默认让记忆写入尽可能不激进。 两篇论文都把贪婪的写入/检索策略与更高的可利用性联系起来。在持久化之前要求相关性或确认阈值，存疑时优先采用临时上下文。
为高影响记忆增设确认环节。 任何此后可能改变工具授权、支出或凭据处理的内容，都不应在没有人工或策略检查的情况下自行写入。
对记忆做版本化与审计。 由于写入与触发在时间上分离，请保留每条条目由谁、何时写入的记录，以便在被投毒笔记触发之后追溯——参见智能体审计轨迹完整性与 OWASP 的智能体记忆守卫。
对自己的智能体做基准测试。 使用 MPBench（或其方法论）来枚举你的部署实际暴露的写入通道，而不是假设单一过滤器即可覆盖。

现状

项目	参考	日期	备注
Hidden in Memory: Sleeper Memory Poisoning	arXiv 2605.15338	2026-05-14（05-18 修订）	定义延迟/休眠型记忆投毒；写入→检索→行动完整流程
写入成功率	论文摘要	2026-05-14	最高 99.8%（GPT-5.5）、95%（Kimi-K2.6）
检索案例中的智能体动作率	论文摘要	2026-05-14	不同模型 60%–89%
From Untrusted Input to Trusted Memory（MPBench）	arXiv 2606.04329	2026-06-03	4 条写入通道、9 项弱点、6 类攻击；提示注入防御不覆盖记忆

要点并非记忆投毒是全新事物——而是潜伏式这一视角揭示了攻击如何干净利落地隐藏于时间之中，且在真实助手上实测的比例表明它绝非假想。如果你的智能体拥有持久化记忆，而唯一的防御只是输入侧的提示过滤器，那就请假定自己并未受到保护。

本文出于防御与教育目的总结公开可得的研究，未复现任何攻击代码。

潜伏式记忆投毒：针对有状态 LLM 智能体的休眠攻击

这是什么？

工作原理

为何重要

防御

现状

Sources