时序记忆污染:配备记忆的 LLM 智能体的纵向安全漂移
2026 年 4 月与 5 月的三篇 arXiv 论文共同指向了一种与记忆投毒互补的失效模式 — 配备记忆的智能体随着良性上下文的累积而逐渐变得不安全,被压缩的摘要充当了清洗通道。
这是什么?
配备记忆的 LLM 智能体存在一个无需攻击者参与的安全问题。2026 年 4 月 17 日至 5 月 20 日之间发布的三篇 arXiv 预印本 —— A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty、State Contamination in Memory-Augmented LLM Agents、以及 Remembering More, Risking More: Longitudinal Safety Risks in Memory-Equipped LLM Agents —— 共同指向一个结论:使智能体能跨会话保持有用性的记忆机制,也会使其跨会话逐渐变得不那么安全,即便没有任何 payload、提示注入或恶意行为者参与。
这一议题与 OWASP 在 2026 年 5 月 13 日 正式确立的 ASI06 记忆投毒类别互补,并非重复。记忆投毒,是攻击者向被信任的状态中写入恶意内容。时序记忆污染,则是当没有人写入任何恶意内容 —— 只是普通任务不断累积 —— 智能体的安全画像就会随其记忆量发生漂移。
它是如何工作的
三篇论文描述了同一攻击面的互补侧面。
纵向漂移(arXiv 2605.17830,2026 年 5 月 18 日)。 Al-Tawaha 等人提出了时序记忆污染概念,以及一种 trigger-probe 协议:用一组固定的探针对不同前缀长度下的只读记忆快照进行评估,并与一个 NullMemory 反事实基线进行对比,用以将记忆暴露与数据流的非平稳性分离。在三种部署场景 —— 记录、备忘录与表单、邮件往来 —— 以及八种记忆架构上,启用记忆的智能体一致超过 NullMemory 基线,且记忆诱发的违规率随暴露长度呈现稳健的上升趋势。该效应在使用平台原生记忆机制的 Claw 式智能体上同样成立,顺序随机化实验表明,主导因素是累积内容而非出现顺序。
记忆清洗(arXiv 2605.16746,2026 年 5 月 16 日)。 Wang 等人(UIUC)将同一攻击面作为有状态污染问题来研究。许多智能体系统会将长对话压缩为简短摘要,使后续智能体无需重读完整历史就能保持上下文。作者表明,这一压缩同时可以充当一种清洗步骤:
含毒文本
│
│ (标准安全分类器:
│ 标记为有毒,阻断)
▼
[ 压缩 / 摘要步骤 ]
│
│ (标准安全分类器:
│ 将摘要评为中性)
▼
"清洗后"的记忆
│
│ (在后续回合重新进入上下文,
│ 将下一次生成向高于 NullMemory 基线的
│ 毒性水平进行条件化)
▼
被污染的下游输出
论文中给出的一个代表性清洗后摘要例如这样:“讨论已变得激烈,参与者表达了强烈的不同意见” —— 对分类器而言并不有毒,但以其作为条件可显著抬升后续生成在 Detoxify 上的预期分数,相较于匹配的中性摘要更高。敌意框架以低于分类器阈值的形式幸存于压缩之中。
记忆主权(arXiv 2604.16548,2026 年 4 月 17 日)。 该综述将更广义的问题重新界定为对持久状态的治理:何种写入被授权、谁可以读取、哪些状态必须保持可审计、以及哪些状态可以被遗忘。综述识别出九条治理原语,并指出目前没有任何已发表的记忆架构覆盖全部九条;与写入或检索阶段的完整性攻击相比,机密性、可用性、store/forget 与良性持久化失效仍属于研究不足的领域。
为什么这件事重要
三个操作层面的后果。
第一,该失效模式无法通过单状态评估检测。一个记忆快照可以通过所有现有基准,而智能体仍可能在足够多的会话累积后漂移到不安全状态。安全性成为轨迹的属性,而不再是单一提示-响应对的属性。
第二,摘要化作为运行长时间智能体的默认扩展手段,本身就是攻击面的一部分。生产栈使用摘要器来控制上下文长度,意味着将文本经过当前安全分类器在输出侧难以可靠捕获的变换。State Contamination 一文明确指出:仅对完成后的摘要进行清理可能为时已晚,因为有害框架可能已经被压缩到分类器阈值之下。
第三,受影响的产品已经投入使用。Longitudinal 一文在 Claw 式智能体(包括使用其原生记忆机制的 OpenClaw)上进行了测试,其描述的机制可推广到任何使用 A-Mem、LangChain 记忆模块、LlamaIndex 记忆、AutoGen、CrewAI、Claude Code 的 memory.json/SKILL.md 层或类似持久化存储的部署。
防御
三篇论文没有任何一篇提出单一银弹。下面的防御手册综合它们的建议,并与已在流通中的 OWASP ASI06 控制结合。
-
进行纵向评估,而非单点评估。 采用类似 arXiv 2605.17830 的 trigger-probe 协议:固定的探针集合应用于前缀长度递增的记忆快照,并设置 NullMemory 基线以区分记忆诱发的违规与数据流效应。若您当前的红队装置只覆盖单回合或单会话,那么对这一类失效是盲的。
-
管控写入,清理读取。 State Contamination 一文提出的三路径框架 —— 用于处理残余参数放大的微调策略、在生成前应用的读侧清理器、以及在内容重新进入记忆或文本前应用的写侧门控 —— 比任何单一干预都更稳健。在记忆更新前清理可关闭被清洗的通道;仅在检索时清理则为时已晚。
-
在文本而非仅在摘要上运行分类器。 记忆清洗能成立,前提是您的安全检查仅在摘要写入时触发。请在压缩前对源材料评分,并将由被标记的源材料派生出的任何摘要视为同样被标记,无论其自身得分如何。
-
监控检索状态,而不仅是生成。 Al-Tawaha 等人证明,记忆诱发的风险可以在生成之前就从检索状态中检测出来,他们以一个高召回的诊断监视器加以确认。在生成前对从记忆中检索出的内容进行检查的钩子,相较于生成后的分类器更便宜,且能捕获事后检查所遗漏的一类问题。
-
将记忆视为独立的信任边界,明确其生命周期。 根据 Mnemonic Sovereignty 综述,九条治理原语 —— 可写性、读取授权、审计、遗忘等 —— 应在智能体架构中得到显式处理,而不应继承记忆库的默认配置。
-
加入会话预算控制。 若您的安全画像随暴露长度单调退化,那么就为暴露长度设置上限。定期的记忆重置,或在固定间隔强制压缩-审查的会话预算,可以在研究界给出更强防御之前,为最坏情况设定边界。
状态
| 项目 | 引用 | 日期 | 说明 |
|---|---|---|---|
| Mnemonic Sovereignty 综述 | arXiv:2604.16548 | 2026-04-17 | 九条治理原语,无任何架构覆盖全部 |
| State Contamination 论文 | arXiv:2605.16746 | 2026-05-16 | 记忆清洗,三路径缓解 |
| Remembering More, Risking More 论文 | arXiv:2605.17830 | 2026-05-18 | trigger-probe 协议、NullMemory 基线、OpenClaw 测试 |
| OWASP ASI06 文章 | genai.owasp.org | 2026-05-13 | 同一攻击面的对抗性一侧 |
三篇论文汇成的最简框架就是:记忆安全是智能体的一种纵向属性,不是可以由快照所捕获的单状态属性。 目前的生产栈将其视为后者。下一轮记忆安全基准,以及下一轮智能体平台默认配置,需要将其视为前者。