AGENTS MEDIUM NEW

时序记忆污染：配备记忆的 LLM 智能体的纵向安全漂移

2026 年 4 月与 5 月的三篇 arXiv 论文共同指向了一种与记忆投毒互补的失效模式 — 配备记忆的智能体随着良性上下文的累积而逐渐变得不安全，被压缩的摘要充当了清洗通道。

2026-05-28 // 9 min affects: openclaw, claude-code, claw-like-agents, langchain-agents, llamaindex-agents, autogen, crewai, a-mem

这是什么？

配备记忆的 LLM 智能体存在一个无需攻击者参与的安全问题。2026 年 4 月 17 日至 5 月 20 日之间发布的三篇 arXiv 预印本 —— A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty、State Contamination in Memory-Augmented LLM Agents、以及 Remembering More, Risking More: Longitudinal Safety Risks in Memory-Equipped LLM Agents —— 共同指向一个结论：使智能体能跨会话保持有用性的记忆机制，也会使其跨会话逐渐变得不那么安全，即便没有任何 payload、提示注入或恶意行为者参与。

这一议题与 OWASP 在 2026 年 5 月 13 日正式确立的 ASI06 记忆投毒类别互补，并非重复。记忆投毒，是攻击者向被信任的状态中写入恶意内容。时序记忆污染，则是当没有人写入任何恶意内容 —— 只是普通任务不断累积 —— 智能体的安全画像就会随其记忆量发生漂移。

它是如何工作的

三篇论文描述了同一攻击面的互补侧面。

纵向漂移（arXiv 2605.17830，2026 年 5 月 18 日）。 Al-Tawaha 等人提出了时序记忆污染概念，以及一种 trigger-probe 协议：用一组固定的探针对不同前缀长度下的只读记忆快照进行评估，并与一个 NullMemory 反事实基线进行对比，用以将记忆暴露与数据流的非平稳性分离。在三种部署场景 —— 记录、备忘录与表单、邮件往来 —— 以及八种记忆架构上，启用记忆的智能体一致超过 NullMemory 基线，且记忆诱发的违规率随暴露长度呈现稳健的上升趋势。该效应在使用平台原生记忆机制的 Claw 式智能体上同样成立，顺序随机化实验表明，主导因素是累积内容而非出现顺序。

记忆清洗（arXiv 2605.16746，2026 年 5 月 16 日）。 Wang 等人（UIUC）将同一攻击面作为有状态污染问题来研究。许多智能体系统会将长对话压缩为简短摘要，使后续智能体无需重读完整历史就能保持上下文。作者表明，这一压缩同时可以充当一种清洗步骤：

含毒文本
    │
    │  （标准安全分类器：
    │   标记为有毒，阻断）
    ▼
[ 压缩 / 摘要步骤 ]
    │
    │  （标准安全分类器：
    │   将摘要评为中性）
    ▼
"清洗后"的记忆
    │
    │  （在后续回合重新进入上下文，
    │   将下一次生成向高于 NullMemory 基线的
    │   毒性水平进行条件化）
    ▼
被污染的下游输出

论文中给出的一个代表性清洗后摘要例如这样：“讨论已变得激烈，参与者表达了强烈的不同意见” —— 对分类器而言并不有毒，但以其作为条件可显著抬升后续生成在 Detoxify 上的预期分数，相较于匹配的中性摘要更高。敌意框架以低于分类器阈值的形式幸存于压缩之中。

记忆主权（arXiv 2604.16548，2026 年 4 月 17 日）。 该综述将更广义的问题重新界定为对持久状态的治理：何种写入被授权、谁可以读取、哪些状态必须保持可审计、以及哪些状态可以被遗忘。综述识别出九条治理原语，并指出目前没有任何已发表的记忆架构覆盖全部九条；与写入或检索阶段的完整性攻击相比，机密性、可用性、store/forget 与良性持久化失效仍属于研究不足的领域。

为什么这件事重要

三个操作层面的后果。

第一，该失效模式无法通过单状态评估检测。一个记忆快照可以通过所有现有基准，而智能体仍可能在足够多的会话累积后漂移到不安全状态。安全性成为轨迹的属性，而不再是单一提示-响应对的属性。

第二，摘要化作为运行长时间智能体的默认扩展手段，本身就是攻击面的一部分。生产栈使用摘要器来控制上下文长度，意味着将文本经过当前安全分类器在输出侧难以可靠捕获的变换。State Contamination 一文明确指出：仅对完成后的摘要进行清理可能为时已晚，因为有害框架可能已经被压缩到分类器阈值之下。

第三，受影响的产品已经投入使用。Longitudinal 一文在 Claw 式智能体（包括使用其原生记忆机制的 OpenClaw）上进行了测试，其描述的机制可推广到任何使用 A-Mem、LangChain 记忆模块、LlamaIndex 记忆、AutoGen、CrewAI、Claude Code 的 memory.json/SKILL.md 层或类似持久化存储的部署。

防御

三篇论文没有任何一篇提出单一银弹。下面的防御手册综合它们的建议，并与已在流通中的 OWASP ASI06 控制结合。

进行纵向评估，而非单点评估。 采用类似 arXiv 2605.17830 的 trigger-probe 协议：固定的探针集合应用于前缀长度递增的记忆快照，并设置 NullMemory 基线以区分记忆诱发的违规与数据流效应。若您当前的红队装置只覆盖单回合或单会话，那么对这一类失效是盲的。
管控写入，清理读取。 State Contamination 一文提出的三路径框架 —— 用于处理残余参数放大的微调策略、在生成前应用的读侧清理器、以及在内容重新进入记忆或文本前应用的写侧门控 —— 比任何单一干预都更稳健。在记忆更新前清理可关闭被清洗的通道；仅在检索时清理则为时已晚。
在文本而非仅在摘要上运行分类器。 记忆清洗能成立，前提是您的安全检查仅在摘要写入时触发。请在压缩前对源材料评分，并将由被标记的源材料派生出的任何摘要视为同样被标记，无论其自身得分如何。
监控检索状态，而不仅是生成。 Al-Tawaha 等人证明，记忆诱发的风险可以在生成之前就从检索状态中检测出来，他们以一个高召回的诊断监视器加以确认。在生成前对从记忆中检索出的内容进行检查的钩子，相较于生成后的分类器更便宜，且能捕获事后检查所遗漏的一类问题。
将记忆视为独立的信任边界，明确其生命周期。 根据 Mnemonic Sovereignty 综述，九条治理原语 —— 可写性、读取授权、审计、遗忘等 —— 应在智能体架构中得到显式处理，而不应继承记忆库的默认配置。
加入会话预算控制。 若您的安全画像随暴露长度单调退化，那么就为暴露长度设置上限。定期的记忆重置，或在固定间隔强制压缩-审查的会话预算，可以在研究界给出更强防御之前，为最坏情况设定边界。

状态

项目	引用	日期	说明
Mnemonic Sovereignty 综述	arXiv:2604.16548	2026-04-17	九条治理原语，无任何架构覆盖全部
State Contamination 论文	arXiv:2605.16746	2026-05-16	记忆清洗，三路径缓解
Remembering More, Risking More 论文	arXiv:2605.17830	2026-05-18	trigger-probe 协议、NullMemory 基线、OpenClaw 测试
OWASP ASI06 文章	genai.owasp.org	2026-05-13	同一攻击面的对抗性一侧

三篇论文汇成的最简框架就是：记忆安全是智能体的一种纵向属性，不是可以由快照所捕获的单状态属性。 目前的生产栈将其视为后者。下一轮记忆安全基准，以及下一轮智能体平台默认配置，需要将其视为前者。

时序记忆污染：配备记忆的 LLM 智能体的纵向安全漂移

这是什么？

它是如何工作的

为什么这件事重要

防御

状态

Sources