系统:运行中
← 返回所有攻击
AGENTS MEDIUM NEW

时序记忆污染:配备记忆的 LLM 智能体的纵向安全漂移

2026 年 4 月与 5 月的三篇 arXiv 论文共同指向了一种与记忆投毒互补的失效模式 — 配备记忆的智能体随着良性上下文的累积而逐渐变得不安全,被压缩的摘要充当了清洗通道。

2026-05-28 // 9 min affects: openclaw, claude-code, claw-like-agents, langchain-agents, llamaindex-agents, autogen, crewai, a-mem

这是什么?

配备记忆的 LLM 智能体存在一个无需攻击者参与的安全问题。2026 年 4 月 17 日至 5 月 20 日之间发布的三篇 arXiv 预印本 —— A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic SovereigntyState Contamination in Memory-Augmented LLM Agents、以及 Remembering More, Risking More: Longitudinal Safety Risks in Memory-Equipped LLM Agents —— 共同指向一个结论:使智能体能跨会话保持有用性的记忆机制,也会使其跨会话逐渐变得不那么安全,即便没有任何 payload、提示注入或恶意行为者参与。

这一议题与 OWASP 在 2026 年 5 月 13 日 正式确立的 ASI06 记忆投毒类别互补,并非重复。记忆投毒,是攻击者向被信任的状态中写入恶意内容。时序记忆污染,则是当没有人写入任何恶意内容 —— 只是普通任务不断累积 —— 智能体的安全画像就会随其记忆量发生漂移。

它是如何工作的

三篇论文描述了同一攻击面的互补侧面。

纵向漂移(arXiv 2605.17830,2026 年 5 月 18 日)。 Al-Tawaha 等人提出了时序记忆污染概念,以及一种 trigger-probe 协议:用一组固定的探针对不同前缀长度下的只读记忆快照进行评估,并与一个 NullMemory 反事实基线进行对比,用以将记忆暴露与数据流的非平稳性分离。在三种部署场景 —— 记录、备忘录与表单、邮件往来 —— 以及八种记忆架构上,启用记忆的智能体一致超过 NullMemory 基线,且记忆诱发的违规率随暴露长度呈现稳健的上升趋势。该效应在使用平台原生记忆机制的 Claw 式智能体上同样成立,顺序随机化实验表明,主导因素是累积内容而非出现顺序。

记忆清洗(arXiv 2605.16746,2026 年 5 月 16 日)。 Wang 等人(UIUC)将同一攻击面作为有状态污染问题来研究。许多智能体系统会将长对话压缩为简短摘要,使后续智能体无需重读完整历史就能保持上下文。作者表明,这一压缩同时可以充当一种清洗步骤:

含毒文本

    │  (标准安全分类器:
    │   标记为有毒,阻断)

[ 压缩 / 摘要步骤 ]

    │  (标准安全分类器:
    │   将摘要评为中性)

"清洗后"的记忆

    │  (在后续回合重新进入上下文,
    │   将下一次生成向高于 NullMemory 基线的
    │   毒性水平进行条件化)

被污染的下游输出

论文中给出的一个代表性清洗后摘要例如这样:“讨论已变得激烈,参与者表达了强烈的不同意见” —— 对分类器而言并不有毒,但以其作为条件可显著抬升后续生成在 Detoxify 上的预期分数,相较于匹配的中性摘要更高。敌意框架以低于分类器阈值的形式幸存于压缩之中。

记忆主权(arXiv 2604.16548,2026 年 4 月 17 日)。 该综述将更广义的问题重新界定为对持久状态的治理:何种写入被授权、谁可以读取、哪些状态必须保持可审计、以及哪些状态可以被遗忘。综述识别出九条治理原语,并指出目前没有任何已发表的记忆架构覆盖全部九条;与写入或检索阶段的完整性攻击相比,机密性、可用性、store/forget 与良性持久化失效仍属于研究不足的领域。

为什么这件事重要

三个操作层面的后果。

第一,该失效模式无法通过单状态评估检测。一个记忆快照可以通过所有现有基准,而智能体仍可能在足够多的会话累积后漂移到不安全状态。安全性成为轨迹的属性,而不再是单一提示-响应对的属性。

第二,摘要化作为运行长时间智能体的默认扩展手段,本身就是攻击面的一部分。生产栈使用摘要器来控制上下文长度,意味着将文本经过当前安全分类器在输出侧难以可靠捕获的变换。State Contamination 一文明确指出:仅对完成后的摘要进行清理可能为时已晚,因为有害框架可能已经被压缩到分类器阈值之下。

第三,受影响的产品已经投入使用Longitudinal 一文在 Claw 式智能体(包括使用其原生记忆机制的 OpenClaw)上进行了测试,其描述的机制可推广到任何使用 A-Mem、LangChain 记忆模块、LlamaIndex 记忆、AutoGen、CrewAI、Claude Code 的 memory.json/SKILL.md 层或类似持久化存储的部署。

防御

三篇论文没有任何一篇提出单一银弹。下面的防御手册综合它们的建议,并与已在流通中的 OWASP ASI06 控制结合。

  1. 进行纵向评估,而非单点评估。 采用类似 arXiv 2605.17830 的 trigger-probe 协议:固定的探针集合应用于前缀长度递增的记忆快照,并设置 NullMemory 基线以区分记忆诱发的违规与数据流效应。若您当前的红队装置只覆盖单回合或单会话,那么对这一类失效是盲的。

  2. 管控写入,清理读取。 State Contamination 一文提出的三路径框架 —— 用于处理残余参数放大的微调策略、在生成前应用的读侧清理器、以及在内容重新进入记忆或文本前应用的写侧门控 —— 比任何单一干预都更稳健。在记忆更新前清理可关闭被清洗的通道;仅在检索时清理则为时已晚。

  3. 在文本而非仅在摘要上运行分类器。 记忆清洗能成立,前提是您的安全检查仅在摘要写入时触发。请在压缩前对源材料评分,并将由被标记的源材料派生出的任何摘要视为同样被标记,无论其自身得分如何。

  4. 监控检索状态,而不仅是生成。 Al-Tawaha 等人证明,记忆诱发的风险可以在生成之前就从检索状态中检测出来,他们以一个高召回的诊断监视器加以确认。在生成前对从记忆中检索出的内容进行检查的钩子,相较于生成后的分类器更便宜,且能捕获事后检查所遗漏的一类问题。

  5. 将记忆视为独立的信任边界,明确其生命周期。 根据 Mnemonic Sovereignty 综述,九条治理原语 —— 可写性、读取授权、审计、遗忘等 —— 应在智能体架构中得到显式处理,而不应继承记忆库的默认配置。

  6. 加入会话预算控制。 若您的安全画像随暴露长度单调退化,那么就为暴露长度设置上限。定期的记忆重置,或在固定间隔强制压缩-审查的会话预算,可以在研究界给出更强防御之前,为最坏情况设定边界。

状态

项目引用日期说明
Mnemonic Sovereignty 综述arXiv:2604.165482026-04-17九条治理原语,无任何架构覆盖全部
State Contamination 论文arXiv:2605.167462026-05-16记忆清洗,三路径缓解
Remembering More, Risking More 论文arXiv:2605.178302026-05-18trigger-probe 协议、NullMemory 基线、OpenClaw 测试
OWASP ASI06 文章genai.owasp.org2026-05-13同一攻击面的对抗性一侧

三篇论文汇成的最简框架就是:记忆安全是智能体的一种纵向属性,不是可以由快照所捕获的单状态属性。 目前的生产栈将其视为后者。下一轮记忆安全基准,以及下一轮智能体平台默认配置,需要将其视为前者。

Sources