RESEARCH MEDIUM NEW

记忆主权：保护智能体记忆的完整生命周期

2026 年 4 月的一篇综述将 LLM 智能体的记忆安全重新定义为六阶段生命周期，并指出该领域忽视了遗忘、机密性与非对抗性漂移。

2026-06-12 // 7 min affects: llm-agents, persistent-memory-agents, multi-agent-systems, rag-pipelines

这是什么？

2026 年 4 月 17 日，林泽浩、李春雨与陈凯（MemTensor，上海）在 arXiv（cs.CR）发布了 A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty。这篇论文没有提出任何新攻击。它是一项系统化梳理，主张一个业界迟迟未能接受的观点：智能体长期记忆的安全是一类独立的问题，而非提示注入或 RAG 安全的子分支。

论文所指出的转变是具体的。过去 LLM 安全关心的是「模型会不会泄露训练数据？」。对于智能体系统，关键问题改变了：一个拥有持久、可写记忆的智能体，是否可能被持续塑形、跨会话投毒、未经授权读取，并在共享的组织状态中传播？ 作者借助认知神经科学与记忆哲学，将智能体记忆刻画为可塑、可重写、可在社会层面传播的，并构建了一个端到端推理的框架。

工作原理

该综述的核心贡献是一个记忆生命周期框架：六个阶段，与四项安全目标交叉对照。此处不含任何 payload；权威参考为 arXiv HTML 版本。

六个生命周期阶段
  1. Write           — 不可信内容进入持久记忆
  2. Store & Manage  — 留存、压缩、版本管理
  3. Retrieve        — 将记忆选入实时上下文
  4. Execute         — 被检索的记忆影响规划与工具调用
  5. Share & Propagate — 记忆跨越智能体、用户、会话
  6. Forget / Rollback — 删除、撤销、恢复

四项安全目标（贯穿每个阶段）
  完整性 · 机密性 · 可用性 · 治理

该框架基于三项让长期记忆真正成为新问题的属性。持久性：一次恶意写入可在此后数百个任务中被反复调用，远在植入它的那次对话结束之后——这与效果随上下文窗口消失的一次性注入不同。有状态：问题不再是「这条输入是否有害？」，而是「系统当前处于何种记忆状态？」——智能体可能在任何单条记忆触发安全分类器之前，就因一组被微妙偏置的情景记忆而发生行为漂移。传播：在多智能体与共享状态系统中，污染会通过内部通道（智能体间消息、共享存储、工具参数）跨越会话、角色与用户边界扩散。

第四项属性较为低调，但在实践中可能更普遍：并非总需要对手。 共享存储在用户之间的静默污染、在不再适用的语境中被过度套用的画像信息，以及由记忆引发的迎合性，都源自系统的日常运行。因此作者将记忆*安全（security）视为记忆安全性（safety）*的超集——对抗性与良性持久性两条轴线共享同一生命周期，也共享缓解措施。

为何重要

三项发现尤为突出，每一项对今天交付记忆功能的团队都不舒服。

第一，研究文献集中于写入期与检索期的完整性——即抢占头条的投毒攻击——而机密性、可用性、存储与遗忘阶段，以及良性持久性失效则鲜有研究。这张地图存在大片空白。第二，没有任何已发表的记忆架构覆盖作者所识别的全部九项治理原语；写入门校验与删除后验证是所有受检系统共同的盲点。直白地说：多数智能体既无法证明进入其记忆的内容曾获授权，也无法证明已删除的记忆确实消失。第三，将 LLM 自身用作记忆安全工具——自动化红队、防御方验证、反事实压力测试——至关重要却几乎无人探索；一项从未经受自适应攻击者检验的防御，无法宣称达到成熟安全领域所要求的严谨。

统一性的概念是记忆主权：系统对什么可被写入、谁可读取、何时授权更新、哪些状态可被遗忘所拥有的、可验证且可恢复的治理。作者认为，未来的安全智能体将不以回忆容量取胜，而以其记忆治理的质量见分晓。

防御

该综述的结构使每个生命周期阶段都对应一项控制。请将记忆视为受治理的边界，而非可信缓存。

写入期：在固化前校验。 把控内容变为持久的那一刻。不要让来自工具或文档的笔记以与已验证指令相同的权威被写入。这正是论文最强烈指出的盲点。
存储期：版本化并记录来源。 为每条记忆保留快照与责任链，并审计压缩/摘要步骤——它们会悄然改写智能体所「记得」的内容。
检索期：从过滤迈向共识。 结合信任感知检索、基于激活的检测与共识校验，使单条被投毒记忆无法主导被检索的上下文。参见我们关于对抗 RAG 投毒的混合检索防御的文章。
执行期：实施信息流控制。 约束被检索记忆被允许做什么——能触及哪些工具与授权——使被污染的笔记无法提权。
共享期：按主体限定策略。 在多智能体系统中，按主体限定记忆并治理内部通道，隐私泄露正集中于此。
遗忘期：验证删除，为事后做准备。 回滚以版本化为前提；删除必须在各类存储基底上可验证。保留真正可信的审计轨迹以便事件后取证。

这与社区已记录的攻击侧工作相互补充——MPBench 投毒分类法、OWASP 的 ASI06「记忆投毒」类别以及时间性记忆污染——它为这些工作提供了环绕其外的治理脚手架。

状态

项目	参考	日期	备注
arXiv 2604.16548 v1	arXiv (cs.CR)	2026-04-17	综述 + 记忆生命周期框架
六阶段 × 四目标	论文框架	2026-04-17	Write/Store/Retrieve/Execute/Share/Forget
「无架构覆盖全部 9 项治理原语」	论文发现	2026-04-17	写入门校验 + 删除后验证 = 盲点
「并非总需要对手」	论文发现	2026-04-17	良性持久性轴线（漂移、压缩、迎合）
记忆主权	论文概念	2026-04-17	可验证、可恢复的记忆治理

要点不在于记忆投毒是新事物——它并不是。要点在于：该领域终于拥有了一张贯穿整个生命周期的地图与一个规范性目标。如果你的智能体拥有持久记忆，而你的治理思路止步于输入端过滤器，那么这篇综述就是有据可循的论证：你只治理了六个阶段中的一个。

本文出于防御与教育目的总结公开研究，未复现任何利用代码。

记忆主权：保护智能体记忆的完整生命周期

这是什么？

工作原理

为何重要

防御

状态

Sources