MemMark:仅凭快照就能归因被投毒的智能体记忆
2026 年 5 月 26 日的一篇 arXiv 论文把所有权写入智能体潜在的记忆写入决策,即使日志被抹除、只剩最终快照,溯源信息依然存活。
这是什么?
2026 年 5 月 26 日,由 Haobo Zhang(浙江工业大学)领衔、多家机构参与的团队发表了 MemMark: State-Evolution Attribution Watermarking for Agent Long-Term Memory Systems(arXiv:2605.25002,cs.CR)。它针对的是智能体一旦保有持久记忆便变得迫切的取证问题:在记忆库被篡改之后,仅凭最终快照、没有可信日志,还能否证明某条记录究竟是谁写入的?
长期记忆如今已是智能体安全边界的一部分。A-Mem、Graphiti、Mem0、MemOS 等系统通过抽取、更新、合并、链接与删除来维护状态。对「这是谁写的?」的常见回答依赖溯源元数据——来源锚点、版本、生命周期轨迹。MemMark 指出这些字段存在循环失效:同一份不可信快照里既装着有争议的记忆,也装着本应为其背书的可变字段。控制了记忆库的攻击者可以改写所有权、抹除标识、伪造溯源链,或编辑后端原生历史(如 A-Mem 的演化日志、Graphiti 的事实失效轨迹)。
工作原理
MemMark 不去信任自我声明的字段,而是把归因写入智能体写入记忆时所做的潜在决策——这些选择通常不可见,且不损害效用:
- 更新目标——更新哪一条已有条目
- 链接目标——关联哪一条相关条目
- 语义实现——在若干等价表述中存储哪一种
在每次内部 LLM 调用时,MemMark 枚举可行候选,并用一个带密钥、保持分布的采样器从中选取其一。由于采样器尊重后端自身的偏好分布,输出质量几乎不变,但选择的模式如今承载着由所有者掌控的信号。每个决策都绑定到一个密码学承诺,记录在按会话组织的 Merkle 树中并附带签名锚点,揭示数据则与记忆记录一同存储。
关键在于,验证在三种机制下平滑降级:R1(完整外部日志)、R2(部分日志)、R3(仅快照)。在 R3——即现实中的被攻陷后场景——MemMark 可恢复完整的 40 比特载荷,而仅签名元数据的基线无法恢复、错误密钥约为 15%。在 LoCoMo 基准的六组「模型–后端」配置上,它保留了无水印整体 F1 的 99.6%(BLEU-1 变化 +0.2%);在三种强度的九类记忆生命周期攻击下,它仍能区分篡改、证据删除与载荷的部分恢复。
为什么重要
迄今智能体记忆安全的大部分工作都在于预防投毒(AgentPoison 及相关研究;参见我们关于记忆投毒与休眠记忆外泄的分析)。MemMark 处理的是其后一步:被攻陷之后的归因与问责。这对事件响应、知识产权纠纷、多租户部署与合规溯源都很重要——如果攻击者同样控制了日志,那么「日志显示是 X」便毫无价值。
该方法把溯源从可编辑的声明转向可复现的行为轨迹。以往的水印存在于生成文本、受保护语料、可见的工具使用或动作轨迹中——这些证据通道在记忆取证中可能根本不存在。MemMark 瞄准的是通常会幸存下来的唯一持久产物:记忆快照本身。这契合更宏观的「记忆主权」理念:把记忆当作需要在整个生命周期内治理的一等资产。
防御
MemMark 是一块构件,而非开箱即用的产品。对运行带记忆智能体的团队:
- 把可信的写入时日志作为主控制。 MemMark 明确是日志丢失、被扣留或可疑时的兜底,而非替代品。应与防篡改的审计轨迹和执行溯源配合使用。
- 不要只依赖自我声明的溯源字段。 将快照内的所有权/版本元数据视为攻击者可控;验证设计不应依赖同一存储为自身背书。
- 保护好密钥。 仅凭快照的归因依赖密钥与签名锚点;密钥一旦泄露,保证即告崩塌。应像对待任何签名密钥一样管理(HSM、轮换、与智能体运行时分离)。
- 校准预期。 论文展示的载荷为 40 比特,每个决策的熵较低(约 1.1–1.3 比特):归因需要足够多的写入决策来累积信号;极短会话承载的信息更少。
- 在你的后端上验证。 结果覆盖 LoCoMo 上的 A-Mem 与 Graphiti;载体的可用性取决于你的记忆系统如何做出更新/链接/实现的选择。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| MemMark 预印本 | arXiv:2605.25002 | 2026-05-26 | 面向智能体记忆的状态演化归因水印 |
| 仅快照结果 | §5.4(R3) | 2026-05-26 | 完整恢复 40 比特,元数据基线则无法恢复 |
| 效用 | §5.2 | 2026-05-26 | 无水印整体 F1 的 99.6%;BLEU-1 +0.2% |
| 鲁棒性 | §5.5 | 2026-05-26 | 在九类记忆生命周期攻击下仍可诊断 |
| 威胁背景 | 记忆主权综述(arXiv:2604.16548);AgentPoison(arXiv:2407.12784) | 2024–2026 | 智能体记忆投毒与生命周期攻击 |
要点:随着智能体从单次会话的应答者转变为持久的行动者,记忆溯源本身成为一个独立的安全问题——MemMark 表明,只要保护好密钥、并将其视为可信日志的补充而非替代,归因便能在不可信的快照中存活下来。