DEFENSE MEDIUM NEW

自己写日志的智能体：为什么不能信任自报的审计轨迹

如果被攻陷的智能体自行生成活动日志，它可以省略、篡改或伪造自己的行为。2026 年 6 月的三项工作——arXiv 的 Notarized Agents、IETF 的智能体审计轨迹草案以及 SCITT——指向同一个对策：把信任边界移出智能体本身。

2026-06-05 // 6 min affects: ai-agents, agent-frameworks, mcp, model-agnostic

摘要当 AI 智能体自行记录审计轨迹时，被记录的对象与写日志的进程是同一个——因此被攻陷或有缺陷的智能体可以悄悄删除、修改或编造条目，运维方无法独立察觉。2026 年 6 月 2 日发表的论文 Notarized Agents（arXiv 2606.04193）点明了这一结构性缺陷，并提出反转信任边界：让接收智能体调用的服务对它所观察到的内容签发回执。同期的 IETF 智能体审计轨迹草案与 SCITT 透明日志工作指向相同方向。这是一处防御与治理的缺口，并非可利用的漏洞——但它会动摇任何假设”智能体日志为真”的事后调查。

这是什么？

智能体可观测性建立在一个不起眼的假设之上：智能体输出自己工具调用的轨迹，出问题时我们便信任这条轨迹。Notarized Agents（Juan Figuera，arXiv 2606.04193，2026 年 6 月 2 日提交）直白地指出问题：「产生活动日志的实体，正是其活动被记录的那个实体。」一旦攻击者控制了智能体——或运行它的运维方——日志就会变成他们想让它说的样子。被省略的数据外泄、被改写的参数、被伪造的审批：对日后还原事件的人而言全都不可见。

这件事之所以紧迫，是因为监管即将依赖这些日志。IETF 草案 draft-sharif-agent-audit-trail-00（Raza Sharif）指出，欧盟《人工智能法案》（条例 2024/1689）要求高风险 AI 系统自 2026 年 8 月起自动记录事件，并将其格式映射到 SOC 2、ISO/IEC 42001 与 PCI DSS v4.0.1。审计义务的价值，取决于其所审计内容的完整性。

工作原理

这个弱点不是某个 payload，而是一种信任拓扑。自我记录的智能体同时站在边界两侧：

# 自报轨迹（当前默认）：唯一书写者，无见证者
智能体 --> 工具调用 --> [智能体写入日志条目] --> 存储
              ^                   |
              \---- 同一进程同时掌控两端 ----/
# 被攻陷的智能体只需不写下那条不利的记录即可。

2026 年 6 月的三项设计都将书写者移出智能体：

**接收方背书。**在 Notarized Agents 中，Sello 协议让接收调用的服务对其所见签发回执，用 HPKE 加密给与授权令牌经 JWS 绑定的智能体所有者公钥，并发布到由见证者共同签名的 Merkle 透明日志。所有者随后无需信任智能体或其运维方即可重建防篡改的轨迹。作者明确指出残余局限——抑制攻击、服务合谋与采用激励问题。
**哈希链式记录。**IETF 草案用 SHA-256 哈希链（依据 RFC 8785）外加可选的 ECDSA 签名串联 JSON 记录，因此删除或篡改任一中间条目都会断链。
仅追加的透明性。SCITT 将该模式一般化：把签名声明提交到仅追加日志，由其签发可验证回执。

共同的动作，与证书透明度（Certificate Transparency）为 Web PKI 所做的如出一辙：不再让行为者为自己背书，而是把证据锚定在它无法悄悄改写的地方。

为何重要

关于智能体安全的讨论大多围绕预防恶意行为——提示注入、致命三要素、工具参数校验。审计轨迹的完整性关乎事后：事件响应、取证、合规与责任认定，全都假设你能还原智能体的真实所为。如果这份记录是自我背书的，单次智能体被攻陷就会污染下游的全部调查，「日志显示什么也没发生」也就失去意义。随着高风险系统的日志义务将于 2026 年 8 月到来，这一缺口从学术问题变为监管问题。

防御

**默认将智能体的自报视为不可信。**把关键证据锚定在智能体无法改写之处——一条不受智能体进程掌控的写入路径。
**在接收方记录，而不仅在调用方。**让工具服务器、MCP 服务器与下游 API 记录它们所观察到的内容（调用方身份、参数、结果），独立于智能体自身的轨迹，以便两者互相印证。
**让篡改可被检测。**对记录做哈希链（SHA-256，RFC 8785）并签名；断裂的链或缺失的签名就是狩猎信号。这成本低廉、今日即可用，无需采用完整协议。
**离主机、仅追加的存储。**把日志送往智能体及其运维方无法清除的汇聚点（仅追加对象存储、SIEM 或透明性服务）。掌控写入路径，就是掌控真相。
**跟随标准，别自造密码学。**跟进 SCITT、IETF 智能体审计轨迹草案与回执协议工作（Signet、SCITT、Sello），而非自创公证方案——并记住没有一种能彻底封堵抑制与合谋。

状态

项目	参考	日期	备注
Notarized Agents / Sello	arXiv 2606.04193	2026-06-02	接收方背书回执；Merkle 透明日志；明确抑制与合谋局限
Agent Audit Trail（AAT）	draft-sharif-agent-audit-trail-00	2026-09-29 过期	JSON + SHA-256 哈希链（RFC 8785），可选 ECDSA；映射 AI 法案 / SOC 2 / ISO 42001
SCITT 架构	draft-ietf-scitt-architecture	IETF 工作组	仅追加透明日志、签名声明、可验证回执
AI 法案日志	条例 2024/1689	2026-08（高风险）	强制自动记录事件

正确的框架不是「多记点日志」，而是：由其所描述的行为者自己写的日志，是一份意图声明，而非证据。其解法——已被证书透明度验证、如今正移植到智能体——是把书写者移出智能体，并将回执锚定在它无法悄悄编辑之处。

自己写日志的智能体：为什么不能信任自报的审计轨迹

这是什么？

工作原理

为何重要

防御

状态

Sources