自己写日志的智能体:为什么不能信任自报的审计轨迹
如果被攻陷的智能体自行生成活动日志,它可以省略、篡改或伪造自己的行为。2026 年 6 月的三项工作——arXiv 的 Notarized Agents、IETF 的智能体审计轨迹草案以及 SCITT——指向同一个对策:把信任边界移出智能体本身。
摘要 当 AI 智能体自行记录审计轨迹时,被记录的对象与写日志的进程是同一个——因此被攻陷或有缺陷的智能体可以悄悄删除、修改或编造条目,运维方无法独立察觉。2026 年 6 月 2 日发表的论文 Notarized Agents(arXiv 2606.04193)点明了这一结构性缺陷,并提出反转信任边界:让接收智能体调用的服务对它所观察到的内容签发回执。同期的 IETF 智能体审计轨迹草案 与 SCITT 透明日志工作指向相同方向。这是一处防御与治理的缺口,并非可利用的漏洞——但它会动摇任何假设”智能体日志为真”的事后调查。
这是什么?
智能体可观测性建立在一个不起眼的假设之上:智能体输出自己工具调用的轨迹,出问题时我们便信任这条轨迹。Notarized Agents(Juan Figuera,arXiv 2606.04193,2026 年 6 月 2 日提交)直白地指出问题:「产生活动日志的实体,正是其活动被记录的那个实体。」一旦攻击者控制了智能体——或运行它的运维方——日志就会变成他们想让它说的样子。被省略的数据外泄、被改写的参数、被伪造的审批:对日后还原事件的人而言全都不可见。
这件事之所以紧迫,是因为监管即将依赖这些日志。IETF 草案 draft-sharif-agent-audit-trail-00(Raza Sharif)指出,欧盟《人工智能法案》(条例 2024/1689)要求高风险 AI 系统自 2026 年 8 月起自动记录事件,并将其格式映射到 SOC 2、ISO/IEC 42001 与 PCI DSS v4.0.1。审计义务的价值,取决于其所审计内容的完整性。
工作原理
这个弱点不是某个 payload,而是一种信任拓扑。自我记录的智能体同时站在边界两侧:
# 自报轨迹(当前默认):唯一书写者,无见证者
智能体 --> 工具调用 --> [智能体写入日志条目] --> 存储
^ |
\---- 同一进程同时掌控两端 ----/
# 被攻陷的智能体只需不写下那条不利的记录即可。
2026 年 6 月的三项设计都将书写者移出智能体:
- **接收方背书。**在 Notarized Agents 中,Sello 协议让接收调用的服务对其所见签发回执,用 HPKE 加密给与授权令牌经 JWS 绑定的智能体所有者公钥,并发布到由见证者共同签名的 Merkle 透明日志。所有者随后无需信任智能体或其运维方即可重建防篡改的轨迹。作者明确指出残余局限——抑制攻击、服务合谋与采用激励问题。
- **哈希链式记录。**IETF 草案用 SHA-256 哈希链(依据 RFC 8785)外加可选的 ECDSA 签名串联 JSON 记录,因此删除或篡改任一中间条目都会断链。
- 仅追加的透明性。SCITT 将该模式一般化:把签名声明提交到仅追加日志,由其签发可验证回执。
共同的动作,与证书透明度(Certificate Transparency)为 Web PKI 所做的如出一辙:不再让行为者为自己背书,而是把证据锚定在它无法悄悄改写的地方。
为何重要
关于智能体安全的讨论大多围绕预防恶意行为——提示注入、致命三要素、工具参数校验。审计轨迹的完整性关乎事后:事件响应、取证、合规与责任认定,全都假设你能还原智能体的真实所为。如果这份记录是自我背书的,单次智能体被攻陷就会污染下游的全部调查,「日志显示什么也没发生」也就失去意义。随着高风险系统的日志义务将于 2026 年 8 月到来,这一缺口从学术问题变为监管问题。
防御
- **默认将智能体的自报视为不可信。**把关键证据锚定在智能体无法改写之处——一条不受智能体进程掌控的写入路径。
- **在接收方记录,而不仅在调用方。**让工具服务器、MCP 服务器与下游 API 记录它们所观察到的内容(调用方身份、参数、结果),独立于智能体自身的轨迹,以便两者互相印证。
- **让篡改可被检测。**对记录做哈希链(SHA-256,RFC 8785)并签名;断裂的链或缺失的签名就是狩猎信号。这成本低廉、今日即可用,无需采用完整协议。
- **离主机、仅追加的存储。**把日志送往智能体及其运维方无法清除的汇聚点(仅追加对象存储、SIEM 或透明性服务)。掌控写入路径,就是掌控真相。
- **跟随标准,别自造密码学。**跟进 SCITT、IETF 智能体审计轨迹草案与回执协议工作(Signet、SCITT、Sello),而非自创公证方案——并记住没有一种能彻底封堵抑制与合谋。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| Notarized Agents / Sello | arXiv 2606.04193 | 2026-06-02 | 接收方背书回执;Merkle 透明日志;明确抑制与合谋局限 |
| Agent Audit Trail(AAT) | draft-sharif-agent-audit-trail-00 | 2026-09-29 过期 | JSON + SHA-256 哈希链(RFC 8785),可选 ECDSA;映射 AI 法案 / SOC 2 / ISO 42001 |
| SCITT 架构 | draft-ietf-scitt-architecture | IETF 工作组 | 仅追加透明日志、签名声明、可验证回执 |
| AI 法案日志 | 条例 2024/1689 | 2026-08(高风险) | 强制自动记录事件 |
正确的框架不是「多记点日志」,而是:由其所描述的行为者自己写的日志,是一份意图声明,而非证据。其解法——已被证书透明度验证、如今正移植到智能体——是把书写者移出智能体,并将回执锚定在它无法悄悄编辑之处。