RESEARCH LOW NEW

LLM 智能体的执行溯源：通过追踪证据重建信任

2026 年 6 月的一篇 arXiv 综述（2606.04990）系统梳理了 LLM 智能体的证据追踪与执行溯源——这一问责层让你能够审计、调试并验证智能体究竟做了什么。

2026-06-18 // 7 min affects: llm-agents, tool-using-agents, rag-pipelines, multi-agent-systems, agent-memory

这是什么？

**《From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents》**是一篇于 2026 年 6 月发布在 arXiv 上的综述（2606.04990），作者为格里菲斯大学（Griffith University）的 Yiqi Wang 及其同事，合著者来自北京大学、南京大学、麦考瑞大学等机构。它既不提出新的攻击，也不提供单一的防御方案，而是命名并梳理了一个大多数智能体部署至今仍在临时应对的问题：当一个 LLM 智能体调用工具、读取记忆、浏览网页并与其他智能体对话时，你如何重建实际发生的过程，并判断它是否可信？

作者的出发点很简单。最终答案的准确性只能告诉你一次执行的终点，却无法告诉你哪些被检索到的证据支撑了每一项论断、某次工具调用是否合理、某条记忆如何影响了后续决策，以及故障源自何处。这就是过程级问责的缺口——当某个智能体造成危害、而唯一留下的痕迹只有最终输出时，事件响应人员正是会掉进这个缺口里。

工作原理

该综述将证据追踪（evidence tracing）与执行溯源（execution provenance）视为一个置于智能体旁侧、而非内部的问责层。证据追踪记录并连接那些支撑、反驳、使之失效或影响智能体论断与行动的单元。执行溯源则是对一次执行如何展开的更广义的结构化记录：检索到的文档、工具调用及其参数、观察结果、记忆的读取与写入、中间论断、行动、智能体间的消息以及最终输出。

为使其具体化，论文沿多个维度提出了一套分类法——**追踪来源、证据与执行单元、溯源关系、追踪粒度、追踪时机、表示形式以及信任函数。**其中溯源关系对防御者最具价值：诸如支撑、派生、依赖、矛盾、失效、触发与更新等带类型的边，可以表达——例如——某项行动是由一个工具输出触发的，而该输出本身又派生自一个不可信的网页。这一脉络借鉴了成熟的系统工程工作（综述明确建立在 W3C PROV-DM 与 OpenTelemetry 式的分布式追踪之上），但将其扩展到 LLM 智能体特有的语义单元：生成的论断、工具调用的理由、记忆条目以及自然语言观察——这些都是传统系统追踪从未捕获的。

为何重要

溯源是若干此前相互独立的安全问题的汇聚点。该综述在同一模型下连接了检索锚定、工具使用安全、记忆谱系、可观测性与恢复，并由此将近期的智能体安全工作映射到一个共同基底之上：控制流/数据流分离（CaMeL）、信息流控制（Fides）、经由语义变换的污点传播（NeuroTaint），以及基于规范、运行时与边界的强制机制（AgentSpec、AgentSentry、AgentBound）。从这个视角看，间接提示注入并非神秘的故障，而是一个不可信的证据单元对下游行动取得了不应有的影响——而溯源图正能将其暴露出来。

记忆被点名为首要风险。论文将记忆视为承载溯源的证据，而非被动存储：一条派生自被投毒文档、过期工具输出或恶意智能体间消息的记忆条目，可能会悄无声息地将错误传播到此后的每一个决策。若不为记忆的写入与读取建立谱系，记忆投毒攻击在事后几乎无法归因。

防御

该综述本质上是一份防御蓝图。对于在生产环境中运行智能体的团队，以下是若干具体启示：

**面向过程级问责进行埋点，而不仅仅是输出。**将工具调用、参数、检索到的来源、记忆访问以及智能体间消息捕获为结构化的追踪单元——针对智能体语义改造的 OpenTelemetry 式 span 是一个合理的基础。
**构建带类型的溯源图。**记录支撑/派生/影响等边，能将事后分析从“日志考古”转变为图查询：“哪个不可信来源影响了这项行动？”由此成为一个可回答的问题。
**应用信息流控制与污点追踪。**在证明其安全之前，将工具输出与检索内容视为带污点的，并在被污染数据触及敏感行动时发出告警——这正是间接提示注入的结构性特征。
**追踪记忆谱系。**为每一次记忆写入标注其来源与有效期，以便对被投毒或过期的条目进行失效处理与审计。
**将评估从最终答案的正确性推进到过程的正确性。**综述指出，多数基准仍在评判终点；基于追踪的故障定位（如 TRAIL）与多智能体故障分析（MAST）则评判路径。

溯源是一个问责与检测层，本身并非预防手段——它是对输入过滤与最小权限工具设计的补充，而非替代。

状态

这是一篇综述，而非一个漏洞，因此没有需要修补的东西。它的价值在于概念与操作层面：为智能体平台刚刚开始提供的一项能力给出了术语与分类法。作者指出该领域仍处于碎片化状态，并列出了一系列同时充当路线图的开放挑战——统一的追踪模式、论断级与语义级溯源、具备溯源意识的安全机制、贴近真实的执行追踪基准、面向恢复的评估，以及尊重隐私的审计基础设施。对于在 2026 年设计智能体可观测性或事件响应工具的人而言，这是一份关于“应记录什么以及为什么”的有用地图。

LLM 智能体的执行溯源：通过追踪证据重建信任

这是什么？

工作原理

为何重要

防御

状态

Sources