DEFENSE LOW NEW

AuthGraph：用双图对齐检测智能体提示注入

2026 年 5 月 26 日的 UCLA 论文将一份干净的授权图与智能体真实的来源图作结构比对，把 AgentDojo 上的攻击成功率从 40% 降到 1%。

2026-06-19 // 6 min affects: llm-agents, tool-using-agents, mcp-clients

这是什么？

AuthGraph 是面向工具型 LLM 智能体的一种防御框架，见于 2026 年 5 月 26 日发布的 arXiv 预印本（2605.26497，cs.CR），作者为加州大学洛杉矶分校（UCLA）的 Peiran Wang 等人。它针对的是间接提示注入：智能体读取一份它无法掌控的外部数据源——邮件、网页或文件——而该数据源夹带隐藏指令，将智能体引向未经授权的操作，例如把资金转入攻击者控制的账户。

论文认为，现有防御共享同一个结构性盲点。工具调用的取值校验器只检查参数，却不追踪其来源；轨迹图分析器构建一张执行图并在事后审查它——但若注入在构图过程中已经操纵了智能体，那张图便忠实地记录下被操纵后的视角，且没有任何可供比对的参照。AuthGraph 的贡献在于再构建一张注入无法触及的独立图，并通过比对两张图来检测攻击。

工作原理

AuthGraph 围绕同一个智能体任务构建两张互补的图。第一张是被注入推理图（IRG）：依据真实执行轨迹重建的信息来源，刻意暴露于智能体所读取的一切之中，包括被注入的内容。它记录智能体对每个取值来源的「主观视角」——连同操纵一并记录。

第二张是授权图。它在一个隔离且干净、永不接触不可信数据的上下文中，从用户的原始意图推导而来。作者将这一参照描述为在信息论意义上不可能被注入影响：构建它的规划器根本看不到攻击者控制的字节。这张图工作在参数来源粒度（不仅约束哪些工具可以执行，还约束每个参数允许从何处而来），遵循最小权限，并在运行时可扩展。

随后由一个图对齐校验器对两张图作结构比对。由于授权图是「智能体应当做什么」的不可伪造参照，而 IRG 捕捉「智能体实际做了什么」，任何偏差都会暴露注入——既包括工具层面（一项从未被授权的操作），也包括参数来源层面（一项被授权的操作，其参数却被悄悄取自被污染的数据）。关键在于，最终裁决依据的是原始轨迹证据，而非让 LLM 去推理一段可能已被污染的文本。

贯穿全文的示例是一次欺诈性调用 book_flight(flight_id="EVIL-123")：逐次调用的取值校验或单图轨迹无法察觉 flight_id 是被注入的，而与一份干净授权基线的结构比对则可以。

为何重要

这正是智能体安全核心处的混淆代理人问题：智能体被授权行动，但它所查阅的数据已被篡改，于是它忠实地以攻击者选定的参数执行计划。这与 Simon Willison 长期记录的致命三要素——私有数据、不可信内容与外部行动通道汇聚于同一个任务——如出一辙。

论文给出的数字值得关注。在 AgentDojo 基准上，AuthGraph 将攻击成功率从 40% 降到 1%，同时在 GPT-4o 上保持 76% 的任务完成率；在 AgentDyn 上，攻击成功率从 39% 降到 2%，并保留 51% 的可用性。作者称其优于近期的「先规划后校验」与信息流控制类防御，包括 CaMeL、DRIFT 与 Progent。受影响面是任何会读取攻击者可触达内容、随后又能采取后果性操作的智能体：支付、邮件、部署、写文件。

防御

对工程团队而言，启示是架构层面的，且不限于这一具体实现。在智能体接触不可信数据之前，先从用户意图推导出一份授权规范，并把它保存在不可信数据永远无法进入的上下文中——一份无注入的基线只有在结构上被隔离时才可信，而非仅靠提示词请求它忽略指令。在参数来源粒度而非仅在工具调用粒度上追踪来源，使源自被污染输入的取值无法悄然成为敏感操作的参数。让最终的放行或拒绝裁决依据轨迹证据，而非依据一个去概括可能已被攻陷文本的模型。这些思路延续了相关工作中「血缘追踪加最小权限」的方向，如来源图防御与保护 LLM 智能体的设计模式（Beurer-Kellner 等，2025 年 6 月），后者主张提示注入必须在架构层加以遏制，而非在模型层解决。

在依赖它之前需记住的局限：AuthGraph 是在基准上评估的检测与对齐层，而非已落地的产品；它假定能够在干净上下文中推导出忠实的授权图，并能从轨迹重建来源；其残余攻击成功率是被降低，而非归零。它遏制并检测操纵，而非从一开始就阻止模型被操纵。

状态

该工作是 UCLA 于 2026 年 5 月 26 日发布的预印本（arXiv:2605.26497v1），在 AgentDojo 与 AgentDyn 注入基准上以 GPT-4o 评估，并与 CaMeL、DRIFT、Progent 作比较。它没有关联的 CVE，因为 AuthGraph 描述的是一种防御，而非漏洞。在生产中运行智能体的团队，今天就可以采纳其底层原则——一份隔离的、参数来源粒度的授权基线，与执行来源作结构比对——而不必依赖这一具体原型。

AuthGraph：用双图对齐检测智能体提示注入

这是什么？

工作原理

为何重要

防御

状态

Sources