系统:运行中
← 返回所有攻击
DEFENSE LOW NEW

AuthGraph:用双图对齐检测智能体提示注入

2026 年 5 月 26 日的 UCLA 论文将一份干净的授权图与智能体真实的来源图作结构比对,把 AgentDojo 上的攻击成功率从 40% 降到 1%。

2026-06-19 // 6 min affects: llm-agents, tool-using-agents, mcp-clients

这是什么?

AuthGraph 是面向工具型 LLM 智能体的一种防御框架,见于 2026 年 5 月 26 日发布的 arXiv 预印本(2605.26497,cs.CR),作者为加州大学洛杉矶分校(UCLA)的 Peiran Wang 等人。它针对的是间接提示注入:智能体读取一份它无法掌控的外部数据源——邮件、网页或文件——而该数据源夹带隐藏指令,将智能体引向未经授权的操作,例如把资金转入攻击者控制的账户。

论文认为,现有防御共享同一个结构性盲点。工具调用的取值校验器只检查参数,却不追踪其来源;轨迹图分析器构建一张执行图并在事后审查它——但若注入在构图过程中已经操纵了智能体,那张图便忠实地记录下被操纵后的视角,且没有任何可供比对的参照。AuthGraph 的贡献在于再构建一张注入无法触及的独立图,并通过比对两张图来检测攻击。

工作原理

AuthGraph 围绕同一个智能体任务构建两张互补的图。第一张是被注入推理图(IRG):依据真实执行轨迹重建的信息来源,刻意暴露于智能体所读取的一切之中,包括被注入的内容。它记录智能体对每个取值来源的「主观视角」——连同操纵一并记录。

第二张是授权图。它在一个隔离且干净、永不接触不可信数据的上下文中,从用户的原始意图推导而来。作者将这一参照描述为在信息论意义上不可能被注入影响:构建它的规划器根本看不到攻击者控制的字节。这张图工作在参数来源粒度(不仅约束哪些工具可以执行,还约束每个参数允许从何处而来),遵循最小权限,并在运行时可扩展。

随后由一个图对齐校验器对两张图作结构比对。由于授权图是「智能体应当做什么」的不可伪造参照,而 IRG 捕捉「智能体实际做了什么」,任何偏差都会暴露注入——既包括工具层面(一项从未被授权的操作),也包括参数来源层面(一项被授权的操作,其参数却被悄悄取自被污染的数据)。关键在于,最终裁决依据的是原始轨迹证据,而非让 LLM 去推理一段可能已被污染的文本。

贯穿全文的示例是一次欺诈性调用 book_flight(flight_id="EVIL-123"):逐次调用的取值校验或单图轨迹无法察觉 flight_id 是被注入的,而与一份干净授权基线的结构比对则可以。

为何重要

这正是智能体安全核心处的混淆代理人问题:智能体被授权行动,但它所查阅的数据已被篡改,于是它忠实地以攻击者选定的参数执行计划。这与 Simon Willison 长期记录的致命三要素——私有数据、不可信内容与外部行动通道汇聚于同一个任务——如出一辙。

论文给出的数字值得关注。在 AgentDojo 基准上,AuthGraph 将攻击成功率从 40% 降到 1%,同时在 GPT-4o 上保持 76% 的任务完成率;在 AgentDyn 上,攻击成功率从 39% 降到 2%,并保留 51% 的可用性。作者称其优于近期的「先规划后校验」与信息流控制类防御,包括 CaMeL、DRIFT 与 Progent。受影响面是任何会读取攻击者可触达内容、随后又能采取后果性操作的智能体:支付、邮件、部署、写文件。

防御

对工程团队而言,启示是架构层面的,且不限于这一具体实现。在智能体接触不可信数据之前,先从用户意图推导出一份授权规范,并把它保存在不可信数据永远无法进入的上下文中——一份无注入的基线只有在结构上被隔离时才可信,而非仅靠提示词请求它忽略指令。在参数来源粒度而非仅在工具调用粒度上追踪来源,使源自被污染输入的取值无法悄然成为敏感操作的参数。让最终的放行或拒绝裁决依据轨迹证据,而非依据一个去概括可能已被攻陷文本的模型。这些思路延续了相关工作中「血缘追踪加最小权限」的方向,如来源图防御保护 LLM 智能体的设计模式(Beurer-Kellner 等,2025 年 6 月),后者主张提示注入必须在架构层加以遏制,而非在模型层解决。

在依赖它之前需记住的局限:AuthGraph 是在基准上评估的检测与对齐层,而非已落地的产品;它假定能够在干净上下文中推导出忠实的授权图,并能从轨迹重建来源;其残余攻击成功率是被降低,而非归零。它遏制并检测操纵,而非从一开始就阻止模型被操纵。

状态

该工作是 UCLA 于 2026 年 5 月 26 日发布的预印本(arXiv:2605.26497v1),在 AgentDojo 与 AgentDyn 注入基准上以 GPT-4o 评估,并与 CaMeL、DRIFT、Progent 作比较。它没有关联的 CVE,因为 AuthGraph 描述的是一种防御,而非漏洞。在生产中运行智能体的团队,今天就可以采纳其底层原则——一份隔离的、参数来源粒度的授权基线,与执行来源作结构比对——而不必依赖这一具体原型。

Sources