ReAct 智能体中的注入深度:位置比措辞更关键
2026 年 6 月一项针对工具调用 ReAct 智能体的研究发现,决定间接提示注入成败的是注入深度而非措辞:第一次工具调用成功率 60%,到第四次降为 0%。
这是什么?
大多数间接提示注入研究关注的是恶意载荷应该说什么——用什么措辞、什么权威信号、什么混淆手法能绕过模型的防御。arXiv 上一篇新论文 “Depth-Dependent Indirect Prompt Injection in Tool-Calling ReAct Agents”(arXiv:2605.30686,2026 年 6 月)提出了另一个问题:在智能体的运行过程中,载荷落在哪里,这是否比措辞更重要。答案是位置占主导。放在智能体读取的第一个工具结果中的注入,比把同样的文本放在几步之后成功率高得多。
该研究针对 ReAct 智能体——如今已成标准的循环结构,将链式推理与工具调用交错进行,用于日程安排、文件检索、网页浏览和数据访问。任何返回值受攻击者控制的工具(网页、文档、电子邮件、API 响应)都是间接提示注入的通道。论文的贡献在于,它对三个变量——注入深度、载荷措辞框架、回合预算——进行了结构化测量,而不是把注入当作单一的是非事件。
工作原理
ReAct 智能体运行一个循环:思考、调用工具、读取工具输出(即观察)、再思考、调用下一个工具,如此往复,直到给出回答或达到回合上限。间接提示注入把指令藏在某个观察之中,使智能体把攻击者的文本当作自己任务的一部分来处理。
作者改变三个维度并测量攻击成功率(ASR):
# 概念性实验设计——用于测量,而非可执行的利用配方。
注入深度 : 序列中哪一个工具观察携带载荷(第 1、第 2、…… 第 5 个)
载荷框架 : 修辞语气(例如直接指令 vs.「有帮助的下一步」)
回合预算 : 智能体在必须作答前可进行多少次工具调用
核心结论是:注入深度是主导变量。ASR 随深度单调下降:在深度 1(智能体读取的第一个观察)约为 60%,到深度 4 和 5 降为 0%。换言之,智能体早期遇到的注入——此时其计划尚在形成——会把它带偏;而同样的注入若在后期遇到,此时智能体已锁定某条轨迹、临近作答,则基本被忽略。
由此有两点推论。其一,论文指出仅净化第一个工具观察就能覆盖约 67% 的实测注入成功——上下文窗口中很小的一部分集中了大部分风险。其二,对攻击者而言有效的设计杠杆是结构性的,而非修辞性的:成功更多取决于把指令放在某个工具输出中,使所请求的动作读起来像一个合理的下一步,而非取决于巧妙的措辞。这与 “Design Patterns for Securing LLM Agents against Prompt Injections” 的视角一致——不可信数据从何处进入控制流比其措辞更重要——并延续了首次形式化工具集成型间接注入的 InjecAgent 基准。
为何重要
深度效应重新界定了防御预算应投向何处。团队往往对每个工具结果施加统一的净化,或干脆不做。这项测量表明,一次运行中最初的若干观察具有不成比例的危险性,因为那是智能体计划最易被塑形的窗口。它也解释了为何某些在单轮测试中「奏效」的注入,在更长的智能体轨迹中却失败,反之亦然——同一载荷的破坏半径取决于智能体何时遇到它。
需要说明其局限。这些是单一研究测试平台得出的 ASR 数字,模型与任务由作者选定;低深度占主导是一种趋势而非保证,控制了第一个被检索来源的坚决攻击者仍有很大空间。该结论是优先级信号,而非默认安全的规则。把「净化第一个观察」当作单独的充分防护,恰恰是错误的教训。
防御
实务要点:按深度加权审查,而不是平均铺开。
对最早的工具观察施加最严格的来源核验与净化——论文显示此时智能体最易被引导——同时仍要筛查其后的观察。把每个工具返回都标记为不可信数据、绝不当作指令——即指令层级原则——这样位置只是建立在稳固信任模型之上的一个微调旋钮,而非其替代品。
将其与不依赖在摄入阶段拦截载荷的轨迹级防御相结合。诸如 ICON(arXiv:2602.20708,2026 年 2 月)这类推理时纠正方案,能在运行中检测并修复被破坏的轨迹,同时保持任务连续性,从而覆盖那种绕过输入过滤的迟到或精心定位的注入。在确认工具调用前先行核验——verify-before-commit 模式——无论注入由哪个观察引入,都能拦下被注入的动作。
最后,用架构来限定破坏半径。让智能体处于智能体二元法则之内——限制单个智能体同时组合(不可信输入、私有数据、外部动作)中的几项——意味着即便一次深度 1 的注入确实把智能体带偏,它能触及的东西也更少。按深度加权的过滤降低智能体被劫持的频率;能力限制则界定每次劫持能有多严重。
状态
| 维度 | 发现 | 来源 | 日期 |
|---|---|---|---|
| 注入深度 | 深度 1 时 ASR 约 60%,单调降至深度 4–5 时 0% | arXiv:2605.30686 | 2026 年 6 月 |
| 第一个观察的净化 | 覆盖约 67% 的注入成功 | arXiv:2605.30686 | 2026 年 6 月 |
| 有效攻击杠杆 | 结构性(位置)胜过修辞性(框架) | arXiv:2605.30686 | 2026 年 6 月 |
| 轨迹修复防御 | ICON,推理时纠正 | arXiv:2602.20708 | 2026 年 2 月 |
这是已发表的测量研究,带有防御性解读,并非未修补的产品漏洞。其贡献在于优先级排序:在 ReAct 循环中,智能体从外部世界读取的第一件东西,最值得怀疑。