INDIRECT INJECTION MEDIUM NEW

ReAct 智能体中的注入深度：位置比措辞更关键

2026 年 6 月一项针对工具调用 ReAct 智能体的研究发现，决定间接提示注入成败的是注入深度而非措辞：第一次工具调用成功率 60%，到第四次降为 0%。

2026-06-15 // 6 min affects: react-agents, tool-calling-agents, llm-agents

这是什么？

大多数间接提示注入研究关注的是恶意载荷应该说什么——用什么措辞、什么权威信号、什么混淆手法能绕过模型的防御。arXiv 上一篇新论文 “Depth-Dependent Indirect Prompt Injection in Tool-Calling ReAct Agents”（arXiv:2605.30686，2026 年 6 月）提出了另一个问题：在智能体的运行过程中，载荷落在哪里，这是否比措辞更重要。答案是位置占主导。放在智能体读取的第一个工具结果中的注入，比把同样的文本放在几步之后成功率高得多。

该研究针对 ReAct 智能体——如今已成标准的循环结构，将链式推理与工具调用交错进行，用于日程安排、文件检索、网页浏览和数据访问。任何返回值受攻击者控制的工具（网页、文档、电子邮件、API 响应）都是间接提示注入的通道。论文的贡献在于，它对三个变量——注入深度、载荷措辞框架、回合预算——进行了结构化测量，而不是把注入当作单一的是非事件。

工作原理

ReAct 智能体运行一个循环：思考、调用工具、读取工具输出（即观察）、再思考、调用下一个工具，如此往复，直到给出回答或达到回合上限。间接提示注入把指令藏在某个观察之中，使智能体把攻击者的文本当作自己任务的一部分来处理。

作者改变三个维度并测量攻击成功率（ASR）：

# 概念性实验设计——用于测量，而非可执行的利用配方。
注入深度  : 序列中哪一个工具观察携带载荷（第 1、第 2、…… 第 5 个）
载荷框架  : 修辞语气（例如直接指令 vs.「有帮助的下一步」）
回合预算  : 智能体在必须作答前可进行多少次工具调用

核心结论是：注入深度是主导变量。ASR 随深度单调下降：在深度 1（智能体读取的第一个观察）约为 60%，到深度 4 和 5 降为 0%。换言之，智能体早期遇到的注入——此时其计划尚在形成——会把它带偏；而同样的注入若在后期遇到，此时智能体已锁定某条轨迹、临近作答，则基本被忽略。

由此有两点推论。其一，论文指出仅净化第一个工具观察就能覆盖约 67% 的实测注入成功——上下文窗口中很小的一部分集中了大部分风险。其二，对攻击者而言有效的设计杠杆是结构性的，而非修辞性的：成功更多取决于把指令放在某个工具输出中，使所请求的动作读起来像一个合理的下一步，而非取决于巧妙的措辞。这与 “Design Patterns for Securing LLM Agents against Prompt Injections” 的视角一致——不可信数据从何处进入控制流比其措辞更重要——并延续了首次形式化工具集成型间接注入的 InjecAgent 基准。

为何重要

深度效应重新界定了防御预算应投向何处。团队往往对每个工具结果施加统一的净化，或干脆不做。这项测量表明，一次运行中最初的若干观察具有不成比例的危险性，因为那是智能体计划最易被塑形的窗口。它也解释了为何某些在单轮测试中「奏效」的注入，在更长的智能体轨迹中却失败，反之亦然——同一载荷的破坏半径取决于智能体何时遇到它。

需要说明其局限。这些是单一研究测试平台得出的 ASR 数字，模型与任务由作者选定；低深度占主导是一种趋势而非保证，控制了第一个被检索来源的坚决攻击者仍有很大空间。该结论是优先级信号，而非默认安全的规则。把「净化第一个观察」当作单独的充分防护，恰恰是错误的教训。

防御

实务要点：按深度加权审查，而不是平均铺开。

对最早的工具观察施加最严格的来源核验与净化——论文显示此时智能体最易被引导——同时仍要筛查其后的观察。把每个工具返回都标记为不可信数据、绝不当作指令——即指令层级原则——这样位置只是建立在稳固信任模型之上的一个微调旋钮，而非其替代品。

将其与不依赖在摄入阶段拦截载荷的轨迹级防御相结合。诸如 ICON（arXiv:2602.20708，2026 年 2 月）这类推理时纠正方案，能在运行中检测并修复被破坏的轨迹，同时保持任务连续性，从而覆盖那种绕过输入过滤的迟到或精心定位的注入。在确认工具调用前先行核验——verify-before-commit 模式——无论注入由哪个观察引入，都能拦下被注入的动作。

最后，用架构来限定破坏半径。让智能体处于智能体二元法则之内——限制单个智能体同时组合（不可信输入、私有数据、外部动作）中的几项——意味着即便一次深度 1 的注入确实把智能体带偏，它能触及的东西也更少。按深度加权的过滤降低智能体被劫持的频率；能力限制则界定每次劫持能有多严重。

状态

维度	发现	来源	日期
注入深度	深度 1 时 ASR 约 60%，单调降至深度 4–5 时 0%	arXiv:2605.30686	2026 年 6 月
第一个观察的净化	覆盖约 67% 的注入成功	arXiv:2605.30686	2026 年 6 月
有效攻击杠杆	结构性（位置）胜过修辞性（框架）	arXiv:2605.30686	2026 年 6 月
轨迹修复防御	ICON，推理时纠正	arXiv:2602.20708	2026 年 2 月

这是已发表的测量研究，带有防御性解读，并非未修补的产品漏洞。其贡献在于优先级排序：在 ReAct 循环中，智能体从外部世界读取的第一件东西，最值得怀疑。

ReAct 智能体中的注入深度：位置比措辞更关键

这是什么？

工作原理

为何重要

防御

状态

Sources