AgentDyn:为何在静态基准上满分的注入防御在真实场景中失效
2026 年 2 月的 ICML 基准 AgentDyn 在动态、开放式的智能体任务上测试了十种主流提示注入防御。几乎所有防御要么不安全,要么过度防御到无法使用。
这是什么?
AgentDyn 是面向带工具调用的 LLM 智能体的提示注入基准,于 2026 年 2 月发布在 arXiv 上(2602.03117,作者 Hao Li、Ruoyao Wen、Shanghao Shi、Ning Zhang 与 Chaowei Xiao;代码见 github.com/leolee99/AgentDyn)。其结论令人不安:在流行的静态基准 AgentDojo 上报告近乎完美成绩的十种前沿防御中,一旦任务变得动态且开放,几乎没有一种可投入部署。它们要么仍不安全,要么以摧毁智能体的可用性为代价来「防御」。
这篇论文是方法论批评,而非攻击工具。它之所以重要,是因为防御者越来越多地引用排行榜上的 ASR(攻击成功率)数字——往往接近零——作为提示注入已被解决的证据。AgentDyn 论证:这些数字只是基准构建方式的产物。这呼应了 2026 年更广泛的主题;参见我们关于为何评测智能体很难的说明。
工作原理
AgentDyn 指出当前静态基准的三个结构性缺陷,并据此构建。其一,缺乏动态、开放式任务:在 AgentDojo 中只有 97 个任务里的 6 个需要重新规划,因此智能体可以预先规划整条动作序列。防御于是只需固守这一初始计划即可显得安全——一旦任务要求在执行中途调整,这条捷径便失效。其二,缺乏有用指令:真实的第三方内容充满良性且有用的指令(结账页上的「请先登录」),而某条指令是否恶意取决于上下文。一种忽略所有外部指令的防御,在不含任何此类指令的基准上得分很高,却在现实中崩溃。其三,用户任务过于简单:以往基准平均为 1–3 步、1–2 个应用、不超过 20 个工具。
AgentDyn 以 60 个开放式任务和 560 个注入测试用例作答,覆盖 Shopping、GitHub 与 Daily Life,平均每个任务 7.1 步、3.17 个应用场景,全部要求动态规划并穿插良性指令。它构建于 AgentDojo 框架之上,在八个智能体(GPT-4o、GPT-5.1、Gemini-2.5-Pro/Flash、Llama-3.3-70B、Qwen3-235B 等)和四类防御上进行了评测。
为何重要
结果揭示的是防御的三难困境,而非调参问题(这一主题见提示注入包装器的三难)。在 GPT-4o 上:
- 基于提示的防御(Prompt Sandwiching、Spotlighting)保住了可用性,但相比无防御几乎没有降低 ASR(约 27–31%)。
- 过滤类(ProtectAI、PIGuard)无法区分有用指令与注入,使可用性降至接近零;PromptGuard2 在无攻击时保持可用性,一旦出现攻击便丢弃整段工具输出,仍留下 27.15% 的 ASR。
- 强制固定计划的系统级设计(如 CaMeL)在完全开放式任务上达到 0% ASR,但可用性也为 0%。依赖计划的防御(Tool Filter、Progent、DRIFT)随着工具集增大而严重损失可用性。
- 唯一相对均衡的结果是对齐类(Meta SecAlign 70B),在降低 ASR 的同时提升了可用性——但仍残留约 9%。
对部署智能体的人而言,教训是:宣称近乎零 ASR 的防御,可能是用你将感受为工作流损坏的过度防御换来的,或来自一个从未测试过自适应多步任务的基准。读取任何单一工作点时也应同样谨慎——参见检测器基准与工作点。
防御建议
AgentDyn 本身就是一件防御工具。具体要点:
- 在动态、长链路任务上重新测试防御。 把 AgentDojo 式的近零 ASR 视为必要而非充分。在相信厂商说法前,使用 AgentDyn 或同类开放式套件。
- 衡量防御下的可用性,而不仅是 ASR。 一个把攻击清零却把任务完成率砍半的控制并非胜利;应同时报告两项数字。
- 优先选择自适应而非固定计划的控制。 静态计划强制在开放式工作中很脆弱。基于任务的动态访问控制退化得更平缓——参见基于任务的工具授权。
- 保持纵深防御。 将轻量的运行时检查与指令层级训练以及最小权限划分相结合,而不要把一切押在单一过滤器上。
- 限制影响半径。 即便约 9% 的残留 ASR,对高影响工具也不可接受;将敏感操作置于人工审查之后,并限制由私有数据、不可信内容与外泄通道构成的致命三要素。
现状
| 防御类别 | 示例 | GPT-4o 可用性(无攻击) | ASR | 失效模式 |
|---|---|---|---|---|
| 无 | Vanilla | 53.3% | 37.8% | 基线 |
| 提示 | Spotlighting | 55.0% | 27.6% | 安全性弱 |
| 过滤 | PromptGuard2 | 60.0% | 27.2% | 受攻击时丢弃工具输出 |
| 过滤 | ProtectAI | ~0% | ~1% | 严重过度防御 |
| 系统级 | CaMeL | 0% | 0% | 开放式任务下可用性为零 |
| 对齐 | Meta SecAlign 70B | 提升 | ~9% | 平衡最佳,仍有残余风险 |
作者强调 AgentDyn「只是一个小型开放式基准」,但所有受测防御都在其上举步维艰——与真实部署的差距只会更大。近期研究也得出相同警示:干净的排行榜数字可能误导人(Adversa AI,2026 年 6 月;《不要自欺地衡量安全》,2026 年 5 月)。由此得出的防御姿态不是「选 ASR 最低的防御」,而是「在与你自身相似的任务上验证它,并保留它一旦失效时你所需要的各层防护」。
本文出于防御与教育目的总结已发表的研究,不含任何可操作的攻击载荷。