系统:运行中
← 返回所有攻击
DEFENSE MEDIUM NEW

AgentDyn:为何在静态基准上满分的注入防御在真实场景中失效

2026 年 2 月的 ICML 基准 AgentDyn 在动态、开放式的智能体任务上测试了十种主流提示注入防御。几乎所有防御要么不安全,要么过度防御到无法使用。

2026-06-12 // 6 min affects: gpt-4o, gpt-5.1, gemini-2.5-pro, llama-3.3-70b, qwen3-235b

这是什么?

AgentDyn 是面向带工具调用的 LLM 智能体的提示注入基准,于 2026 年 2 月发布在 arXiv 上(2602.03117,作者 Hao Li、Ruoyao Wen、Shanghao Shi、Ning Zhang 与 Chaowei Xiao;代码见 github.com/leolee99/AgentDyn)。其结论令人不安:在流行的静态基准 AgentDojo 上报告近乎完美成绩的十种前沿防御中,一旦任务变得动态且开放,几乎没有一种可投入部署。它们要么仍不安全,要么以摧毁智能体的可用性为代价来「防御」。

这篇论文是方法论批评,而非攻击工具。它之所以重要,是因为防御者越来越多地引用排行榜上的 ASR(攻击成功率)数字——往往接近零——作为提示注入已被解决的证据。AgentDyn 论证:这些数字只是基准构建方式的产物。这呼应了 2026 年更广泛的主题;参见我们关于为何评测智能体很难的说明。

工作原理

AgentDyn 指出当前静态基准的三个结构性缺陷,并据此构建。其一,缺乏动态、开放式任务:在 AgentDojo 中只有 97 个任务里的 6 个需要重新规划,因此智能体可以预先规划整条动作序列。防御于是只需固守这一初始计划即可显得安全——一旦任务要求在执行中途调整,这条捷径便失效。其二,缺乏有用指令:真实的第三方内容充满良性且有用的指令(结账页上的「请先登录」),而某条指令是否恶意取决于上下文。一种忽略所有外部指令的防御,在不含任何此类指令的基准上得分很高,却在现实中崩溃。其三,用户任务过于简单:以往基准平均为 1–3 步、1–2 个应用、不超过 20 个工具。

AgentDyn 以 60 个开放式任务和 560 个注入测试用例作答,覆盖 Shopping、GitHub 与 Daily Life,平均每个任务 7.1 步、3.17 个应用场景,全部要求动态规划并穿插良性指令。它构建于 AgentDojo 框架之上,在八个智能体(GPT-4o、GPT-5.1、Gemini-2.5-Pro/Flash、Llama-3.3-70B、Qwen3-235B 等)和四类防御上进行了评测。

为何重要

结果揭示的是防御的三难困境,而非调参问题(这一主题见提示注入包装器的三难)。在 GPT-4o 上:

  • 基于提示的防御(Prompt Sandwiching、Spotlighting)保住了可用性,但相比无防御几乎没有降低 ASR(约 27–31%)。
  • 过滤类(ProtectAI、PIGuard)无法区分有用指令与注入,使可用性降至接近零;PromptGuard2 在无攻击时保持可用性,一旦出现攻击便丢弃整段工具输出,仍留下 27.15% 的 ASR
  • 强制固定计划的系统级设计(如 CaMeL)在完全开放式任务上达到 0% ASR,但可用性也为 0%。依赖计划的防御(Tool Filter、Progent、DRIFT)随着工具集增大而严重损失可用性。
  • 唯一相对均衡的结果是对齐类(Meta SecAlign 70B),在降低 ASR 的同时提升了可用性——但仍残留约 9%

对部署智能体的人而言,教训是:宣称近乎零 ASR 的防御,可能是用你将感受为工作流损坏的过度防御换来的,或来自一个从未测试过自适应多步任务的基准。读取任何单一工作点时也应同样谨慎——参见检测器基准与工作点

防御建议

AgentDyn 本身就是一件防御工具。具体要点:

  • 在动态、长链路任务上重新测试防御。 把 AgentDojo 式的近零 ASR 视为必要而非充分。在相信厂商说法前,使用 AgentDyn 或同类开放式套件。
  • 衡量防御下的可用性,而不仅是 ASR。 一个把攻击清零却把任务完成率砍半的控制并非胜利;应同时报告两项数字。
  • 优先选择自适应而非固定计划的控制。 静态计划强制在开放式工作中很脆弱。基于任务的动态访问控制退化得更平缓——参见基于任务的工具授权
  • 保持纵深防御。 将轻量的运行时检查与指令层级训练以及最小权限划分相结合,而不要把一切押在单一过滤器上。
  • 限制影响半径。 即便约 9% 的残留 ASR,对高影响工具也不可接受;将敏感操作置于人工审查之后,并限制由私有数据、不可信内容与外泄通道构成的致命三要素

现状

防御类别示例GPT-4o 可用性(无攻击)ASR失效模式
Vanilla53.3%37.8%基线
提示Spotlighting55.0%27.6%安全性弱
过滤PromptGuard260.0%27.2%受攻击时丢弃工具输出
过滤ProtectAI~0%~1%严重过度防御
系统级CaMeL0%0%开放式任务下可用性为零
对齐Meta SecAlign 70B提升~9%平衡最佳,仍有残余风险

作者强调 AgentDyn「只是一个小型开放式基准」,但所有受测防御都在其上举步维艰——与真实部署的差距只会更大。近期研究也得出相同警示:干净的排行榜数字可能误导人(Adversa AI,2026 年 6 月《不要自欺地衡量安全》,2026 年 5 月)。由此得出的防御姿态不是「选 ASR 最低的防御」,而是「在与你自身相似的任务上验证它,并保留它一旦失效时你所需要的各层防护」。

本文出于防御与教育目的总结已发表的研究,不含任何可操作的攻击载荷。

Sources