DEFENSE MEDIUM NEW

AgentDyn：为何在静态基准上满分的注入防御在真实场景中失效

2026 年 2 月的 ICML 基准 AgentDyn 在动态、开放式的智能体任务上测试了十种主流提示注入防御。几乎所有防御要么不安全，要么过度防御到无法使用。

2026-06-12 // 6 min affects: gpt-4o, gpt-5.1, gemini-2.5-pro, llama-3.3-70b, qwen3-235b

这是什么？

AgentDyn 是面向带工具调用的 LLM 智能体的提示注入基准，于 2026 年 2 月发布在 arXiv 上（2602.03117，作者 Hao Li、Ruoyao Wen、Shanghao Shi、Ning Zhang 与 Chaowei Xiao；代码见 github.com/leolee99/AgentDyn）。其结论令人不安：在流行的静态基准 AgentDojo 上报告近乎完美成绩的十种前沿防御中，一旦任务变得动态且开放，几乎没有一种可投入部署。它们要么仍不安全，要么以摧毁智能体的可用性为代价来「防御」。

这篇论文是方法论批评，而非攻击工具。它之所以重要，是因为防御者越来越多地引用排行榜上的 ASR（攻击成功率）数字——往往接近零——作为提示注入已被解决的证据。AgentDyn 论证：这些数字只是基准构建方式的产物。这呼应了 2026 年更广泛的主题；参见我们关于为何评测智能体很难的说明。

工作原理

AgentDyn 指出当前静态基准的三个结构性缺陷，并据此构建。其一，缺乏动态、开放式任务：在 AgentDojo 中只有 97 个任务里的 6 个需要重新规划，因此智能体可以预先规划整条动作序列。防御于是只需固守这一初始计划即可显得安全——一旦任务要求在执行中途调整，这条捷径便失效。其二，缺乏有用指令：真实的第三方内容充满良性且有用的指令（结账页上的「请先登录」），而某条指令是否恶意取决于上下文。一种忽略所有外部指令的防御，在不含任何此类指令的基准上得分很高，却在现实中崩溃。其三，用户任务过于简单：以往基准平均为 1–3 步、1–2 个应用、不超过 20 个工具。

AgentDyn 以 60 个开放式任务和 560 个注入测试用例作答，覆盖 Shopping、GitHub 与 Daily Life，平均每个任务 7.1 步、3.17 个应用场景，全部要求动态规划并穿插良性指令。它构建于 AgentDojo 框架之上，在八个智能体（GPT-4o、GPT-5.1、Gemini-2.5-Pro/Flash、Llama-3.3-70B、Qwen3-235B 等）和四类防御上进行了评测。

为何重要

结果揭示的是防御的三难困境，而非调参问题（这一主题见提示注入包装器的三难）。在 GPT-4o 上：

基于提示的防御（Prompt Sandwiching、Spotlighting）保住了可用性，但相比无防御几乎没有降低 ASR（约 27–31%）。
过滤类（ProtectAI、PIGuard）无法区分有用指令与注入，使可用性降至接近零；PromptGuard2 在无攻击时保持可用性，一旦出现攻击便丢弃整段工具输出，仍留下 27.15% 的 ASR。
强制固定计划的系统级设计（如 CaMeL）在完全开放式任务上达到 0% ASR，但可用性也为 0%。依赖计划的防御（Tool Filter、Progent、DRIFT）随着工具集增大而严重损失可用性。
唯一相对均衡的结果是对齐类（Meta SecAlign 70B），在降低 ASR 的同时提升了可用性——但仍残留约 9%。

对部署智能体的人而言，教训是：宣称近乎零 ASR 的防御，可能是用你将感受为工作流损坏的过度防御换来的，或来自一个从未测试过自适应多步任务的基准。读取任何单一工作点时也应同样谨慎——参见检测器基准与工作点。

防御建议

AgentDyn 本身就是一件防御工具。具体要点：

在动态、长链路任务上重新测试防御。 把 AgentDojo 式的近零 ASR 视为必要而非充分。在相信厂商说法前，使用 AgentDyn 或同类开放式套件。
衡量防御下的可用性，而不仅是 ASR。 一个把攻击清零却把任务完成率砍半的控制并非胜利；应同时报告两项数字。
优先选择自适应而非固定计划的控制。 静态计划强制在开放式工作中很脆弱。基于任务的动态访问控制退化得更平缓——参见基于任务的工具授权。
保持纵深防御。 将轻量的运行时检查与指令层级训练以及最小权限划分相结合，而不要把一切押在单一过滤器上。
限制影响半径。 即便约 9% 的残留 ASR，对高影响工具也不可接受；将敏感操作置于人工审查之后，并限制由私有数据、不可信内容与外泄通道构成的致命三要素。

现状

防御类别	示例	GPT-4o 可用性（无攻击）	ASR	失效模式
无	Vanilla	53.3%	37.8%	基线
提示	Spotlighting	55.0%	27.6%	安全性弱
过滤	PromptGuard2	60.0%	27.2%	受攻击时丢弃工具输出
过滤	ProtectAI	~0%	~1%	严重过度防御
系统级	CaMeL	0%	0%	开放式任务下可用性为零
对齐	Meta SecAlign 70B	提升	~9%	平衡最佳，仍有残余风险

作者强调 AgentDyn「只是一个小型开放式基准」，但所有受测防御都在其上举步维艰——与真实部署的差距只会更大。近期研究也得出相同警示：干净的排行榜数字可能误导人（Adversa AI，2026 年 6 月；《不要自欺地衡量安全》，2026 年 5 月）。由此得出的防御姿态不是「选 ASR 最低的防御」，而是「在与你自身相似的任务上验证它，并保留它一旦失效时你所需要的各层防护」。

本文出于防御与教育目的总结已发表的研究，不含任何可操作的攻击载荷。

AgentDyn：为何在静态基准上满分的注入防御在真实场景中失效

这是什么？

工作原理

为何重要

防御建议

现状

Sources