自动化提示注入因模型而异:TAP 胜过 GCG,GPT-5 抵御住了
苏黎世联邦理工学院 2026 年 6 月 9 日的研究将 GCG 与 TAP 适配到 AgentDojo,覆盖 80 对智能体任务。黑盒 TAP 胜过基于梯度的 GCG,但在小模型上调优的攻击无法迁移到 GPT-5。
这是什么?
2026 年 6 月 9 日,苏黎世联邦理工学院(ETH Zurich)的三位研究者——David Hofer、Edoardo Debenedetti 与 Florian Tramèr——发表了 Assessing Automated Prompt Injection Attacks in Agentic Environments(arXiv:2606.10525)。这是首次系统性地衡量:那些在越狱中有效的自动化攻击方法,是否同样适用于针对工具调用型智能体的间接提示注入(IPI)。简短的答案是:有效,但并不均衡。面对小型开放权重模型,成功率确实可观;面对前沿模型(GPT-5)则大幅崩塌,而在小模型上优化的攻击无法向上迁移。自动化注入是一种可信的威胁——但高度依赖于模型。
工作原理
研究团队在 AgentDojo(评估在不可信数据上行动的智能体的标准基准)内,将两种已知的越狱优化器适配到智能体场景。白盒方法是 GCG,利用梯度搜索对抗性 token 串;黑盒方法是 TAP,使用一个攻击者 LLM 迭代地改写注入并剪除走不通的分支。此处不复现任何 payload——贡献在于度量,而非攻击配方。
评估覆盖四个领域(workspace、银行、旅行、slack)的 80 对任务。在小型目标 Qwen3-4B 上的关键数字:
Method (Qwen3-4B target) Attack Success Rate
---------------------------- -------------------
Universal TAP (black-box) 45.2%
Single-task TAP 44.6%
Universal GCG (white-box) 24.1%
Single-task GCG 23.0%
两个结构性发现尤为突出。其一,黑盒胜过白盒:TAP 的成功率大致是 GCG 的两倍,作者将其归因于在合理算力预算下 GCG 的优化不稳定性。其二,攻击强度取决于攻击者模型——更强、安全微调更弱的攻击者 LLM 能产出更有效的注入,而经过安全微调的攻击者有时会干脆拒绝生成。
为何重要
有意思的结果在于上限,而非下限。在 GPT-5 上,最佳攻击的 ASR 仅约 4.5–4.7%,从 Qwen3-4B 迁移而来的 GCG 串则跌至 1% 以下。在小模型上能泛化到未见任务领域的通用注入,在 GPT-5 的未见领域上降为 0%。换言之,那条廉价路径——针对你能控制的开放模型优化一段注入,再射向前沿部署——如今基本行不通。
这是一则有保质期的好消息。它说明与模型无关的「一键式」注入尚未到来;但它并不意味着智能体是安全的。Slack 类任务是最脆弱的攻击面(小模型上约 67% ASR),即便是未经优化的简单指令在此也能达到约 25%。任何在不可信内容上以智能体循环运行开放权重或小型模型的人,都正处于该研究所衡量的可利用区间之内。
防御
该研究自身的发现——前沿模型的稳健性加上跨模型迁移性差——提示我们:对读取不可信数据的智能体应慎重选择模型,而非放松警惕。持久的缓解措施是架构性的,且早于这项工作:
- 将工具输出视为数据,绝不视为指令。 让检索到的内容远离特权指令通道;AgentDojo 的存在正是为了测试基于这种分离的防御。
- 授权动作,而非文本。 让每一次有后果的工具调用(发送、支付、共享、删除)都以用户的初始意图为前提,并对不可逆操作要求人工确认。
- 限制影响半径。 最小权限的工具范围、白名单收件人、按会话的花费/范围上限,可将一次成功的注入变为可控的注入。
- 优先监控高风险面。 消息与邮件工具表现出最高的易感性——应在此优先部署监控与护栏。
- 在优化条件下重新测试,而非只用静态提示。 能挺过手写注入的防御,仍可能在由 LLM 驱动的自适应攻击面前失守;请用自动化红队进行评估。
状态
| 项目 | 详情 |
|---|---|
| 发表 | arXiv:2606.10525 v1,2026 年 6 月 9 日 |
| 作者 | Hofer、Debenedetti、Tramèr(苏黎世联邦理工学院) |
| 框架 | AgentDojo(为白盒访问而扩展) |
| 测试中最稳健的模型 | GPT-5(约 5% ASR;迁移的 GCG < 1%) |
| 最脆弱的攻击面 | Slack 类消息任务(Qwen3-4B 上约 67% ASR) |
| 性质 | 防御性度量研究——未发布漏洞利用 |