PROMPT INJECTION MEDIUM NEW

自动化提示注入因模型而异：TAP 胜过 GCG，GPT-5 抵御住了

苏黎世联邦理工学院 2026 年 6 月 9 日的研究将 GCG 与 TAP 适配到 AgentDojo，覆盖 80 对智能体任务。黑盒 TAP 胜过基于梯度的 GCG，但在小模型上调优的攻击无法迁移到 GPT-5。

2026-06-25 // 5 min affects: qwen3-4b, gemma3-4b, gpt-5, gpt-5-mini, claude-sonnet-4.5, gemini-2.5-flash, qwen3-235b

这是什么？

2026 年 6 月 9 日，苏黎世联邦理工学院（ETH Zurich）的三位研究者——David Hofer、Edoardo Debenedetti 与 Florian Tramèr——发表了 Assessing Automated Prompt Injection Attacks in Agentic Environments（arXiv:2606.10525）。这是首次系统性地衡量：那些在越狱中有效的自动化攻击方法，是否同样适用于针对工具调用型智能体的间接提示注入（IPI）。简短的答案是：有效，但并不均衡。面对小型开放权重模型，成功率确实可观；面对前沿模型（GPT-5）则大幅崩塌，而在小模型上优化的攻击无法向上迁移。自动化注入是一种可信的威胁——但高度依赖于模型。

工作原理

研究团队在 AgentDojo（评估在不可信数据上行动的智能体的标准基准）内，将两种已知的越狱优化器适配到智能体场景。白盒方法是 GCG，利用梯度搜索对抗性 token 串；黑盒方法是 TAP，使用一个攻击者 LLM 迭代地改写注入并剪除走不通的分支。此处不复现任何 payload——贡献在于度量，而非攻击配方。

评估覆盖四个领域（workspace、银行、旅行、slack）的 80 对任务。在小型目标 Qwen3-4B 上的关键数字：

Method (Qwen3-4B target)      Attack Success Rate
----------------------------  -------------------
Universal TAP (black-box)     45.2%
Single-task TAP               44.6%
Universal GCG (white-box)     24.1%
Single-task GCG               23.0%

两个结构性发现尤为突出。其一，黑盒胜过白盒：TAP 的成功率大致是 GCG 的两倍，作者将其归因于在合理算力预算下 GCG 的优化不稳定性。其二，攻击强度取决于攻击者模型——更强、安全微调更弱的攻击者 LLM 能产出更有效的注入，而经过安全微调的攻击者有时会干脆拒绝生成。

为何重要

有意思的结果在于上限，而非下限。在 GPT-5 上，最佳攻击的 ASR 仅约 4.5–4.7%，从 Qwen3-4B 迁移而来的 GCG 串则跌至 1% 以下。在小模型上能泛化到未见任务领域的通用注入，在 GPT-5 的未见领域上降为 0%。换言之，那条廉价路径——针对你能控制的开放模型优化一段注入，再射向前沿部署——如今基本行不通。

这是一则有保质期的好消息。它说明与模型无关的「一键式」注入尚未到来；但它并不意味着智能体是安全的。Slack 类任务是最脆弱的攻击面（小模型上约 67% ASR），即便是未经优化的简单指令在此也能达到约 25%。任何在不可信内容上以智能体循环运行开放权重或小型模型的人，都正处于该研究所衡量的可利用区间之内。

防御

该研究自身的发现——前沿模型的稳健性加上跨模型迁移性差——提示我们：对读取不可信数据的智能体应慎重选择模型，而非放松警惕。持久的缓解措施是架构性的，且早于这项工作：

将工具输出视为数据，绝不视为指令。 让检索到的内容远离特权指令通道；AgentDojo 的存在正是为了测试基于这种分离的防御。
授权动作，而非文本。 让每一次有后果的工具调用（发送、支付、共享、删除）都以用户的初始意图为前提，并对不可逆操作要求人工确认。
限制影响半径。 最小权限的工具范围、白名单收件人、按会话的花费/范围上限，可将一次成功的注入变为可控的注入。
优先监控高风险面。 消息与邮件工具表现出最高的易感性——应在此优先部署监控与护栏。
在优化条件下重新测试，而非只用静态提示。 能挺过手写注入的防御，仍可能在由 LLM 驱动的自适应攻击面前失守；请用自动化红队进行评估。

状态

项目	详情
发表	arXiv:2606.10525 v1，2026 年 6 月 9 日
作者	Hofer、Debenedetti、Tramèr（苏黎世联邦理工学院）
框架	AgentDojo（为白盒访问而扩展）
测试中最稳健的模型	GPT-5（约 5% ASR；迁移的 GCG < 1%）
最脆弱的攻击面	Slack 类消息任务（Qwen3-4B 上约 67% ASR）
性质	防御性度量研究——未发布漏洞利用

自动化提示注入因模型而异：TAP 胜过 GCG，GPT-5 抵御住了

这是什么？

工作原理

为何重要

防御

状态

Sources