PROMPT INJECTION MEDIUM NEW

ASPI：请求澄清会扩大提示注入攻击面

2026 年 5 月 17 日的一篇 arXiv 基准研究显示，当智能体暂停向用户请求澄清时，提示注入的成功率会从不到 2% 升至超过 34%（o3 与 Gemini-3-Flash）。

2026-06-03 // 6 min affects: o3, gemini-3-flash, llm-agents

这是什么？

2026 年 5 月 17 日，Scale AI 的一个团队（Udari Madhushani Sehwag、Zhengyang Shan、Heming Liu、Dileepa Lakshan、Joseph Brandifino 与 Max Fenkell）在 arXiv 上发表了 ASPI: Seeking Ambiguity Clarification Amplifies Prompt Injection Vulnerability in LLM Agents（2605.17324，cs.CR）。这一结论令人不安，因为它指向了一种整个行业都视为良好实践的行为：面对描述不充分的任务，设计良好的智能体应当先停下来询问用户的真实意图，再去执行。

ASPI——Ambiguous-State Prompt Injection（模糊状态提示注入）——是一个包含 728 个任务-攻击场景 的基准，它将「请求澄清」单独隔离为一种智能体状态，并衡量进入该状态是否改变了智能体被劫持的难易程度。在 十个前沿模型 上的答案是肯定的，而且差距明显。数据与测试框架已在 github.com/scaleapi/aspi 公开。

工作原理

该基准在两种配对设置下比较同一场景。在执行设置中，智能体收到完全明确的指令，仅通过工具返回的数据间接接触到对抗性内容。在澄清设置中，指令描述不充分：智能体必须先向用户提出问题，并将回复纳入其计划，然后才行动。其余一切保持不变——相同的任务、相同的注入内容、相同的工具——因此成功率上的任何差异都可归因于状态转换本身。

Setting          Agent flow                                    Adversarial entry point
---------------  --------------------------------------------  -----------------------------
Execution        instruction -> act -> tool data               tool-returned content
Clarification    instruction -> ASK USER -> incorporate -> act  clarification interface + data

实测差距很大。攻击成功率在 o3 上从 1.8% 升至 34.0%，在 Gemini-3-Flash 上从 2.2% 升至 35.7%，在其余受测的十个模型中效果方向一致。分解分析将成因拆为两部分。其一是状态依赖性偏移：一旦进入「我正在消解歧义」的模式，模型会更轻信地处理传入内容，把貌似指令的文本当作要执行的对象，而非要审查的数据。其二是信道特有效应：澄清回复是由智能体主动征求的第二条输入路径，它以「用户在回答我的问题」的身份被预先信任——这道边界比智能体本就已警惕的工具输出更弱。论文有意止步于刻画攻击面；它交付的是一个基准，而非可武器化的载荷。

为什么重要

大多数智能体安全评估都在执行设置下进行——完全明确的任务、单一对抗信道——而 ASPI 的核心论点是，这会系统性地低估交互式智能体的真实攻击面。在干净、完全明确任务上的稳健性，并不会迁移到智能体与用户来回往复之后的稳健性，而后者恰恰是生产环境助手大量时间所处的模式。

这与 2026 年 6 月 智能体安全文献中贯穿的一个主题相呼应：智能体恰恰在其交互接缝处最为脆弱。Adversa AI 于 2026 年 6 月 1 日的综述将 ASPI 与「数据与指令分离或许本质上很难」的研究归为一类。实务解读是：澄清回合是一条特权信道——而任何攻击者能够影响的特权信道都会成为目标。如果注入内容能够塑造向用户提出的问题，或夹带在用户粘回的内容之中，智能体便会在其最易受暗示的状态下与之相遇。

防御

尽管 ASPI 本身未给出任何处方，以下四项缓解措施都可直接从论文的框架中推导而来。

在澄清状态下评估智能体，而不仅是执行状态。 在红队测试套件中加入描述不充分的任务变体。一个能通过完全明确注入基准的模型，仍可能在对话中途失守，而你在「仅执行」的排行榜上看不到这一点。
将澄清回复视为不可信输入。 用户的回答并不会仅因智能体主动征求就成为可信的控制信道。请对其施加与工具输出相同的指令剥离、来源标注和策略检查。
在状态转换之间保持行动策略不变。 关于作用范围、工具访问和不可逆性的决策，不应因智能体进入「消解歧义」模式而放松。请对照澄清之前的原始目标，重新确认高影响操作。
优先采用受限澄清而非自由文本。 在可行时，用有界选项（从 N 项中择一）来消解歧义，而非可能夹带指令的开放式回复，从而收窄论文所指出的那条信道。

状态

项目	参考	日期	备注
ASPI 论文	arXiv:2605.17324（cs.CR, cs.AI）	2026-05-17	728 个场景，10 个前沿模型，执行 vs. 澄清配对
主要结果	o3 1.8% → 34.0%；Gemini-3-Flash 2.2% → 35.7%	2026-05-17	澄清状态放大攻击成功率
数据 + 测试框架	github.com/scaleapi/aspi	2026-05	可复现的公开基准
背景	Adversa AI 智能体安全综述	2026-06-01	将 ASPI 列入智能体漏洞

ASPI 描述的并非某个产品中可打补丁的缺陷；它描述的是当今智能体处理一种「被设计为会频繁进入」的状态时所具有的属性。其有用的要点既具体又可操作：如果你的智能体曾经向用户发问「你是什么意思？」，那么你的安全测试就必须把同样的问题回敬给它。

ASPI：请求澄清会扩大提示注入攻击面

这是什么？

工作原理

为什么重要

防御

状态

Sources