系统:运行中
← 返回所有攻击
PROMPT INJECTION MEDIUM NEW

ASPI:请求澄清会扩大提示注入攻击面

2026 年 5 月 17 日的一篇 arXiv 基准研究显示,当智能体暂停向用户请求澄清时,提示注入的成功率会从不到 2% 升至超过 34%(o3 与 Gemini-3-Flash)。

2026-06-03 // 6 min affects: o3, gemini-3-flash, llm-agents

这是什么?

2026 年 5 月 17 日,Scale AI 的一个团队(Udari Madhushani Sehwag、Zhengyang Shan、Heming Liu、Dileepa Lakshan、Joseph Brandifino 与 Max Fenkell)在 arXiv 上发表了 ASPI: Seeking Ambiguity Clarification Amplifies Prompt Injection Vulnerability in LLM Agents2605.17324,cs.CR)。这一结论令人不安,因为它指向了一种整个行业都视为良好实践的行为:面对描述不充分的任务,设计良好的智能体应当先停下来询问用户的真实意图,再去执行。

ASPI——Ambiguous-State Prompt Injection(模糊状态提示注入)——是一个包含 728 个任务-攻击场景 的基准,它将「请求澄清」单独隔离为一种智能体状态,并衡量进入该状态是否改变了智能体被劫持的难易程度。在 十个前沿模型 上的答案是肯定的,而且差距明显。数据与测试框架已在 github.com/scaleapi/aspi 公开。

工作原理

该基准在两种配对设置下比较同一场景。在执行设置中,智能体收到完全明确的指令,仅通过工具返回的数据间接接触到对抗性内容。在澄清设置中,指令描述不充分:智能体必须先向用户提出问题,并将回复纳入其计划,然后才行动。其余一切保持不变——相同的任务、相同的注入内容、相同的工具——因此成功率上的任何差异都可归因于状态转换本身。

Setting          Agent flow                                    Adversarial entry point
---------------  --------------------------------------------  -----------------------------
Execution        instruction -> act -> tool data               tool-returned content
Clarification    instruction -> ASK USER -> incorporate -> act  clarification interface + data

实测差距很大。攻击成功率在 o3 上从 1.8% 升至 34.0%,在 Gemini-3-Flash 上从 2.2% 升至 35.7%,在其余受测的十个模型中效果方向一致。分解分析将成因拆为两部分。其一是状态依赖性偏移:一旦进入「我正在消解歧义」的模式,模型会更轻信地处理传入内容,把貌似指令的文本当作要执行的对象,而非要审查的数据。其二是信道特有效应:澄清回复是由智能体主动征求的第二条输入路径,它以「用户在回答我的问题」的身份被预先信任——这道边界比智能体本就已警惕的工具输出更弱。论文有意止步于刻画攻击面;它交付的是一个基准,而非可武器化的载荷。

为什么重要

大多数智能体安全评估都在执行设置下进行——完全明确的任务、单一对抗信道——而 ASPI 的核心论点是,这会系统性地低估交互式智能体的真实攻击面。在干净、完全明确任务上的稳健性,并不会迁移到智能体与用户来回往复之后的稳健性,而后者恰恰是生产环境助手大量时间所处的模式。

这与 2026 年 6 月 智能体安全文献中贯穿的一个主题相呼应:智能体恰恰在其交互接缝处最为脆弱。Adversa AI 于 2026 年 6 月 1 日的综述 将 ASPI 与「数据与指令分离或许本质上很难」的研究归为一类。实务解读是:澄清回合是一条特权信道——而任何攻击者能够影响的特权信道都会成为目标。如果注入内容能够塑造向用户提出的问题,或夹带在用户粘回的内容之中,智能体便会在其最易受暗示的状态下与之相遇。

防御

尽管 ASPI 本身未给出任何处方,以下四项缓解措施都可直接从论文的框架中推导而来。

  1. 在澄清状态下评估智能体,而不仅是执行状态。 在红队测试套件中加入描述不充分的任务变体。一个能通过完全明确注入基准的模型,仍可能在对话中途失守,而你在「仅执行」的排行榜上看不到这一点。
  2. 将澄清回复视为不可信输入。 用户的回答并不会仅因智能体主动征求就成为可信的控制信道。请对其施加与工具输出相同的指令剥离、来源标注和策略检查。
  3. 在状态转换之间保持行动策略不变。 关于作用范围、工具访问和不可逆性的决策,不应因智能体进入「消解歧义」模式而放松。请对照澄清之前的原始目标,重新确认高影响操作。
  4. 优先采用受限澄清而非自由文本。 在可行时,用有界选项(从 N 项中择一)来消解歧义,而非可能夹带指令的开放式回复,从而收窄论文所指出的那条信道。

状态

项目参考日期备注
ASPI 论文arXiv:2605.17324(cs.CR, cs.AI)2026-05-17728 个场景,10 个前沿模型,执行 vs. 澄清配对
主要结果o3 1.8% → 34.0%;Gemini-3-Flash 2.2% → 35.7%2026-05-17澄清状态放大攻击成功率
数据 + 测试框架github.com/scaleapi/aspi2026-05可复现的公开基准
背景Adversa AI 智能体安全综述2026-06-01将 ASPI 列入智能体漏洞

ASPI 描述的并非某个产品中可打补丁的缺陷;它描述的是当今智能体处理一种「被设计为会频繁进入」的状态时所具有的属性。其有用的要点既具体又可操作:如果你的智能体曾经向用户发问「你是什么意思?」,那么你的安全测试就必须把同样的问题回敬给它。

Sources