PROMPT INJECTION MEDIUM NEW

ASPI : demander une clarification élargit la surface d'injection

Un benchmark arXiv du 17 mai 2026 montre que lorsqu'un agent s'interrompt pour demander une précision à l'utilisateur, le taux de réussite des injections passe de moins de 2 % à plus de 34 % sur o3 et Gemini-3-Flash.

2026-06-03 // 6 min affects: o3, gemini-3-flash, llm-agents

De quoi s’agit-il ?

Le 17 mai 2026, une équipe de Scale AI (Udari Madhushani Sehwag, Zhengyang Shan, Heming Liu, Dileepa Lakshan, Joseph Brandifino et Max Fenkell) a publié ASPI: Seeking Ambiguity Clarification Amplifies Prompt Injection Vulnerability in LLM Agents sur arXiv (2605.17324, cs.CR). Le résultat dérange parce qu’il met en cause un comportement que tout le secteur considère comme une bonne pratique : face à une tâche sous-spécifiée, un agent bien conçu doit s’arrêter et demander à l’utilisateur ce qu’il voulait dire avant d’agir.

ASPI — Ambiguous-State Prompt Injection — est un benchmark de 728 scénarios tâche-attaque qui isole l’état « demander une clarification » comme un état distinct de l’agent et mesure si l’entrée dans cet état change la facilité avec laquelle l’agent est détourné. La réponse, sur dix modèles de pointe, est oui, et nettement. Les données et le harnais sont publics sur github.com/scaleapi/aspi.

Comment ça marche

Le benchmark compare le même scénario dans deux configurations appariées. Dans la configuration d’exécution, l’agent reçoit une instruction entièrement spécifiée et ne rencontre du contenu adverse qu’indirectement, via les données renvoyées par un outil. Dans la configuration de clarification, l’instruction est sous-spécifiée : l’agent doit d’abord poser une question à l’utilisateur et réintégrer la réponse à son plan avant d’agir. Tout le reste est maintenu constant — même tâche, même contenu injecté, mêmes outils — de sorte que toute différence de réussite est attribuable à la transition d’état elle-même.

Setting          Agent flow                                    Adversarial entry point
---------------  --------------------------------------------  -----------------------------
Execution        instruction -> act -> tool data               tool-returned content
Clarification    instruction -> ASK USER -> incorporate -> act  clarification interface + data

L’écart mesuré est important. Le taux de réussite passe de 1,8 % à 34,0 % sur o3 et de 2,2 % à 35,7 % sur Gemini-3-Flash, avec le même sens d’effet sur le reste des dix modèles testés. Une analyse de décomposition scinde la cause en deux. Il y a un glissement dépendant de l’état : une fois en mode « je lève une ambiguïté », le modèle traite le contenu entrant avec plus de crédulité, considérant un texte ressemblant à des instructions comme quelque chose à exécuter plutôt qu’à examiner. Et il y a un effet propre au canal : la réponse de clarification est un second chemin d’entrée, sollicité par l’agent, qui arrive pré-validé comme « l’utilisateur répondant à ma question » — une frontière plus faible que la sortie d’outil dont l’agent se méfie déjà. Le papier s’arrête volontairement à la caractérisation de la surface ; il livre un benchmark, pas un payload armé.

Pourquoi c’est important

La plupart des évaluations de sécurité d’agents sont menées en configuration d’exécution — tâche entièrement spécifiée, canal adverse unique — et la thèse centrale d’ASPI est que cela sous-estime systématiquement la surface d’attaque réelle des agents interactifs. La robustesse sur une tâche propre et entièrement spécifiée ne se transfère pas à la robustesse une fois que l’agent engage un va-et-vient avec l’utilisateur, ce qui est précisément le mode dans lequel les assistants en production passent une grande partie de leur temps.

Cela rejoint un thème qui traverse la littérature de sécurité des agents de juin 2026 : les agents sont fragiles précisément au niveau de leurs coutures d’interaction. Le panorama d’Adversa AI du 1er juin 2026 classe ASPI aux côtés de travaux soutenant que la séparation données/instructions est peut-être fondamentalement difficile. La lecture pratique : les tours de clarification sont un canal privilégié — et tout canal privilégié qu’un attaquant peut influencer devient une cible. Si du contenu injecté peut façonner la question posée à l’utilisateur, ou se glisser dans ce que l’utilisateur recolle, l’agent le rencontre dans son état le plus suggestible.

Défenses

Quatre mesures découlent directement du cadrage du papier, même si ASPI n’en prescrit aucune.

Évaluez les agents en état de clarification, pas seulement en exécution. Ajoutez des variantes de tâches sous-spécifiées à votre suite de red team. Un modèle qui passe un benchmark d’injection entièrement spécifié peut échouer une fois en plein dialogue, et vous ne le verrez pas sur un classement « exécution seule ».
Traitez la réponse de clarification comme une entrée non fiable. La réponse de l’utilisateur n’est pas un canal de contrôle fiable du simple fait que l’agent l’a sollicitée. Soumettez-la au même nettoyage des instructions, au même marquage de provenance et aux mêmes contrôles de politique que la sortie d’outil.
Gardez la politique d’action fixe à travers les transitions d’état. Les décisions de portée, d’accès aux outils et d’irréversibilité ne doivent pas se relâcher parce que l’agent est passé en mode « levée d’ambiguïté ». Re-confirmez les actions à fort impact au regard de l’objectif initial, antérieur à la clarification.
Préférez une clarification contrainte au texte libre. Quand c’est possible, levez l’ambiguïté par des choix bornés (sélectionner l’un de N) plutôt que par une réponse ouverte susceptible de véhiculer des instructions, rétrécissant le canal identifié par le papier.

Statut

Élément	Référence	Date	Notes
Papier ASPI	arXiv:2605.17324 (cs.CR, cs.AI)	2026-05-17	728 scénarios, 10 modèles de pointe, exécution vs. clarification appariées
Résultat phare	o3 1,8 % → 34,0 % ; Gemini-3-Flash 2,2 % → 35,7 %	2026-05-17	L’état de clarification amplifie la réussite des attaques
Données + harnais	github.com/scaleapi/aspi	2026-05	Benchmark public reproductible
Contexte	Panorama sécurité agentique Adversa AI	2026-06-01	Classe ASPI parmi les vulnérabilités d’agents

ASPI ne décrit pas un bug corrigeable dans un produit ; il décrit une propriété de la façon dont les agents actuels gèrent un état qu’ils sont conçus pour adopter souvent. L’enseignement utile est étroit et actionnable : si votre agent demande un jour à un utilisateur « que vouliez-vous dire ? », vos tests de sécurité doivent lui retourner la même question.