PROMPT INJECTION MEDIUM NEW

L'injection de prompt automatisée dépend du modèle : TAP devance GCG, GPT-5 résiste

Une étude de l'ETH Zurich du 9 juin 2026 adapte GCG et TAP à AgentDojo sur 80 paires de tâches d'agent. Le TAP en boîte noire bat le GCG par gradient, mais les attaques calibrées sur de petits modèles ne se transfèrent pas à GPT-5.

2026-06-25 // 6 min affects: qwen3-4b, gemma3-4b, gpt-5, gpt-5-mini, claude-sonnet-4.5, gemini-2.5-flash, qwen3-235b

De quoi s’agit-il ?

Le 9 juin 2026, trois chercheurs de l’ETH Zurich — David Hofer, Edoardo Debenedetti et Florian Tramèr — ont publié Assessing Automated Prompt Injection Attacks in Agentic Environments (arXiv:2606.10525). C’est la première mesure systématique de la question suivante : les méthodes d’attaque automatisées qui fonctionnent pour le jailbreak fonctionnent-elles aussi pour l’injection de prompt indirecte (IPI) contre des agents outillés ? La réponse courte : oui, mais de façon inégale. Contre de petits modèles à poids ouverts, les taux de réussite sont réels ; contre un modèle de pointe (GPT-5), ils s’effondrent, et les attaques optimisées sur de petits modèles ne se transfèrent pas vers le haut. L’injection automatisée est une menace crédible — mais fortement dépendante du modèle.

Comment ça marche

L’équipe a adapté deux optimiseurs de jailbreak connus au contexte agentique, à l’intérieur d’AgentDojo, le banc d’essai de référence pour les agents agissant sur des données non fiables. La méthode en boîte blanche est GCG, qui exploite les gradients pour chercher une chaîne de tokens adverse ; la méthode en boîte noire est TAP, qui utilise un LLM attaquant pour réécrire itérativement une injection et élaguer les impasses. Aucun payload n’est reproduit ici — la contribution est la mesure, pas une recette.

L’évaluation couvre 80 paires de tâches sur quatre domaines (workspace, banque, voyage, slack). Les chiffres marquants, sur la petite cible Qwen3-4B :

Method (Qwen3-4B target)      Attack Success Rate
----------------------------  -------------------
Universal TAP (black-box)     45.2%
Single-task TAP               44.6%
Universal GCG (white-box)     24.1%
Single-task GCG               23.0%

Deux constats structurels ressortent. D’abord, la boîte noire bat la boîte blanche : TAP double à peu près le succès de GCG, ce que les auteurs attribuent à l’instabilité d’optimisation de GCG sous un budget de calcul réaliste. Ensuite, la force de l’attaque dépend du modèle attaquant — un LLM attaquant plus puissant et moins aligné sur la sûreté produit de meilleures injections, tandis qu’un attaquant aligné refuse parfois purement et simplement de les générer.

Pourquoi c’est important

Le résultat intéressant est le plafond, pas le plancher. Sur GPT-5, les meilleures attaques n’atteignent qu’environ 4,5–4,7 % d’ASR, et les chaînes GCG transférées depuis Qwen3-4B tombent sous 1 %. Des injections universelles qui se généralisent à des domaines de tâches non vus sur le petit modèle chutent à 0 % sur le domaine non vu de GPT-5. Autrement dit, la voie économique — optimiser une injection contre un modèle ouvert que l’on contrôle, puis la tirer sur un déploiement de pointe — ne fonctionne aujourd’hui largement pas.

C’est une bonne nouvelle à date de péremption. Elle dit que l’injection « presse-bouton » et indépendante du modèle n’est pas encore là ; elle ne dit pas que les agents sont sûrs. Les tâches de type Slack étaient la surface la plus vulnérable (environ 67 % d’ASR sur le petit modèle), et même une simple instruction sans optimisation y atteignait ~25 %. Quiconque exploite des modèles à poids ouverts ou de petite taille dans une boucle d’agent sur du contenu non fiable se situe pleinement dans la plage exploitable que mesure l’étude.

Défenses

Le constat propre à l’étude — robustesse des modèles de pointe et faible transfert inter-modèles — incite à choisir le modèle avec soin pour les agents qui lisent des données non fiables, et non à relâcher la garde. Les mitigations durables sont architecturales et antérieures à ce travail :

Traiter la sortie d’outil comme une donnée, jamais comme une instruction. Gardez le contenu récupéré hors du canal d’instructions privilégié ; AgentDojo existe précisément pour tester les défenses fondées sur cette séparation.
Autoriser l’action, pas le texte. Conditionnez chaque appel d’outil à conséquence (envoyer, payer, partager, supprimer) à l’intention initiale de l’utilisateur, avec confirmation humaine pour les opérations irréversibles.
Limiter le rayon d’impact. Périmètres d’outils au moindre privilège, destinataires sur liste blanche et limites de dépense/portée par session transforment une injection réussie en injection contenue.
Surveiller d’abord les surfaces à haut risque. Les outils de messagerie et de courriel ont montré la plus forte susceptibilité — priorisez-y la surveillance et les garde-fous.
Re-tester sous optimisation, pas seulement avec des prompts statiques. Une défense qui survit à une injection écrite à la main peut tomber face à une attaque adaptative pilotée par un LLM ; évaluez avec du red-teaming automatisé.

Statut

Élément	Détail
Publication	arXiv:2606.10525 v1, 9 juin 2026
Auteurs	Hofer, Debenedetti, Tramèr (ETH Zurich)
Cadre	AgentDojo (étendu pour l’accès en boîte blanche)
Modèle le plus robuste testé	GPT-5 (~5 % d’ASR ; GCG transféré < 1 %)
Surface la plus vulnérable	Tâches de messagerie type Slack (~67 % d’ASR sur Qwen3-4B)
Nature	Étude de mesure défensive — aucun exploit publié