INDIRECT INJECTION MEDIUM NEW

IPI Arena : 272 000 attaques, aucun modèle d'agent épargné

L'Indirect Prompt Injection Arena de Gray Swan, jugée avec l'UK AISI et l'US CAISI, a lancé plus de 272 000 attaques contre 13 modèles de pointe. Tous ont été détournés — et un seul gabarit universel en a cassé neuf.

2026-06-02 // 7 min affects: claude-opus-4.5, claude-sonnet-4.5, claude-haiku-4.5, gemini-2.5-pro, gemini-3-pro, qwen-3-vl-235b

What is this?

En mars 2026, Gray Swan AI a publié les résultats de son Indirect Prompt Injection (IPI) Arena — la plus grande compétition publique de détournement d’agents menée à ce jour — dans un article, “How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition” (arXiv 2603.15714, 16 mars 2026). La compétition a été conçue avec l’UK AI Security Institute (UK AISI), l’US Center for AI Standards and Innovation (US CAISI) et des laboratoires de pointe dont OpenAI, Anthropic et Meta. La partie américaine a résumé ses enseignements dans un billet de recherche du CAISI le 23 mars 2026.

En trois semaines, 464 participants ont soumis plus de 272 000 tentatives d’attaque contre 13 modèles de pointe sur 41 scénarios agentiques, pour une dotation de 40 000 dollars. Les red teamers ont réussi 8 648 attaques. Le constat principal est sans appel : sur chacun des modèles testés, au moins une attaque a abouti. Aucun modèle n’a été épargné.

How it works

L’injection de prompt indirecte n’est pas un jailbreak. L’utilisateur ne fait rien de répréhensible. L’attaquant dissimule des instructions dans un contenu que l’agent lira ensuite — un e-mail, une page web, un document, un dépôt de code — et l’agent exécute ces instructions tout en renvoyant à l’utilisateur une réponse d’apparence ordinaire.

Le choix de conception distinctif de l’Arena était une double condition de succès : une attaque ne comptait que si l’agent (1) effectuait l’action malveillante et (2) la dissimulait à l’utilisateur. La plupart des travaux antérieurs sur l’IPI ne mesuraient que la première moitié. Exiger la dissimulation est ce qui rend les résultats opérationnellement pertinents — les attaques qui comptent sont celles qu’un utilisateur ne remarquerait jamais.

Les scénarios couvraient des agents à outils (assistants e-mail, bots d’achat, contrôleurs domotiques), des agents de code et des agents à usage d’ordinateur. Deux constats structurels ressortent :

Finding                     What the data showed
--------------------------  ----------------------------------------------------
A universal template        One injection pattern worked across 21 of 41
                            scenarios and 9 models with minimal modification.
                            It frames the session as a simulated environment
                            with a fake "control panel," tricking the model into
                            treating injected text as system-level commands.

Transfer asymmetry          2,679 winning attacks were re-run against all 13
                            models. Attacks that broke the *most robust* model
                            (Claude Opus 4.5) transferred to the others at a
                            44-81% rate. Attacks that broke weaker models
                            barely transferred upward.

Aucun payload n’est reproduit ici. La description du gabarit universel ci-dessus est le mécanisme conceptuel déjà publié par Gray Swan ; le kit d’évaluation exécutable est en open source sur GraySwanAI/ipi_arena_os, à disposition des défenseurs pour tester leurs propres systèmes.

Why it matters

Trois résultats devraient changer votre façon de raisonner sur le risque agentique.

Premièrement, le taux de succès des attaques n’a pas atteint de plateau. Les modèles ont continué d’être cassés à un rythme à peu près constant pendant les trois semaines. Plus l’effort des attaquants augmentait, plus il y avait de brèches — il n’existe pas de point observé où un modèle devient « épuisé » par les attaques. Un taux de succès de 0,5 % semble tolérable jusqu’à ce qu’on se rappelle qu’un agent déployé peut traiter des milliers d’entrées non fiables par jour ; à cette échelle, c’est une surface exploitable et persistante.

Deuxièmement, capacité et robustesse ne sont que faiblement corrélées. Gemini 2.5 Pro figurait parmi les modèles les plus capables testés et était aussi le plus vulnérable (8,5 % d’ASR), tandis que Claude Opus 4.5 était le plus robuste (0,5 %). La famille de modèle et la recette d’entraînement prédisaient la robustesse bien mieux que les scores de benchmark. La robustesse s’améliorait au sein d’une famille — Claude Haiku 4.5 (1,3 %) → Sonnet 4.5 (1,0 %) → Opus 4.5 (0,5 %), et Gemini 3 Pro nettement au-dessus de 2.5 Pro — mais on ne peut pas lire la sécurité sur un classement de capacité.

Troisièmement, l’asymétrie de transfert inverse l’intuition habituelle. Les astuces bon marché qui battent les modèles faibles ne montent pas en échelle ; les exploits qui battent le modèle le plus solide redescendent vers tous les autres. Un attaquant qui investit pour casser la cible la plus difficile obtient probablement le reste gratuitement.

Defenses

La conclusion même de l’article est que l’entraînement à la robustesse au niveau du modèle est nécessaire mais pas suffisant — il faut des défenses au niveau du système et de l’architecture. Concrètement :

Isolez les entrées non fiables du flux de contrôle. Traitez tout contenu qu’un agent ingère (e-mails, pages web, documents, dépôts, sorties d’outils) comme des données, jamais comme des instructions. Les schémas architecturaux qui contraignent ce qu’un agent peut faire indépendamment de ce qu’il lit — limitation des capacités, actions sur liste blanche, validation humaine sur les étapes à fort impact — répondent au mode de défaillance documenté par l’Arena. C’est la leçon derrière la triade létale et la règle de deux des agents.
Ne choisissez pas un modèle sur la seule capacité. Si vous choisissez un modèle pour un déploiement agentique, pondérez les données publiées de robustesse au détournement avec la capacité. Des benchmarks comparatifs comme celui-ci existent précisément pour que les déployeurs voient le profil de risque de chaque option.
Testez la dissimulation, pas seulement le succès. Votre red team et votre supervision doivent signaler le cas où un agent effectue une action et où le résumé présenté à l’utilisateur l’omet. Journaliser la trace complète des actions indépendamment de la sortie en langage naturel du modèle est le contrôle qui fait apparaître les attaques qui comptent.
Exécutez le benchmark ouvert contre votre propre pile. Le kit d’évaluation (scénarios, système de jugement, échantillon d’attaques) vous permet de tester votre configuration d’agent spécifique et toute défense que vous y ajoutez, plutôt que de vous fier au chiffre affiché par un fournisseur.
Présumez des attaques universelles et transférables. Comme un seul gabarit a cassé neuf modèles et que les exploits sur modèle fort se transfèrent vers le bas, les défenses liées aux particularités d’un seul modèle ne tiendront pas. Construisez les défenses à la couche d’orchestration, capables de survivre à un changement de modèle.
Anticipez le rafraîchissement du benchmark. Gray Swan indique que le benchmark sera mis à jour chaque trimestre avec de nouveaux scénarios et modèles. Traitez la posture de sécurité agentique comme une cible mouvante et réévaluez-la à chaque montée de version de modèle, pas une seule fois au lancement.

Status

Item	Reference	Date	Notes
Article IPI Arena (arXiv 2603.15714)	arXiv	2026-03-16	13 modèles, 464 participants, 272k+ tentatives, 8 648 réussies
Analyse Gray Swan	Gray Swan AI	2026-03-18	ASR 0,5 % (Claude Opus 4.5) → 8,5 % (Gemini 2.5 Pro)
Billet de recherche CAISI	NIST	2026-03-23	Synthèse du gouvernement américain ; jeu de données complet partagé avec UK AISI & US CAISI
Kit d’évaluation	GitHub (GraySwanAI/ipi_arena_os)	2026-03	Scénarios + juge open source ; 95 attaques Qwen-3-VL-235B publiées
Cadence prévue	Gray Swan AI	trimestrielle	Compétitions récurrentes avec nouveaux scénarios et derniers modèles

La bonne lecture n’est pas « les agents IA sont cassés ». C’est « l’injection de prompt indirecte est une propriété structurelle et non résolue des modèles actuels de suivi d’instructions, elle ne plafonne pas sous la pression des attaquants, et les seules défenses durables se situent au-dessus du modèle. » Si votre architecture suppose que le modèle résistera aux instructions injectées, les données de l’Arena disent qu’il n’en fera rien.