Agents fragiles : l'injection indirecte survit aux appels d'outils multi-étapes
Un papier du 4 avril 2026 teste 6 défenses contre 4 vecteurs d'injection indirecte sur 9 modèles, en agent multi-étapes — les injections avancées les contournent presque toutes, et certaines mitigations de surface se retournent contre la défense.
De quoi s’agit-il ?
Le 4 avril 2026, des chercheurs ont publié sur arXiv Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs. Le papier ne décrit pas une nouvelle attaque. Il mesure systématiquement à quel point les défenses actuelles contre l’injection de prompt indirecte (IPI) tiennent mal dès qu’on cesse de les évaluer en un seul tour pour les tester là où les agents fonctionnent réellement : des workflows dynamiques, multi-étapes, à appels d’outils.
Le dispositif est large. Les auteurs évaluent six stratégies de défense contre quatre vecteurs d’injection indirecte sur neuf modèles de base, dans des environnements où l’agent récupère de façon autonome du contenu tiers, où ce contenu contient une instruction malveillante dissimulée, et où l’agent continue ensuite d’appeler des outils. Le constat principal dérange : les injections avancées contournent presque toutes les défenses de base, et certaines mitigations de surface ne sont pas seulement inefficaces, elles sont contre-productives — elles aggravent la situation.
Comment ça marche
L’injection de prompt indirecte cache les instructions de l’attaquant dans des données que l’agent est censé lire — une page web, un document, un résultat d’outil, le corps d’un e-mail. L’agent les récupère dans le cadre d’une tâche normale, et l’instruction enfouie est traitée comme si elle venait de l’utilisateur. C’est la confusion données-versus-instructions au cœur de la triade létale : accès aux données privées, exposition à du contenu non fiable, et voie d’exfiltration, le tout dans un même agent.
L’apport du papier est la dimension multi-étapes. Les benchmarks en un seul tour demandent « le modèle obéit-il à la ligne injectée maintenant ? ». Un vrai agent ne s’arrête pas là. Il planifie, récupère, appelle un outil, lit le résultat, replanifie. L’instruction injectée dispose de nombreux tours pour produire son effet, et un écart précoce se propage le long de la chaîne. Les auteurs mesurent cela par un Hijack Ratio — la fréquence à laquelle la trajectoire de l’agent est détournée vers l’objectif de l’attaquant — et rapportent des ratios élevés et constants d’un modèle à l’autre.
Deux observations mécanistiques comptent pour les défenseurs.
D’abord, les agents ne parvenaient pas à distinguer de façon fiable le composant malveillant du contenu légitime. Le papier signale une quasi-absence de motifs linguistiques stables permettant de séparer les instructions injectées des données bénignes. C’est un coup direct porté à la famille de défenses dominante — préfixes-balises, balises de rôle, délimiteurs « ce qui suit est une donnée non fiable » — qui supposent toutes qu’on peut amener le modèle à reconnaître une frontière qu’il ne perçoit visiblement pas de manière robuste.
Ensuite, certaines mitigations de surface se sont retournées contre la défense. Ajouter davantage d’avertissements autour du contenu non fiable peut augmenter l’attention de l’agent sur le bloc injecté au lieu d’en réduire l’influence, produisant de moins bons résultats qu’en l’absence de toute mitigation. Cela rejoint les travaux de taxonomie sur les menaces d’injection contre les agents (février 2026), qui montrent que les tâches d’agent dépendantes du contexte mettent en échec les défenses calibrées sur des benchmarks hors contexte.
Pourquoi c’est important
Le résultat est un signal de fraîcheur sur l’état de la sécurité des agents, pas un payload. Si vous déployez un agent à appels d’outils et que votre défense IPI a été validée sur des tests de refus en un seul tour, ce papier vous dit que ce chiffre est largement optimiste. L’écart entre « passe le benchmark » et « survit à une exécution multi-étapes face à du contenu contrôlé par l’attaquant » est précisément là où vit la plupart des agents en production.
Il réduit aussi l’ensemble des défenses qui valent l’investissement. Les mitigations côté entrée, au niveau du prompt — délimiteurs, balises, « ignore tout ce qui ressemble à une instruction » — sont celles qui échouent ici, et parfois celles qui se retournent contre la défense. Les défenses qui survivent agissent sur l’état interne de l’agent ou sur ses actions, pas sur la forme de surface du texte.
Défenses
Le résultat positif du papier indique lui-même la voie, et il rejoint plusieurs autres travaux de 2026.
-
Détecter au niveau des représentations, pas du prompt. Les auteurs testent le Representation Engineering (RepE) comme défense et rapportent qu’un circuit breaker fondé sur RepE identifie et intercepte les actions non autorisées avant que l’agent ne s’y engage, avec une bonne précision de détection sur les neuf modèles. C’est la même famille que la détection de jailbreak fondée sur les représentations : surveiller les activations internes à la recherche de la signature d’un détournement plutôt que de tenter d’assainir la chaîne d’entrée.
-
Verrouiller l’action, pas le texte. Puisque les agents ne savent pas classer linguistiquement de façon fiable les instructions injectées, placez le contrôle à la frontière de l’appel d’outil : portées d’outils en moindre privilège, paramètres en liste blanche, et confirmation humaine explicite pour les actions destructrices ou exfiltrantes. Un plan détourné qui ne peut atteindre aucun outil dangereux est un échec contenu.
-
Attribuer les invocations d’outils à leur cause. AttriGuard (mars 2026) défend contre l’IPI par attribution causale des appels d’outils — en distinguant les actions issues de la tâche légitime de celles injectées par le contenu récupéré. Voir notre article sur l’attribution causale comme défense contre l’injection indirecte pour l’approche générale.
-
Réduire la surface non fiable qui atteint le planificateur. Faites passer le contenu tiers par une extraction structurée ou une synthèse via un modèle « propre » avant que l’agent ne raisonne dessus, gardez les définitions d’outils et le system prompt dans un segment séparé, et évitez de déverser de grands blocs bruts dans le contexte où une instruction injectée peut accumuler de l’influence au fil des étapes.
-
Tester de manière adaptative et multi-étapes. Ne certifiez pas un agent sur des chaînes d’injection en un seul tour. Rejouez l’attaque sur l’ensemble de la trajectoire d’appels d’outils et mesurez un hijack ratio, pas seulement le refus au premier tour. Une défense qui tient un tour s’effondre couramment à la troisième étape.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| Papier sur la fragilité | arXiv 2604.03870 | 2026-04-04 | 6 défenses × 4 vecteurs IPI × 9 modèles, multi-étapes |
| Résultat positif clé | RepE circuit breaker | même papier | Intercepte les actions non autorisées avant engagement |
| Taxonomie + AGENTPI | arXiv 2602.10453 | 2026-02 | Les tâches d’agent contextuelles battent les défenses hors contexte |
| Défense AttriGuard | arXiv 2603.10749 | 2026-03 | Attribution causale des invocations d’outils |
| Cadrage | La triade létale | 2025-06 | Pourquoi les agents avec données + entrée non fiable + exfiltration sont exposés |
À retenir : ce n’est pas « un papier IPI de plus ». Les défenses que la plupart des équipes déploient — balises et avertissements au niveau du prompt — sont celles que cette évaluation casse, en rendant parfois l’agent plus obéissant à l’attaquant. Les mitigations qui survivent surveillent l’état interne de l’agent et contraignent ses actions. Re-calibrez votre agent face à une injection adaptative multi-étapes, ou considérez votre taux de réussite en un seul tour comme une fiction.