DEFENSE MEDIUM NEW

AgentDyn : pourquoi les défenses anti-injection brillantes sur benchmark échouent en conditions réelles

AgentDyn, un benchmark ICML de février 2026, teste dix défenses anti-injection de premier plan sur des tâches d'agent dynamiques et ouvertes. Presque toutes sont soit non sûres, soit surdéfensives au point d'être inutilisables.

2026-06-12 // 7 min affects: gpt-4o, gpt-5.1, gemini-2.5-pro, llama-3.3-70b, qwen3-235b

De quoi s’agit-il ?

AgentDyn est un benchmark d’injection de prompt pour les agents LLM outillés, publié sur arXiv en février 2026 (2602.03117, auteurs Hao Li, Ruoyao Wen, Shanghao Shi, Ning Zhang et Chaowei Xiao ; code sur github.com/leolee99/AgentDyn). Son constat est dérangeant : sur dix défenses de pointe qui affichent des scores quasi parfaits sur le benchmark statique populaire AgentDojo, presque aucune n’est déployable dès que les tâches deviennent dynamiques et ouvertes. Soit elles restent non sûres, soit elles « défendent » en détruisant l’utilité de l’agent.

L’article est une critique méthodologique, pas un exploit. Il importe parce que les défenseurs citent de plus en plus les chiffres d’ASR (taux de succès d’attaque) des classements — souvent proches de zéro — comme preuve que l’injection de prompt est maîtrisée. AgentDyn soutient que ces chiffres sont un artefact de la construction du benchmark. C’est un écho à un thème plus large de 2026 ; voir notre note sur la difficulté d’évaluer les agents.

Comment ça marche

AgentDyn identifie trois failles structurelles des benchmarks statiques actuels et construit contre elles. D’abord, l’absence de tâches dynamiques et ouvertes : dans AgentDojo, seules 6 tâches sur 97 exigent une replanification, si bien qu’un agent peut planifier toute sa séquence d’actions à l’avance. Une défense peut alors paraître sûre en s’en tenant simplement à ce plan initial — un raccourci qui cède dès qu’une tâche impose de s’adapter en cours d’exécution. Ensuite, l’absence d’instructions utiles : le contenu tiers réel regorge d’instructions bénignes et utiles (« veuillez d’abord vous connecter » sur une page de paiement), et le caractère malveillant d’une instruction dépend du contexte. Une défense qui ignore toutes les instructions externes obtient de bons scores sur un benchmark qui n’en contient aucune — et s’effondre dans la réalité. Enfin, des tâches utilisateur trop simples : les benchmarks antérieurs comptent en moyenne 1 à 3 étapes, 1 à 2 applications et moins de 20 outils.

AgentDyn répond avec 60 tâches ouvertes et 560 cas de test d’injection sur Shopping, GitHub et Daily Life, avec une moyenne de 7,1 étapes et 3,17 scénarios applicatifs par tâche, toutes exigeant une planification dynamique avec des instructions bénignes intercalées. Construit sur le framework AgentDojo, il a été évalué sur huit agents (GPT-4o, GPT-5.1, Gemini-2.5-Pro/Flash, Llama-3.3-70B, Qwen3-235B et d’autres) et quatre familles de défenses.

Pourquoi c’est important

Les résultats révèlent un trilemme de la défense, pas un problème de réglage (un thème traité dans le trilemme des wrappers anti-injection). Sur GPT-4o :

Les défenses par prompt (Prompt Sandwiching, Spotlighting) préservent l’utilité mais ne réduisent guère l’ASR par rapport à l’absence de défense (~27–31 %).
Le filtrage (ProtectAI, PIGuard) ne distingue pas les instructions utiles des injections et fait chuter l’utilité à presque zéro ; PromptGuard2 maintient l’utilité jusqu’à l’apparition d’une attaque, puis jette toute la sortie de l’outil et laisse encore 27,15 % d’ASR.
Les conceptions au niveau système qui imposent un plan figé, comme CaMeL, atteignent 0 % d’ASR mais aussi 0 % d’utilité sur les tâches pleinement ouvertes. Les défenses dépendantes du plan (Tool Filter, Progent, DRIFT) subissent une lourde perte d’utilité à mesure que les jeux d’outils grandissent.
Le seul résultat relativement équilibré est l’alignement (Meta SecAlign 70B), qui améliore l’utilité tout en réduisant l’ASR — mais laisse encore un résidu d’environ 9 %.

La leçon pour quiconque déploie des agents : une défense annoncée à un ASR quasi nul peut avoir payé ce chiffre par une surdéfense que vous ressentirez sous forme de workflows cassés, ou par un benchmark qui n’a jamais testé de tâches adaptatives multi-étapes. La même prudence vaut pour la lecture d’un point de fonctionnement isolé — voir benchmarks de détecteurs et points de fonctionnement.

Défenses

AgentDyn est lui-même un outil défensif. Enseignements concrets :

Re-testez les défenses sur des tâches dynamiques et longues. Traitez un ASR quasi nul de type AgentDojo comme nécessaire, pas suffisant. Utilisez AgentDyn ou des suites ouvertes comparables avant de croire une annonce d’éditeur.
Mesurez l’utilité sous défense, pas seulement l’ASR. Un contrôle qui annule les attaques en divisant par deux l’achèvement des tâches n’est pas une victoire ; reportez les deux chiffres ensemble.
Préférez les contrôles adaptatifs aux contrôles à plan figé. L’imposition d’un plan statique est fragile sur le travail ouvert. Le contrôle d’accès dynamique par tâche se dégrade plus gracieusement — voir l’autorisation d’outils par tâche.
Gardez la défense en profondeur. Associez des vérifications légères à l’exécution avec un entraînement à la hiérarchie d’instructions et un cloisonnement au moindre privilège plutôt que de tout miser sur un seul filtre.
Limitez le rayon d’impact. Même un ASR résiduel de ~9 % est inacceptable pour des outils à fort impact ; placez les actions sensibles derrière une revue humaine et limitez le trio létal données privées, contenu non fiable et voies d’exfiltration.

État des lieux

Famille de défense	Exemple	Utilité GPT-4o (sans attaque)	ASR	Mode d’échec
Aucune	Vanilla	53,3 %	37,8 %	référence
Prompt	Spotlighting	55,0 %	27,6 %	sécurité faible
Filtrage	PromptGuard2	60,0 %	27,2 %	jette la sortie d’outil sous attaque
Filtrage	ProtectAI	~0 %	~1 %	surdéfense sévère
Niveau système	CaMeL	0 %	0 %	utilité nulle sur tâches ouvertes
Alignement	Meta SecAlign 70B	améliorée	~9 %	meilleur équilibre, risque résiduel

Les auteurs soulignent qu’AgentDyn n’est « qu’un petit benchmark ouvert », et pourtant toutes les défenses testées y peinent — l’écart avec le déploiement réel est plus grand encore. Des travaux récents convergent vers le même avertissement : des chiffres de classement propres peuvent induire en erreur (Adversa AI, juin 2026 ; « mesurer la sécurité sans se leurrer », mai 2026). La posture défensive qui en découle n’est pas « choisir la défense au plus faible ASR » mais « la vérifier sur des tâches qui ressemblent aux vôtres, et conserver les couches dont vous auriez besoin si elle échoue ».

Cet article résume des recherches publiées à des fins défensives et éducatives. Il ne contient aucun payload d’attaque opérationnel.