PISmith : le red teaming par RL adaptatif casse encore les défenses anti-injection
Un papier de mars 2026 entraîne un modèle attaquant par apprentissage par renforcement pour éprouver les défenses anti-injection en boîte noire — et 8 défenses de pointe tombent, y compris sur AgentDojo et InjecAgent.
De quoi s’agit-il ?
PISmith est un cadre de red teaming par apprentissage par renforcement, publié sur arXiv (2603.13026) en mars 2026 par des chercheurs de The Pennsylvania State University. Son objectif est défensif : mesurer la robustesse réelle des défenses anti-injection lorsque l’attaquant est autorisé à s’adapter plutôt qu’à rejouer une liste figée de charges.
Le constat est sans détour. Sur 13 jeux d’évaluation et 8 défenses publiées — détecteurs par filtrage comme modèles durcis à l’entraînement — PISmith établit que « les défenses anti-injection de pointe restent vulnérables aux attaques adaptatives ». Le travail prolonge la conclusion centrale du papier d’octobre 2025 The Attacker Moves Second (Nasr, Carlini, Tramèr et al., arXiv:2510.09023), qui contournait 12 défenses avec des taux de succès supérieurs à 90 % alors que la plupart annonçaient au départ des taux quasi nuls. PISmith transforme cette démonstration ponctuelle en une boucle d’entraînement automatisée et réutilisable.
Comment ça marche
PISmith traite l’injection de prompt comme un problème d’apprentissage de politique. Un LLM attaquant est entraîné par apprentissage par renforcement on-policy pour générer des prompts injectés, en disposant uniquement d’un accès en boîte noire au système défendu : il peut interroger la cible et observer les sorties, rien de plus. Cela reflète un adversaire réaliste qui ne voit ni les poids du modèle ni les rouages internes de la défense.
L’apport du papier est de rendre cet entraînement réellement convergent. L’application de GRPO standard (l’optimisation de politique par groupe popularisée par DeepSeek) échoue face aux défenses fortes à cause de la rareté des récompenses : presque tous les prompts générés sont bloqués, les rares succès sont noyés et l’entropie de la politique s’effondre — elle cesse d’explorer avant de trouver une stratégie efficace. PISmith ajoute deux mécanismes pour y remédier :
- Régularisation d’entropie adaptative — un bonus d’entropie qui ne s’active que lorsque l’entropie passe sous un seuil, soutenant l’exploration sans dégénérer en texte aléatoire et incohérent.
- Pondération dynamique de l’avantage — amplifier la contribution au gradient des rares déroulés réussis proportionnellement à leur rareté, pour que ces succès ne soient pas dilués par la masse des échecs.
Aucune chaîne d’exploitation n’est reproduite ici, et c’est inutile pour comprendre la leçon : la méthode est une recette d’optimisation générale, pas une charge spécifique — et c’est précisément pourquoi les défenses statiques ne tiennent pas face à elle.
Pourquoi c’est important
Le papier met au jour une tension structurelle plutôt qu’un bug isolé : les défenses « ne parviennent pas à maintenir une bonne utilité sur les cas bénins tout en résistant aux attaques adaptatives ». Resserrez le filtre et les tâches légitimes cassent ; relâchez-le et l’attaquant adaptatif passe.
Cela concerne avant tout les agents. PISmith a aussi été évalué en contexte agentique sur InjecAgent et AgentDojo, avec succès contre des modèles open source comme propriétaires (le papier cite GPT-4o-mini et GPT-5-nano comme cibles). Ce sont exactement les configurations outillées, lectrices de documents, que livrent aujourd’hui les agents en production. Une défense bien notée sur un benchmark figé peut quand même tomber face à un attaquant entraîné spécifiquement contre elle — donc l’argument commercial d’un « taux de succès quasi nul » ne vaut rien s’il n’a pas été mesuré de façon adaptative.
L’enseignement pratique rejoint le consensus de 2026 : l’injection de prompt n’a pas encore de correctif fiable côté modèle, donc toute revendication de robustesse doit se mériter face à une évaluation forte et adaptative — pas face à des jeux de tests statiques.
Défenses
PISmith est lui-même un outil défensif — la bonne réponse est d’employer ce type d’évaluation, puis de contraindre l’architecture plutôt que de faire confiance au filtre.
- Évaluez de façon adaptative. Considérez tout « taux de succès quasi nul » mesuré uniquement contre des charges statiques comme non vérifié. Re-testez les défenses avec des attaquants adaptatifs guidés par l’optimisation (RL, recherche arborescente, ou humains) avant de vous y fier.
- Ne dépendez pas d’un seul filtre. Détecteurs par filtrage et modèles durcis à l’entraînement ont tous deux été cassés dans l’étude. Utilisez-les comme une couche, jamais comme la seule.
- Appliquez la Règle de Deux. Maintenez toute session d’agent sous deux des trois propriétés parmi {entrée non fiable, données/systèmes sensibles, changement d’état ou communication externe}. Cela borne le rayon d’impact même quand l’injection réussit.
- Mettez en quarantaine le contenu non fiable. Transmettez pages web, e-mails et sorties d’outils au modèle comme des données, pas comme des instructions faisant autorité ; nettoyez ou balisez le texte récupéré dans les pipelines RAG.
- Liez les capacités à l’appelant, avec des jetons à courte durée de vie, afin qu’un agent détourné ne puisse pas agir au-delà du périmètre de son utilisateur.
- Gardez un humain dans la boucle pour toute action irréversible ou visible de l’extérieur lorsque les trois propriétés risquées sont inévitables.
Statut
| Élément | Date | Statut |
|---|---|---|
| The Attacker Moves Second (arXiv:2510.09023) | 10 oct. 2025 | Public |
| PISmith (arXiv:2603.13026) | Mars 2026 | Public, code publié |
| Défenses testées (8) | — | Vulnérables aux attaques adaptatives |
| Benchmarks agentiques (InjecAgent, AgentDojo) | — | Contournés sur modèles open source et propriétaires |
PISmith n’introduit pas une nouvelle classe d’attaque — il opérationnalise le red teaming adaptatif comme un benchmark reproductible. Le message actionnable pour les défenseurs est le même que celui de The Attacker Moves Second, désormais plus difficile à ignorer : une défense ne vaut que ce que vaut le plus fort attaquant face auquel elle a été testée.