DEFENSE MEDIUM

Le filtrage de sortie bat l'auto-défense du modèle : 20 000 attaques adaptatives, un seul survivant

Posté le 26 avril et révisé le 12 mai 2026, un papier Swept AI / Michigan a opposé neuf défenses contre l'injection de prompt à un attaquant adaptatif. Toutes les défenses côté modèle ont fini par tomber. Seul le filtrage de sortie applicatif a tenu — zéro fuite sur 15 000 attaques.

2026-05-22 // 7 min affects: gpt-4, claude-3, gemini, open-source-llms, system-prompt-secrets

De quoi s’agit-il ?

Le 26 avril 2026, Priyal Deep et ses co-auteurs de Swept AI et de l’Université du Michigan ont publié Evaluation of Prompt Injection Defenses in Large Language Models sur arXiv (2604.23887). Le papier a été révisé le 12 mai 2026 (v2). La méthode est rude comme il faut : un attaquant adaptatif qui évolue sur des centaines de tours, testé contre neuf configurations défensives, dans plus de 20 000 attaques. Le résultat tombe sans ambiguïté : toute défense qui demande au modèle de se contrôler lui-même finit par céder. La seule configuration qui a tenu est le filtrage de sortie — des règles écrites en dur, hors du modèle, qui inspectent la réponse avant qu’elle n’atteigne l’utilisateur. Sur 15 000 attaques contre cette configuration, le nombre de fuites est resté à zéro.

Il ne s’agit pas d’un énième papier de jailbreak. Il s’agit d’une réponse systématique à la question que les équipes posent en boucle : parmi les défenses que nous déployons déjà, lesquelles survivent vraiment à un attaquant qui s’adapte ?

Comment ça fonctionne

Le modèle de menace suppose un utilisateur hostile, une application LLM qui détient un secret dans son system prompt (clé d’API, instruction interne, donnée client) et un défenseur libre d’empiler les mitigations standards. L’attaquant n’est pas un script à payload fixe. C’est lui-même une boucle pilotée par un LLM qui observe la réponse, ajuste sa stratégie et recommence. Le papier lance cette boucle sur des centaines de tours contre chaque défense et rapporte le taux de fuite cumulé.

Neuf configurations défensives ont été testées, regroupables en deux familles :

# Taxonomie conceptuelle — illustrative, pas un exploit.
# A. Défenses côté modèle (on demande au modèle de refuser)
#    1. System prompt brut avec "ne révèle pas le secret"
#    2. Spotlighting / délimiteurs autour de l'entrée non fiable
#    3. Prompts à hiérarchie d'instruction
#    4. Auto-réflexion : "Ta dernière sortie contenait-elle le secret ?"
#    5. Défenses par paraphrase / sandwich
#    6. Classifieur au niveau du prompt (le modèle juge si l'entrée est malveillante)
#    7. Combinaison côté modèle (plusieurs des précédentes)
#
# B. Défenses côté application (code hors du modèle)
#    8. Filtrage d'entrée via classifieur séparé
#    9. FILTRAGE DE SORTIE : regex / vérifications de chaînes écrites en dur
#       sur la réponse avant livraison — zéro fuite sur 15 000 attaques

L’asymétrie est le cœur du résultat. Une défense de la famille A demande au système attaqué de décider si l’attaque a réussi. Avec suffisamment de tours, l’attaquant adaptatif finit par trouver une formulation que le propre modèle du défenseur accepte. La famille B traite le modèle comme un composant non fiable et valide sa sortie de manière indépendante. Le filtre de sortie du papier n’est pas une IA habile : c’est du code applicatif déterministe qui connaît la forme du secret et refuse d’émettre les réponses qui le contiennent.

Pourquoi c’est important

C’est le troisième papier indépendant en dix-huit mois qui pointe dans la même direction. The Instruction Hierarchy (OpenAI, 2024) reconnaissait que le modèle seul ne peut imposer une hiérarchie sous pression adversariale. ARGUS (Weng et al., 5 mai 2026) a déplacé la décision vers un graphe de provenance hors du modèle. Deep et al. généralisent maintenant le résultat négatif : toute défense qui se termine par « …et le modèle décide » finit par perdre face à un attaquant adaptatif. Le corollaire est constructif : les frontières de sécurité doivent vivre dans du code qui ne tourne pas dans le LLM.

Pour les équipes qui livrent des applications LLM aujourd’hui, cela redéfinit ce que doit signifier « mitigation de prompt injection » sur une roadmap. Spotlighting, sandwiching, prompts à hiérarchie et auto-réflexion sont utiles pour le confort UX sur trafic propre, mais ils ne constituent pas la frontière. La frontière, c’est ce qui s’exécute après le retour du modèle — et avant que la réponse ne touche un appel d’outil, une écriture en base de données ou l’écran de l’utilisateur.

Défenses

Implications pratiques tirées directement du papier et des travaux concurrents cités plus haut :

Ne placez jamais dans un system prompt un secret que vous ne publieriez pas. Si le secret fuit, que casse-t-il ? Si la réponse est « beaucoup », sortez-le complètement du prompt et placez-le derrière un outil que le modèle peut appeler avec des permissions limitées.
Implémentez des filtres de sortie déterministes. Regex, comparaison de chaînes, validation structurelle JSON, listes de refus de tokens sensibles connus. Faites-les tourner en code applicatif avant livraison. Toute correspondance doit être un refus dur, pas un avertissement.
Empilez filtrage d’entrée et filtrage de sortie. Le filtrage d’entrée réduit la surface d’attaque ; le filtrage de sortie attrape ce qui est passé. Les configurations combinées du papier sont les plus performantes quand le filtrage existe des deux côtés.
Auditez toute défense « auto-vérifiée ». Si la mitigation consiste à demander au même modèle « était-ce sûr ? », supposez qu’un attaquant adaptatif peut la défaire. À garder pour l’UX, pas pour la sécurité.
Restreignez les agents à opérations sensibles au personnel de confiance tant que vos défenses côté sortie n’ont pas été vérifiées indépendamment. Les auteurs présentent explicitement cela comme une posture intermédiaire.

État des lieux

Élément	Référence	Date	Notes
Papier (v1)	arXiv:2604.23887v1	2026-04-26	14 pages, 9 figures, cs.CR / cs.AI
Papier (v2 — actuel)	arXiv:2604.23887v2	2026-05-12	Dernière révision
Défenses testées	§3 du papier	2026-04-26	9 configurations, côté modèle et côté application
Budget d’attaque	§4	—	20 000+ attaques adaptatives, centaines de tours
Meilleure défense	Filtrage de sortie	—	0 fuite sur 15 000 attaques
Connexe : ARGUS	arXiv:2605.03378	2026-05-05	Même direction : défendre hors du modèle

Lecture de fond : la prompt injection n’est pas un problème de modèle qu’un meilleur modèle résoudra. C’est un problème de système, et comme tout problème de système en sécurité, la réponse est de valider la sortie non fiable dans du code que vous contrôlez.