RESEARCH MEDIUM NEW

Preuve NIST : aucun garde-fou fini ne bloque tous les jailbreaks

Un scientifique du NIST applique la logique d'incomplétude de Gödel pour prouver que tout ensemble fini de garde-fous peut être contourné par un prompt — l'argument d'un modèle de sécurité en surveillance et mise à jour continues.

2026-06-16 // 7 min affects: llm-guardrails, content-safety-classifiers, llm-agents

De quoi s’agit-il ?

Le 9 juin 2026, le NIST a publié un communiqué présentant un résultat évalué par les pairs signé Apostol Vassilev, scientifique senior à l’Institut national des normes et de la technologie (NIST) et spécialiste de l’apprentissage automatique adversarial. Dans l’article « Robust AI Security and Alignment: A Sisyphean Endeavor? » (IEEE Security & Privacy, mai 2026, DOI 10.1109/MSEC.2026.3678214), Vassilev démontre mathématiquement qu’aucun ensemble fini de garde-fous n’est universellement robuste face aux prompts adversariaux. Pour toute collection figée de règles de sûreté, il existe un prompt qui pousse le modèle à les ignorer — reste seulement à le trouver.

Ce n’est ni une divulgation de vulnérabilité ni un payload. C’est une limite structurelle et démontrable d’une approche défensive qu’une grande partie de l’industrie traite encore comme un problème à résoudre une fois pour toutes. Nous en rendons compte parce que la conclusion change la façon de répartir l’effort de sûreté, et parce qu’elle pose une base rigoureuse sous un virage déjà défendu sur des bases empiriques — notamment l’argument de l’OWASP selon lequel les défenseurs doivent contenir l’injection de prompt à la vitesse de la machine plutôt que d’attendre un correctif.

Comment ça marche

L’argument prolonge les théorèmes d’incomplétude de Kurt Gödel, publiés en 1931. Gödel a montré qu’un système formel cohérent bâti sur un nombre fini d’axiomes ne peut pas démontrer toute proposition vraie qu’il sait exprimer ; on peut ajouter des axiomes pour combler les manques, mais chaque ajout rouvre le même problème. Vassilev transpose cela à la sûreté de l’IA : les garde-fous écrits par le concepteur d’une IA forment précisément un tel ensemble fini de règles, donc il existera toujours une entrée que les règles ne couvrent pas.

Deux propriétés des LLM rendent cette faille exploitable en pratique, et pas seulement théorique :

Propriété                       Conséquence pour les garde-fous
------------------------------  --------------------------------------------
Entrée en langage naturel       Le contrôle de conformité face à un ensemble
                                fini de règles est « infiniment ambigu » :
                                l'intention nuisible se dissimule dans le
                                texte clair d'une infinité de façons.

Instructions et données         Le modèle n'a pas de frontière interne fiable
partagent le même canal         entre règles de confiance et entrée non fiable,
                                donc l'entrée peut devenir une instruction.

Point crucial : la preuve est un résultat d’existence, pas une recette. Elle affirme qu’un prompt de contournement existe pour toute défense figée ; elle ne fournit à l’attaquant aucune méthode pour le construire. Dans le cadrage de Vassilev, cela force les adversaires vers une découverte de type zero-day — chercher une faiblesse que personne d’autre ne connaît — plutôt que de réutiliser une technique publiée. C’est le même fait structurel qui sous-tend le trilemme de défense des wrappers anti-injection et la raison pour laquelle les approches visant des garde-fous prouvables contraignent ce que l’agent peut faire au lieu de promettre que le modèle ne sera jamais trompé.

Pourquoi c’est important

Le résultat tire un trait sous le modèle de sécurité « une fois et c’est réglé » : livrer un modèle, brancher un classifieur, déclarer le problème de sûreté clos. Si une défense complète et figée est mathématiquement impossible, alors toute affirmation d’être « robuste face à tous les prompts adversariaux » est fausse par construction, et un jeu de garde-fous statique n’est qu’un instantané qui se dégrade à mesure que les attaquants le sondent.

Les observations empiriques pointent dans le même sens. La couverture de Help Net Security cite le Trustworthy AI Research Lab de Stanford selon lequel les garde-fous au niveau du modèle sont insuffisants à eux seuls — des attaques par fine-tuning ont contourné Claude Haiku dans 72 % des cas et GPT-4o dans 57 % — un écho au schéma plus large où un fine-tuning d’apparence anodine dégrade la sûreté. L’injection de prompt arrive en tête de l’OWASP 2025 LLM Top 10 justement parce que les modèles peinent à séparer les instructions des données. La preuve explique pourquoi rien de tout cela n’est un manque d’ingénierie passager.

Défenses

La prescription de Vassilev n’est pas le désespoir mais un changement de modèle — passer de la recherche d’un correctif permanent à une posture de surveillance et mise à jour continues, en trois volets :

Red teaming continu. Mettre en place des équipes (et des harnais automatisés) qui traquent en permanence de nouveaux prompts adversariaux avant les attaquants. L’économie favorise ici la vitesse — voir comment le red teaming agentique compresse des semaines en heures.
Durcissement continu. Mettre à jour les garde-fous contre chaque nouveau prompt découvert, et câbler des suites de tests adversariaux dans la CI/CD pour que tout changement de modèle, de prompt ou de configuration d’agent relance automatiquement la batterie d’attaques.
Résilience opérationnelle. Supposer qu’un exploit finira par passer. Prioriser la réduction du rayon d’impact et la reprise rapide — périmètres d’outils minimaux, identifiants éphémères et confinement à l’exécution plutôt qu’analyse de journaux a posteriori.
Aller au-delà des règles figées. Combiner le filtrage entrée/sortie avec des signaux au niveau de la représentation ou du comportement, comme la détection de jailbreak sur l’état interne, en acceptant que chaque couche augmente le coût sans garantir la couverture.
Fixer des attentes honnêtes. L’objectif explicite de Vassilev est un équilibre économique : rendre le coût de la découverte d’un nouvel exploit supérieur à ce qu’un attaquant est prêt à dépenser. C’est une sécurité partielle et continue — pas une ligne d’arrivée.

Statut

Élément	Détail
Auteur	Apostol Vassilev, scientifique senior, NIST
Article	« Robust AI Security and Alignment: A Sisyphean Endeavor? », IEEE Security & Privacy, mai 2026 (DOI 10.1109/MSEC.2026.3678214)
Communiqué NIST	9 juin 2026
Couverture presse	Help Net Security, 10 juin 2026
Nature	Preuve mathématique (fondée sur Gödel) — aucun payload, aucune méthode d’attaque
À retenir	Les garde-fous figés ne peuvent être universellement robustes ; adopter une surveillance et mise à jour continues

La leçon durable : la sûreté de l’IA, comme les mathématiques de Gödel, n’a pas d’ensemble fini d’axiomes qui la clôt définitivement. Les garde-fous restent utiles à construire — ils augmentent le coût pour l’attaquant — mais ils relèvent d’un processus à entretenir, pas d’un périmètre à achever. La cible honnête est de rendre les attaques économiquement prohibitives, puis de ne jamais s’arrêter.