Lockdown Mode d'OpenAI : couper la voie d'exfiltration du prompt injection
Le 6 juin 2026, OpenAI a étendu Lockdown Mode aux comptes ChatGPT personnels et Business en libre-service : un réglage déterministe qui désactive les canaux sortants utilisés pour exfiltrer des données via prompt injection.
De quoi s’agit-il ?
OpenAI a introduit Lockdown Mode et les libellés « Elevated Risk » le 13 février 2026, d’abord pour ChatGPT Enterprise, Edu, Healthcare et Teachers. Le 6 juin 2026, l’entreprise a commencé à déployer Lockdown Mode vers les comptes personnels éligibles (Free, Go, Plus, Pro) et les plans ChatGPT Business en libre-service, comme l’ont rapporté The Hacker News et TechCrunch le jour même. Il s’agit d’un contrôle produit défensif, et non de la divulgation d’une vulnérabilité.
Lockdown Mode vise un scénario d’échec précis : le prompt injection utilisé pour l’exfiltration de données. Il ne cherche pas à empêcher l’injection de se produire ; il supprime les canaux par lesquels une injection réussie pourrait faire sortir vos données vers un attaquant. OpenAI le dit clairement : ce mode n’est « pas destiné à tout le monde » — il est conçu pour les dirigeants, les équipes de sécurité et les organisations manipulant des données sensibles, qui acceptent de perdre des fonctionnalités en échange d’une surface d’attaque réduite.
Comment ça marche
Le prompt injection devient dangereux quand trois conditions se réunissent — un cadrage connu sous le nom de lethal trifecta (trifecta mortelle) : le modèle a accès à des données privées, il est atteignable par du contenu non fiable, et il dispose d’un canal sortant pour envoyer des données ailleurs. Lockdown Mode s’attaque au troisième pilier.
OpenAI décrit ce contrôle comme déterministe : plutôt que de demander au modèle de juger si une action est sûre, il désactive de façon dure les capacités susceptibles de faire sortir des données du réseau contrôlé par OpenAI. Selon l’annonce d’OpenAI et la couverture de juin, lorsque Lockdown Mode est actif, il désactive :
# Capacités désactivées de façon déterministe en Lockdown Mode
# Source : annonce OpenAI + The Hacker News / TechCrunch (2026-06-06)
navigation web en direct -> contenu en cache uniquement, pas de requête sortante
images web -> pas de récupération/affichage d'images depuis le web
deep research -> désactivé
mode agent -> désactivé
réseau Canvas -> le code généré par Canvas ne peut pas accéder au réseau
téléchargements -> bloqués (pas de téléchargement pour analyse de données)
L’exemple clé est la navigation : en Lockdown Mode, l’accès web est limité au contenu en cache, de sorte qu’aucune requête réseau en direct ne quitte le réseau d’OpenAI — fermant une voie d’exfiltration classique par URL où une instruction injectée fait récupérer au modèle attaquant.example/?leak=<secret>. À noter : Lockdown Mode ne change pas le fonctionnement de la mémoire, des téléversements de fichiers ou du partage de conversations, et il ne peut pas s’exécuter en même temps que le Developer Mode — activer l’un désactive l’autre.
Le volet complémentaire, les libellés Elevated Risk, standardise les avertissements dans ChatGPT, ChatGPT Atlas et Codex pour les capacités qui élargissent la surface d’attaque — par exemple, accorder à Codex un accès réseau pour consulter de la documentation. Les administrateurs Workspace conservent des contrôles granulaires, par application et par action, ainsi que les journaux de la Compliance API pour la supervision.
Pourquoi c’est important
C’est un changement notable dans la manière dont un éditeur de pointe formule le problème. OpenAI concède, dans son produit, que le prompt injection est un problème « frontière » non résolu et que la défense réaliste à court terme consiste à contraindre les capacités, et non à perfectionner le jugement du modèle. Pour les praticiens, l’architecture est la leçon : couper le canal d’exfiltration est souvent moins coûteux et plus fiable que de tenter de rendre un modèle immunisé contre des instructions malveillantes qu’il finira inévitablement par rencontrer.
Les limites comptent tout autant. OpenAI déclare sans détour que Lockdown Mode « ne garantit pas que l’exfiltration de données ne puisse pas se produire ». L’injection peut encore survenir via du contenu web en cache ou un fichier téléversé et continuer à corrompre le comportement ou l’exactitude d’une réponse ; un risque résiduel demeure via les applications activées, des combinaisons de capacités imprévues, ou des techniques nouvellement découvertes. Un mode qui désactive les fonctions d’agent et les téléchargements représente aussi une vraie taxe sur la productivité — ce qui explique précisément qu’OpenAI le réserve aux utilisateurs à haut risque plutôt que de l’activer par défaut.
Défenses
Considérez Lockdown Mode comme un modèle, pas comme une solution miracle.
Cartographiez d’abord vos propres canaux d’exfiltration. Tout agent capable de naviguer, d’afficher des images distantes, d’appeler des outils ou de télécharger des fichiers dispose d’une voie sortante ; inventoriez-les comme l’a fait OpenAI, puis demandez-vous lesquels vous pouvez désactiver pour les sessions sensibles.
Préférez le filtrage déterministe des capacités au garde-fou fondé sur le jugement du modèle pour les flux à fort enjeu. Un interrupteur strict qui bloque la sortie réseau en direct est auditable ; un classifieur qui refuse « le plus souvent » ne l’est pas. Utilisez les deux, mais ne laissez pas un filtre probabiliste être la seule barrière entre des données privées et Internet.
Limitez le périmètre et signalez le risque résiduel. Réservez les capacités les plus permissives (mode agent, code avec accès réseau, connecteurs non fiables) aux contextes où les données ne sont pas sensibles, et rendez le risque visible pour l’utilisateur au moment de la décision — le rôle que sont censés jouer les libellés Elevated Risk.
Enfin, gardez ceci comme une seule couche. Lockdown Mode s’ajoute au sandboxing, à la sécurité des liens URL, à la surveillance et au RBAC/journaux d’audit d’entreprise. Rien de tout cela ne remplace le principe de moindre privilège sur les outils ni la revue humaine des actions conséquentes.
État des lieux
| Élément | Référence | Date | Notes |
|---|---|---|---|
| Lancement initial | Annonce OpenAI | 2026-02-13 | Lockdown Mode + libellés Elevated Risk ; Enterprise, Edu, Healthcare, Teachers |
| Déploiement élargi | The Hacker News / TechCrunch | 2026-06-06 | Personnels (Free/Go/Plus/Pro) + Business en libre-service |
| Mécanisme | Désactivation déterministe des capacités | 2026 | Navigation→cache seul, pas d’images web, pas de deep research, pas de mode agent, pas de réseau Canvas, pas de téléchargements |
| Périmètre | Libellés Elevated Risk | 2026 | Cohérents dans ChatGPT, ChatGPT Atlas, Codex |
| Limite annoncée | OpenAI | 2026-06 | « Ne garantit pas que l’exfiltration ne puisse pas se produire » ; exclusif avec le Developer Mode |
Il s’agit d’une release produit défensive : il n’y a rien à corriger. L’enseignement actionnable est architectural : le prompt injection se contient plus facilement en supprimant le canal d’exfiltration qu’en tentant de faire refuser au modèle chaque instruction malveillante — et toute capacité que vous laissez active est une voie que vous avez choisi de garder ouverte.