Directions d'évasion du refus : pourquoi l'alignement ne peut pas refermer la brèche des jailbreaks
Un papier de mai 2026 prouve que les LLM alignés conservent des « directions d'évasion du refus » inscrites dans leur structure d'opérateurs — ce qui explique la persistance des jailbreaks et le coût en utilité de leur suppression.
De quoi s’agit-il ?
Depuis deux ans, la question pratique dominante sur les jailbreaks est comment en construire un : quel suffixe, quelle persona, quel encodage. Un papier publié sur arXiv le 9 mai 2026 — « Why Do Aligned LLMs Remain Jailbreakable: Refusal-Escape Directions, Operator-Level Sources, and Safety-Utility Trade-off » (arXiv:2605.08878, Chen, Liu et Cao) — pose la question plus difficile : pourquoi tout cela fonctionne-t-il, et qu’y a-t-il dans la structure interne d’un modèle aligné qui laisse la porte ouverte ?
Sa réponse tient dans une notion que les auteurs nomment Refusal-Escape Direction (RED), ou direction d’évasion du refus : une direction de perturbation locale autour d’une entrée nuisible qui fait basculer le modèle du refus à la réponse tout en conservant sa propre interprétation que l’entrée est nuisible. Dans ce cadre, un jailbreak n’est pas seulement une chaîne heureuse — c’est une transition continue du refus vers la réponse, rendue possible par la géométrie même du modèle. Le travail est théorique et défensif : il décrit une limite structurelle et ne publie aucune attaque exécutable.
Comment ça marche
Le résultat s’appuie sur une lignée désormais établie d’interprétabilité mécaniste. Le papier de 2024 « Refusal in Language Models Is Mediated by a Single Direction » (arXiv:2406.11717, Arditi et al., NeurIPS 2024) a montré que le refus, dans de nombreux modèles de chat ouverts, est gouverné par environ une seule direction du flux résiduel : l’effacer fait cesser le refus ; l’amplifier fait refuser des requêtes inoffensives. Un suivi de février 2026, « There Is More to Refusal… than a Single Direction » (arXiv:2602.02132), a montré que le tableau est multidimensionnel. Le papier RED formalise ce que cela signifie pour la sécurité.
L’idée centrale est de traiter le réseau comme une composition d’opérateurs (normalisation, câblage résiduel, attention, MLP, projection terminale) et de prouver qu’une RED se décompose exactement en contributions de chaque source d’opérateur. Trois de ces sources — la normalisation, le câblage résiduel et la couche terminale — sont dites analytiquement contraintes : leur contribution à une RED est fixée par l’architecture, et non quelque chose que l’entraînement peut librement annuler. Pour supprimer entièrement la direction d’évasion, les modules expressifs partagés (l’auto-attention et le MLP) devraient annuler ces contributions contraintes tout en préservant les chemins qui produisent des réponses utiles aux requêtes légitimes. Ces deux exigences tirent en sens contraires.
Empiriquement, sur Qwen3-4B, Qwen3-14B, Llama-3.1 et Gemma-3 et plusieurs méthodes d’attaque, les auteurs montrent que l’ajout de dimensions de tokens peut exposer une RED, et que les jailbreaks réussis produisent des bascules du refus vers la réponse largement alignées sur la contribution de la source terminale qu’ils avaient prédite. Le mécanisme correspond aux mathématiques. Aucun payload n’est reproduit ici — la contribution est l’explication, pas l’exploit.
Pourquoi c’est important
La conséquence pratique est un compromis sûreté-utilité conditionnel étayé mécaniquement plutôt qu’asséné. Si les directions d’évasion du refus sont en partie fixées par l’architecture, alors un modèle unique entraîné à la sûreté ne peut pas ramener la probabilité de jailbreak à zéro sans éroder sa capacité à répondre aux requêtes légitimes. Cela recadre trois croyances courantes :
D’abord, « on a fine-tuné plus fort, donc c’est sûr maintenant » est structurellement optimiste. L’alignement augmente le coût pour trouver une RED ; il n’efface pas la direction. Ensuite, les défenses qui ciblent une seule direction de refus (ou un seul délimiteur, ou une seule famille de suffixes) s’attaquent à un symptôme — le résultat de février 2026 montrait déjà que le refus n’est pas unidimensionnel, et RED explique pourquoi comprimer une source en laisse d’autres. Enfin, le compromis est conditionnel, pas absolu : il mord le plus fort quand on demande à un seul modèle d’être à la fois maximalement utile et maximalement sûr, par lui-même.
Pour quiconque déploie une fonctionnalité LLM, ce dernier point est l’enseignement actionnable. C’est un argument en faveur de contrôles en couches, extérieurs au modèle, plutôt que de parier la sûreté sur le seul comportement de refus du modèle de base.
Défenses
Le papier répond à un « pourquoi » : sa valeur défensive tient à la façon dont il réoriente l’effort, non à un correctif.
-
Cessez de traiter le refus comme une frontière. La disposition d’un modèle à décliner est un comportement probabiliste façonné par des directions en partie architecturales. Concevez en partant du principe que le refus de n’importe quel modèle peut être perturbé — car mécaniquement, il le peut.
-
Défendez en couches, hors du modèle. Comme la fuite est structurelle, les contrôles durables se situent autour du modèle : classifieurs d’entrée/sortie, listes d’autorisation pour la récupération et les appels d’outils, sandboxing des capacités, et limites de type « règle de deux » sur entrée non fiable + action sensible + canal d’exfiltration. Ces contrôles ne dépendent pas d’un refus que le modèle de base ne peut garantir.
-
Privilégiez plusieurs signaux de sûreté indépendants. Une conséquence de la vue multidimensionnelle est que des contrôles redondants et causalement indépendants sont plus difficiles à supprimer simultanément qu’un unique chemin de refus. Diversifiez les détecteurs plutôt que d’en durcir un seul.
-
Budgétez le compromis délibérément. Si pousser un modèle vers zéro jailbreak dégrade mesurablement la performance sur les tâches légitimes, c’est le coût prédit — pas un bug de réglage. Décidez où, sur la courbe sûreté-utilité, un déploiement donné doit se situer, et placez le reste de l’assurance dans le système environnant.
-
Utilisez la décomposition pour l’évaluation, pas seulement l’attaque. L’attribution au niveau des opérateurs donne aux red teams et aux évaluateurs un point d’investigation fondé — les sources de normalisation, résiduelle et terminale — au lieu de seulement énumérer des prompts de surface.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| Refusal-Escape Directions (RED) | arXiv:2605.08878 | 2026-05-09 | Prouve que la RED se décompose en sources d’opérateurs ; compromis sûreté-utilité conditionnel |
| Refus médié par une seule direction | arXiv:2406.11717 | 2024-06 (NeurIPS 2024) | Fondateur : une direction gouverne le refus dans les modèles de chat ouverts |
| Le refus est multidimensionnel | arXiv:2602.02132 | 2026-02 | Le refus n’est pas une direction unique ; motive la vue par opérateurs |
| Périmètre empirique | arXiv:2605.08878 | 2026-05-09 | Qwen3-4B/14B, Llama-3.1, Gemma-3 ; poids ouverts |
Le titre n’est pas une nouvelle attaque. C’est une preuve qu’une partie de la surface de jailbreak est câblée dans l’architecture — la bonne réponse est donc une défense en couches, extérieure au modèle, et un choix délibéré de position sur la courbe sûreté-utilité, plutôt que la croyance qu’un tour d’alignement de plus refermera la brèche.