RESEARCH MEDIUM NEW

Optimus : noter les jailbreaks au-delà du binaire révèle un régime furtif optimal

Un paper arXiv du 9 mai 2026 soutient que le taux de réussite binaire masque les jailbreaks les plus à craindre. Sa métrique Optimus note les prompts sur la similarité et la nocivité, et expose une bande « furtive optimale » où l'ASR s'effondre à zéro.

2026-06-05 // 7 min affects: aligned-llms, llamaguard, promptguard, wildguard

De quoi s’agit-il ?

Le 9 mai 2026, des chercheurs de l’University of Texas at El Paso, de Southern Illinois University Carbondale et de l’University of Illinois Urbana-Champaign (Ismail Hossain, Tanzim Ahad, Md Jahangir Alam, Sai Puppala, Syed Bahauddin Alam et Sajedul Talukder) ont publié The Art of the Jailbreak sur arXiv (cs.CR, 2605.09225). L’argument est avant tout une question de mesure : la discipline évalue les jailbreaks presque exclusivement avec un taux de réussite binaire (ASR) — le modèle a-t-il produit une sortie nocive, oui ou non — et ce seul bit jette l’information dont les défenseurs ont le plus besoin.

Leur réponse est Optimus, un score continu sans entraînement, accompagné d’un corpus de 114 000 prompts de jailbreak compositionnels construits pour l’étudier. Nous traitons ici la contribution sur l’évaluation, pas le corpus de prompts : le résultat défendable et durable est qu’une lecture en tout-ou-rien est structurellement aveugle à une classe de jailbreaks « discrets ».

Comment ça marche

Optimus note un prompt de jailbreak sur deux axes simultanés, écrits J(S, H) :

S — similarité sémantique entre le prompt de jailbreak et la requête nocive d’origine. Un S élevé signifie que la reformulation demande toujours la même chose.
H — probabilité de nocivité de la sortie du jailbreak elle-même, estimée par un classifieur de nocivité.

Les deux sont combinés via des fonctions de pénalité calibrées en un seul nombre continu, sans aucun entraînement spécifique à la tâche — Optimus utilise des modèles d’embedding et d’inférence disponibles sur étagère (la meilleure paire des auteurs est all-mpnet-base-v2 × deberta-large-mnli) plutôt qu’un juge fine-tuné qu’il faut réentraîner à mesure que les attaques évoluent. Cette propriété sans entraînement est l’essentiel : un juge binaire ou un classifieur sur mesure vieillit dès que la distribution d’attaque change ; un score similarité-plus-nocivité, non.

Pour obtenir un objet à mesurer, les auteurs ont appliqué 912 stratégies de composition observées en conditions réelles à 125 prompts nocifs de départ issus de JailBreakV-28K, et ont étiqueté chaque prompt résultant dans l’une de 14 catégories de cyberattaque (malware, phishing, élévation de privilèges, exfiltration de données, etc.) par vote majoritaire de six modèles. Aucun prompt d’exploitation n’est reproduit ici ; la référence canonique est le paper.

Le résultat phare est un régime « furtif optimal ». En plaçant les prompts dans le plan (S, H), les plus dangereux se concentrent autour de S* ≈ 0,57, H* ≈ 0,43 — des reformulations qui préservent assez de l’intention d’origine pour rester utiles à un attaquant, tout en restant assez assainies en surface pour passer les filtres. Précisément dans cette bande, l’ASR binaire s’effondre vers zéro : l’attaque fonctionne, mais un évaluateur tout-ou-rien enregistre un « échec » parce que la sortie ne déclenche pas le contrôle grossier de contenu nocif. La métrique à laquelle une équipe se fie est la plus aveugle exactement là où le risque se concentre.

Pourquoi c’est important

La plupart des défenses LLM en production reposent sur des classifieurs légers — LlamaGuard, PromptGuard, WildGuard et consorts — placés devant un modèle aligné par RLHF. Le modèle de menace du paper est réaliste : un attaquant en boîte noire, en un seul tour, qui peut itérer hors ligne contre des copies locales, des modèles d’embedding et des estimateurs de nocivité avant d’envoyer un unique prompt soigné. Face à cet adversaire, les générateurs conscients des catégories des auteurs atteignent une perplexité de 24–39 (contre 40–140 pour AutoDAN et AmpleGCG — une perplexité plus basse signifie un texte plus fluide et moins anormal) avec une évasion de filtre mesurée sur LlamaPromptGuard-2-86M.

Deux conséquences pour les défenseurs. D’abord, si votre tableau de bord red team est l’ASR, vous sur-déclarez votre propre sécurité. Les jailbreaks notés « bloqués » incluent ceux, furtifs optimaux, qui ont en réalité réussi. Ensuite, la notation par catégorie change l’allocation des efforts. Optimus fournit une ventilation par classe d’attaque — quelles stratégies sont les plus efficaces contre les prompts de phishing par rapport aux prompts d’élévation de privilèges — pour cibler le durcissement sur les catégories où le modèle est réellement le plus faible, au lieu d’un chiffre indifférencié de « résistance aux jailbreaks ». C’est la critique que les revues de robustesse adressent au domaine : une évaluation qui mélange la forme de l’attaque et la sémantique de la menace dit peu de l’exposition réelle.

Défenses

Le paper est lui-même un instrument défensif — une meilleure mesure — mais il implique des changements de pratique concrets.

Cessez de rapporter la résistance aux jailbreaks comme un seul chiffre d’ASR. Associez-le à un score continu et bidimensionnel (similarité à l’intention × nocivité) pour que votre évaluation voie la bande furtive optimale que le tout-ou-rien masque.
Notez par catégorie d’attaque, pas en agrégé. Ventilez les résultats par objectif concret (malware, phishing, élévation de privilèges, exfiltration de données) et priorisez les catégories aux pires scores. Un « 92 % bloqué » agrégé peut cacher un taux de réussite de 40 % dans une catégorie.
Testez avec des reformulations fluides et compositionnelles — pas seulement des modèles. Les défenses calées sur des modèles DAN faits main ou des attaques par optimisation de tokens manqueront les prompts à basse perplexité, sémantiquement reformulés. Intégrez des stratégies de composition observées en conditions réelles à votre jeu de red team.
Ne vous reposez pas sur les seuls classifieurs de contenu de surface. Un filtre qui se cale sur des signaux lexicaux de nocivité est exactement ce que le régime furtif optimal défait. Superposez une détection fondée sur les représentations ou activations qui inspecte l’état interne, pas seulement les chaînes de sortie.
Réévaluez en continu. Comme Optimus ne nécessite aucun réentraînement, il peut servir de métrique permanente en CI à chaque mise à jour de modèle — détectant les régressions où un nouveau checkpoint devient discrètement plus facile à jailbreaker dans une catégorie.

Statut

Élément	Référence	Date	Notes
The Art of the Jailbreak	arXiv:2605.09225v1 (cs.CR)	2026-05-09	Score Optimus + corpus de 114 k prompts compositionnels
Métrique Optimus	Paper	2026-05-09	J(S,H) sans entraînement ; régime furtif optimal S≈0,57, H≈0,43
Générateurs	Paper	2026-05-09	Perplexité 24–39 vs 40–140 (AutoDAN/AmpleGCG) ; évasion mesurée sur LlamaPromptGuard-2-86M
Périmètre	Paper	2026-05-09	912 stratégies de composition × 125 prompts de départ (JailBreakV-28K), 14 catégories de cyberattaque

À retenir : non pas « les jailbreaks sont imparables », mais que la façon dont la plupart des équipes mesurent la résistance aux jailbreaks sous-compte systématiquement les attaques qui comptent. Un score continu, conscient des catégories, qui capte à la fois l’intention sémantique et la nocivité, donne aux défenseurs une carte des endroits où leur modèle cède réellement — ce qu’un unique bit de taux de réussite ne peut pas fournir.