JAILBREAK

(24)

24 hack(s).

Surcharge informationnelle : des prompts image-texte denses jailbreakent les LLM visuels

Un papier de la NUS (juillet 2026) jailbreake les modèles vision-langage en les surchargeant de mises en page image-typographie récursives — 84 % de réussite sur Gemini et GPT-4.1-mini, avec des prompts qui se transfèrent d'un modèle à l'autre.

2026-07-17//7 min

JAILBREAK MEDIUM NEW

Jailbreaks à contexte long : le positionnement du but affaiblit la sûreté

Une étude de CMU montre qu'entourer une requête nuisible de texte anodin et placer le but tôt dans un contexte long dégrade les refus sur LLaMA, Qwen, Mistral et Gemini.

2026-07-15//7 min

JAILBREAK MEDIUM NEW

Jailbreak au niveau du workflow : l'agent écrit ce qu'il refuse en chat

Une étude de l'Alan Turing Institute (juillet 2026) montre que les agents de code refusent une requête nuisible en chat mais rédigent le même contenu dans un workflow de build piloté par une métrique — 816/816 sorties dangereuses sur quatre backends Claude et Gemini.

2026-07-13//8 min

JAILBREAK MEDIUM NEW

Pourquoi les LLM à diffusion résistent aux jailbreaks — jusqu'à l'imbrication de contexte

Les modèles de langage à diffusion corrigent de nombreux jailbreaks en cours de génération, un avantage de sûreté sur les modèles autorégressifs. Mais les travaux de 2026 montrent que l'imbrication de contexte passe outre.

2026-07-09//7 min

JAILBREAK CRITICAL NEW

Poésie et conte : quand la mise en forme jailbreak les LLM

Deux études de 2025–2026 montrent que reformuler une requête nuisible en vers ou en conte à la Propp contourne l'alignement de presque tous les modèles de pointe — une classe d'attaque, pas une astuce isolée.

2026-07-09//7 min

JAILBREAK MEDIUM NEW

Des questions anodines, une réponse interdite : le contournement par décomposition des connaissances

Un article d'ICML 2026 décrit un jailbreak qui ne formule jamais rien de dangereux : il découpe un objectif interdit en sous-questions anodines, puis reconstitue la réponse — avec un taux de contournement annoncé à plus de 95 % face aux garde-fous commerciaux.

2026-07-07//6 min

JAILBREAK MEDIUM NEW

Persona Attack : comment la mémoire de conversation érode l'alignement de sécurité

Un article de juin 2026 montre qu'un jailbreak réparti sur plusieurs tours — qui construit un persona dans la mémoire du modèle — peut progressivement l'emporter sur l'entraînement de sécurité, avec un taux de réussite élevé une fois le contexte suffisamment accumulé.

2026-07-06//6 min

JAILBREAK CRITICAL NEW

Détournement du raisonnement : les longues chaînes de pensée diluent le refus du modèle

Un jailbreak boîte noire enfouit une requête nuisible sous des milliers de tokens de raisonnement anodin. Plus la trace s'allonge, plus le signal interne de refus s'affaiblit — jusqu'à 100 % de réussite sur les modèles de raisonnement de pointe.

2026-07-05//7 min

JAILBREAK MEDIUM NEW

La surface résiduelle de jailbreak : les attaques adaptatives cassent encore les modèles de pointe

Une étude red-team de juin 2026 sur deux modèles de pointe montre que l'obfuscation statique est quasi morte, mais que la recherche adaptative itérative confirme encore des complétions nuisibles dans toutes les catégories — et gagne dès la première ou deuxième étape.

2026-07-05//6 min

JAILBREAK MEDIUM NEW

Traces de modération simulées : jailbreaker les LLM outillés

Un article de juillet 2026 montre qu'on peut jailbreaker les LLM à appels de fonctions en simulant un workflow d'audit de sécurité sur plusieurs tours — la preuve que le filtrage au niveau du prompt ne suffit pas.

2026-07-04//6 min

JAILBREAK MEDIUM NEW

Découper une tâche malveillante en étapes anodines déjoue les garde-fous des agents

Un framework de red teaming de fin mai 2026 décompose un objectif malveillant en sous-tâches individuellement anodines et atteint jusqu'à 100 % de contournement sur des agents bâtis avec des modèles de pointe — les défenses actuelles ne le contiennent qu'en partie.

2026-07-04//8 min

JAILBREAK MEDIUM NEW

Registre fanfiction : quand tout un style d'écriture devient le jailbreak

Un papier arXiv de juin 2026 montre que l'alignement sous-couvre un registre entier de l'écriture humaine — la voix fanfiction — faisant passer le taux de succès moyen de 0,28 à 0,73, sans modèle attaquant ni adaptation par cible.

2026-07-03//7 min

JAILBREAK MEDIUM NEW

Surcharge cognitive : comment une faible résolution d'image jailbreake les LLM multimodaux

Un papier de mai 2026 (Findings of ACL 2026) montre que réduire la résolution d'un texte rendu sous forme d'image fait basculer les MLLM de pointe dans une « zone de confort d'attaque » où l'alignement de sécurité s'effondre alors que l'OCR reste fiable.

2026-06-21//6 min

JAILBREAK MEDIUM NEW

Jailbreak par cadrage CTF : le prompt fuite dans l'attaque

Sysdig (15 juin 2026) a observé des opérateurs jailbreakant leur propre assistant de code en déguisant leurs demandes d'exploit en CTF ou chasse aux CVE — et ce cadrage fuit dans les User-Agents, mots de passe et journaux IAM, laissant une empreinte précieuse pour les défenseurs.

2026-06-21//8 min

JAILBREAK MEDIUM NEW

Jailbreak par RL : la récompense et la durée d'épisode font l'attaque

Une étude de juin 2026 décompose le jailbreak par apprentissage par renforcement et montre que la conception de l'environnement — récompense dense et longs épisodes — pèse plus que l'algorithme.

2026-06-20//7 min

JAILBREAK MEDIUM NEW

UniAttack : un jailbreak automatisé qui vise les défenses LLM en couches

Un preprint de juin 2026 construit un framework de red teaming automatisé combinant plusieurs stratégies et le lance contre des modèles aux défenses empilées — montrant qu'empiler des garde-fous ne garantit pas la robustesse.

2026-06-20//5 min

JAILBREAK MEDIUM NEW

Les jailbreaks adaptatifs continuent de percer les défenses LLM : le vrai problème, c'est l'évaluation

Un framework de juin 2026, UniAttack, compose des « caractéristiques » d'attaque réutilisables en jailbreaks one-shot qui se transfèrent d'un modèle et d'une défense à l'autre — preuve qu'une défense testée seulement contre des attaques statiques offre une fausse assurance.

2026-06-18//6 min

JAILBREAK MEDIUM

IICL : la complétion de motif bat l'alignement avec 10 exemples

Un papier arXiv d'avril 2026 retourne l'apprentissage en contexte contre le modèle : une dizaine d'exemples à base d'opérateurs abstraits font compléter à GPT-5.4 un motif nuisible que ses filtres de contenu ne détectent jamais.

2026-06-17//7 min

JAILBREAK MEDIUM NEW

Para-jailbreaking : quand la « safe completion » fuit le danger dans l'alternative

Un papier arXiv du 27 avril 2026 nomme un nouveau mode de défaillance de la sûreté centrée sur la sortie : le modèle refuse correctement la question directe, mais laisse fuir du contenu nuisible dans l'« alternative sûre » qu'il propose à la place.

2026-06-16//7 min

JAILBREAK MEDIUM NEW

Jailbreak vidéo multi-clips : pourquoi la vidéo casse la sûreté des LLM multimodaux

Un papier ACL de juin 2026 montre que le canal vidéo est une frontière de sûreté plus faible que l'image : le taux de réussite grimpe quand la vidéo est découpée en clips variés.

2026-06-14//7 min

JAILBREAK MEDIUM NEW

CodeSpear : quand le décodage sous contrainte grammaticale devient une surface de jailbreak

Un papier arXiv du 10 juin 2026 montre que la fonctionnalité de fiabilité qui force la sortie de code d'un LLM à être syntaxiquement valide peut elle-même servir de jailbreak. Appliquer une grammaire de code anodine contourne les refus ; la défense CodeShield des auteurs répond par du code leurre.

2026-06-12//6 min

JAILBREAK MEDIUM NEW

Sockpuppeting : un préfixe d'une ligne qui jailbreak 11 LLM en production

Une seule ligne injectée comme dernier message « assistant » incite 7 modèles majeurs sur 10 à générer du contenu nuisible. Le correctif n'est pas dans le modèle — c'est une validation d'ordre des messages côté API.

2026-05-28//8 min

JAILBREAK MEDIUM

Jailbreaks par encodage mathématique : quand la théorie des ensembles contourne l'alignement

Un papier arXiv publié le 5 mai 2026 montre que reformuler une requête nuisible en problème de théorie des ensembles ou de logique formelle contourne l'alignement de 46 à 56 % du temps sur huit modèles de pointe — mais seulement si un LLM auxiliaire fait la reformulation.

2026-05-25//7 min

JAILBREAK CRITICAL

Many-shot jailbreaking : 256 exemples pour contourner n'importe quel alignement

Les chercheurs d'Anthropic ont montré qu'en remplissant la fenêtre de contexte avec 256 faux exemples de Q&R, on contourne l'entraînement de sécurité. Plus de contexte = plus de surface d'attaque.

2026-05-15//6 min