← retour aux catégories
JAILBREAK
(3)3 hack(s).
JAILBREAK MEDIUM NEW
Sockpuppeting : un préfixe d'une ligne qui jailbreak 11 LLM en production
Une seule ligne injectée comme dernier message « assistant » incite 7 modèles majeurs sur 10 à générer du contenu nuisible. Le correctif n'est pas dans le modèle — c'est une validation d'ordre des messages côté API.
2026-05-28//8 min
JAILBREAK MEDIUM
Jailbreaks par encodage mathématique : quand la théorie des ensembles contourne l'alignement
Un papier arXiv publié le 5 mai 2026 montre que reformuler une requête nuisible en problème de théorie des ensembles ou de logique formelle contourne l'alignement de 46 à 56 % du temps sur huit modèles de pointe — mais seulement si un LLM auxiliaire fait la reformulation.
2026-05-25//7 min
JAILBREAK CRITICAL
Many-shot jailbreaking : 256 exemples pour contourner n'importe quel alignement
Les chercheurs d'Anthropic ont montré qu'en remplissant la fenêtre de contexte avec 256 faux exemples de Q&R, on contourne l'entraînement de sécurité. Plus de contexte = plus de surface d'attaque.
2026-05-15//6 min