RESEARCH MEDIUM NEW

Au-delà de la « sécurité de surface » : l'injection en milieu de séquence fait déraper les LLM alignés

Un papier arXiv du 3 juin 2026 montre que l'alignement de sécurité peut être détourné non seulement aux premiers tokens, mais à n'importe quelle étape de génération — et que les directions de refus dans les états cachés ne prédisent pas la robustesse.

2026-06-08 // 6 min affects: safety-aligned-llms, open-weight-llms

De quoi s’agit-il ?

Le 3 juin 2026, Kyungmin Park et Taesup Kim ont publié Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories (arXiv:2606.04778, cs.AI/cs.CL/cs.LG). Le papier reprend un résultat qui structure la réflexion sur la sécurité des LLM depuis 2024 — la « sécurité de surface » (shallow safety) — et montre qu’il décrit un problème plus étroit que la réalité.

La « sécurité de surface », nommée par Qi et al. dans Safety Alignment Should Be Made More Than a Few Tokens Deep (arXiv:2406.05946), désigne le fait que le comportement de refus d’un modèle aligné se concentre dans les tout premiers tokens de sortie. Faites franchir cette ouverture au modèle — par exemple avec un prefill de l’assistant du type « Bien sûr, voici comment… » (voir notre note sur le sockpuppeting) — et il a tendance à poursuivre de façon coopérante.

La thèse du nouveau papier : cette faiblesse des premiers tokens n’est qu’un cas particulier. De courtes injections de tokens à n’importe quel point de la génération, et pas seulement au début, peuvent modifier substantiellement le comportement de sécurité ultérieur du modèle.

Comment ça marche

Le modèle de menace est le contrôle du flux de génération, pas une invite astucieuse. Il s’applique partout où un attaquant — ou un composant en aval — peut insérer des tokens dans la sortie même du modèle au fur et à mesure qu’elle est produite : déploiements à poids ouverts et auto-hébergés, API acceptant les prefills d’assistant, et pipelines qui réinjectent du texte intermédiaire dans le contexte.

# Croquis conceptuel — aucun payload fonctionnel.
# Les tokens marqués [INJECT] sont de courtes plages contrôlées
# par l'attaquant, glissées dans le flux de sortie de l'assistant.

t0  user:      <requête d'apparence anodine>
t1  assistant: Je ne peux pas vous aider avec cela, mais [INJECT]
t2  assistant: <poursuit dans la direction injectée...>

Deux constats font de ce travail davantage qu’une reformulation du résultat sur le prefill :

La position n’a rien de spécial. Une courte injection en milieu de séquence — bien après les tokens d’ouverture « sûrs » — peut quand même réorienter le reste de la trajectoire. Les défenses qui ne durcissent que les premiers tokens laissent le reste de la génération exposé.
Les états cachés ne garantissent pas la sûreté. Les auteurs rapportent que l’alignement d’un modèle avec les directions de refus dans ses états cachés ne prédit pas sa robustesse à ce type d’injection. Une représentation peut sembler « alignée » alors que le texte généré, sous perturbation, part dans l’autre sens. C’est une mise en garde pour les défenses fondées sur les représentations qui lisent les activations internes pour décider si une réponse est sûre — une piste également explorée dans Jailbreaking Leaves a Trace (arXiv:2602.11495).

Le correctif proposé se situe à l’entraînement : aligner le modèle sur des trajectoires de génération construites en simulant des perturbations en milieu de séquence, plutôt que sur les seules sorties. S’entraîner sur le processus perturbé améliore la robustesse à l’injection en milieu de séquence et, selon les auteurs, se généralise aux attaques sur les premiers tokens identifiées à l’origine par les travaux sur la « sécurité de surface ».

Pourquoi c’est important

Beaucoup d’outils de sécurité en production supposent que le moment dangereux est l’invite (filtrage des entrées) ou le premier token (contrôles de prefill, alignement des tokens d’ouverture). Ce papier soutient que la surface vulnérable est la trajectoire entière. Pour quiconque exécute des modèles à poids ouverts ou auto-hébergés — où le flux de génération est entièrement contrôlable — cela élargit considérablement la surface d’attaque, et affaiblit l’idée de se fier à une seule sonde d’états cachés comme signal de sécurité.

Cela recadre aussi un débat défensif : un alignement robuste devra peut-être être entraîné contre le processus de génération, et non seulement noté sur sa réponse finale.

Défenses

Ne faites pas confiance à la position. Validez et contraignez la séquence des messages d’assistant à la frontière de l’API ; rejetez les prefills d’assistant fournis par le client et tout chemin permettant à du texte non fiable de revenir en tant que sortie du modèle. C’est la leçon des jailbreaks par prefill, généralisée à l’ensemble du flux.
Traitez les sondes de sécurité sur états cachés comme un signal, pas une preuve. Selon ce papier, l’alignement des directions de refus dans les activations ne garantit pas une génération sûre sous perturbation. Couplez tout détecteur au niveau des représentations avec des contrôles côté sortie.
Ajoutez des garde-fous au niveau de la sortie et de la trajectoire. Re-scannez la sortie complète et en streaming, pas seulement l’invite et les premiers tokens.
Pour ceux qui entraînent des modèles : envisagez un alignement au niveau de la trajectoire — exposer le modèle à des perturbations simulées en milieu de séquence pendant l’entraînement de sécurité — tel que décrit dans le papier.
Gardez un modèle de menace honnête. L’injection en milieu de séquence suppose le contrôle du flux de génération (poids ouverts, auto-hébergé, ou API acceptant le prefill). Les points de terminaison de chat hébergés qui interdisent les prefills d’assistant relèvent le niveau, mais ne traitent pas à eux seuls les pipelines de réinjection.

État

Élément	Détail
Papier	Inference-Time Vulnerability Beyond Shallow Safety (arXiv:2606.04778)
Publié	3 juin 2026
Type	Résultat de recherche + défense à l’entraînement (aucun exploit publié)
S’appuie sur	Qi et al., …More Than a Few Tokens Deep (arXiv:2406.05946)
Concerné	LLM alignés ; exposition maximale en contexte poids ouverts / auto-hébergé