Más allá de la «seguridad superficial»: la inyección a mitad de secuencia sigue desviando a los LLM alineados
Un artículo de arXiv del 3 de junio de 2026 muestra que la alineación de seguridad puede redirigirse no solo en los primeros tokens, sino en cualquier paso de la generación — y que las direcciones de rechazo en los estados ocultos no predicen la robustez.
¿Qué es esto?
El 3 de junio de 2026, Kyungmin Park y Taesup Kim publicaron Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories (arXiv:2606.04778, cs.AI/cs.CL/cs.LG). El artículo retoma un resultado que ha marcado el pensamiento sobre seguridad de los LLM desde 2024 — la «seguridad superficial» (shallow safety) — y muestra que describe un problema más estrecho que la realidad.
La «seguridad superficial», denominada así por Qi et al. en Safety Alignment Should Be Made More Than a Few Tokens Deep (arXiv:2406.05946), es la observación de que el comportamiento de rechazo de un modelo alineado se concentra en los primeros tokens de salida. Si se hace pasar al modelo más allá de esa apertura — por ejemplo con un prefill del asistente del tipo «Claro, así es como…» (véase nuestra nota sobre el sockpuppeting) — tiende a continuar de forma cooperativa.
La afirmación del nuevo artículo es que esa debilidad de los primeros tokens es solo un caso particular. Inyecciones cortas de tokens en cualquier punto de la generación, y no solo al inicio, pueden cambiar sustancialmente el comportamiento de seguridad posterior del modelo.
Cómo funciona
El modelo de amenaza es el control del flujo de generación, no un prompt ingenioso. Se aplica allí donde un atacante — o un componente posterior — puede insertar tokens en la propia salida del modelo a medida que se produce: despliegues de pesos abiertos y autoalojados, API que aceptan prefills del asistente y tuberías que reinyectan texto intermedio en el contexto.
# Esbozo conceptual — sin payload funcional.
# Los tokens marcados [INJECT] son tramos cortos controlados
# por el atacante, deslizados en el flujo de salida del asistente.
t0 user: <solicitud de apariencia inocua>
t1 assistant: No puedo ayudarte con eso, pero [INJECT]
t2 assistant: <continúa en la dirección inyectada...>
Dos hallazgos hacen de este trabajo algo más que una reformulación del resultado sobre el prefill:
-
La posición no tiene nada de especial. Una inyección corta a mitad de secuencia — mucho después de los tokens de apertura «seguros» — todavía puede redirigir el resto de la trayectoria. Las defensas que solo endurecen los primeros tokens dejan expuesto el resto de la generación.
-
Los estados ocultos no garantizan la seguridad. Los autores informan de que la alineación de un modelo con las direcciones de rechazo en sus estados ocultos no predice su robustez frente a esa inyección. Una representación puede parecer «alineada» mientras el texto generado, bajo perturbación, va en sentido contrario. Es una advertencia para las defensas basadas en representaciones que leen las activaciones internas para decidir si una respuesta es segura — una línea de trabajo también explorada en Jailbreaking Leaves a Trace (arXiv:2602.11495).
La solución propuesta está en el entrenamiento: alinear el modelo sobre trayectorias de generación construidas simulando perturbaciones a mitad de secuencia, en lugar de solo sobre las salidas. Entrenar sobre el proceso perturbado mejora la robustez frente a la inyección a mitad de secuencia y, según los autores, se generaliza a los ataques sobre los primeros tokens que el trabajo sobre «seguridad superficial» identificó en su día.
Por qué importa
Buena parte de las herramientas de seguridad en producción asume que el momento peligroso es el prompt (filtrado de entrada) o el primer token (comprobaciones de prefill, alineación de los tokens de apertura). Este artículo sostiene que la superficie vulnerable es la trayectoria entera. Para quien ejecuta modelos de pesos abiertos o autoalojados — donde el flujo de generación es totalmente controlable — eso amplía considerablemente la superficie de ataque, y debilita la idea de confiar en una sola sonda de estados ocultos como señal de seguridad.
También replantea un debate defensivo: la alineación robusta quizá deba entrenarse contra el proceso de generación, y no solo evaluarse sobre su respuesta final.
Defensas
- No confíe en la posición. Valide y restrinja la secuencia de mensajes del asistente en la frontera de la API; rechace los prefills del asistente proporcionados por el cliente y cualquier ruta que permita que texto no confiable vuelva a entrar como salida del modelo. Es la lección de los jailbreaks por prefill, generalizada a todo el flujo.
- Trate las sondas de seguridad sobre estados ocultos como una señal, no una prueba. Según este artículo, la alineación de las direcciones de rechazo en las activaciones no garantiza una generación segura bajo perturbación. Combine cualquier detector a nivel de representación con comprobaciones del lado de la salida.
- Añada salvaguardas a nivel de salida y de trayectoria. Vuelva a analizar la salida completa y en streaming, no solo el prompt y los primeros tokens.
- Para quienes entrenan modelos: considere la alineación a nivel de trayectoria — exponer el modelo a perturbaciones simuladas a mitad de secuencia durante el entrenamiento de seguridad — tal como describe el artículo.
- Mantenga honesto el modelo de amenaza. La inyección a mitad de secuencia supone el control del flujo de generación (pesos abiertos, autoalojado o API con prefill). Los endpoints de chat alojados que prohíben los prefills del asistente elevan el listón, pero no abordan por sí solos las tuberías de reinyección.
Estado
| Elemento | Detalle |
|---|---|
| Artículo | Inference-Time Vulnerability Beyond Shallow Safety (arXiv:2606.04778) |
| Publicado | 3 de junio de 2026 |
| Tipo | Resultado de investigación + defensa en el entrenamiento (sin exploit publicado) |
| Se apoya en | Qi et al., …More Than a Few Tokens Deep (arXiv:2406.05946) |
| Afectados | LLM alineados; máxima exposición en contextos de pesos abiertos / autoalojados |