DEFENSE LOW NEW

Los jailbreaks dejan rastro: detectarlos en las activaciones internas del LLM

Un artículo de febrero de 2026 y su continuación de marzo de 2026 muestran que un prompt de jailbreak graba una firma distintiva en las activaciones ocultas del modelo, lo que permite detectarlo en inferencia sin fine-tuning ni un modelo juez auxiliar.

2026-06-01 // 6 min affects: llama-3.1-8b, mistral, gpt-j, mamba2

¿Qué es esto?

La mayoría de las defensas contra jailbreaks miran el texto: clasificadores de entrada, filtros de salida, reglas de jerarquía de instrucciones. Una línea de investigación de 2026 sostiene que la señal más fiable está un nivel por debajo: en las propias activaciones ocultas del modelo. La tesis es que un prompt de jailbreak, por más que se disfrace en la superficie, deja un rastro consistente en el espacio latente a medida que recorre las capas del transformador, y que ese rastro puede leerse directamente para marcar el ataque.

Dos artículos recientes anclan esta idea. Jailbreaking Leaves a Trace (Sri Durga Sai Sowmya Kadali y Evangelos E. Papalexakis, UC Riverside; arXiv 2602.11495, febrero de 2026) realiza un análisis capa por capa de las representaciones internas en GPT-J, LLaMA, Mistral y el modelo de espacio de estados Mamba2, e identifica patrones reproducibles que separan las entradas adversarias de las benignas. GUARD-SLM (Md Jueal Mia y colegas, FIU; arXiv 2603.28817, 28 de marzo de 2026) reporta el mismo efecto en 7 modelos de lenguaje pequeños y 3 grandes, a través de 9 familias de ataques. Ambos parten de un trabajo precursor de octubre de 2025 del grupo de UC Riverside, Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection?.

Cómo funciona

La defensa es observacional, no generativa, por lo que no hay payload que redactar. La canalización lee el flujo residual que el modelo ya produce:

Etapa                        Qué ocurre
---------------------------  --------------------------------------------------
1. Capturar estados ocultos  Para cada prompt, recoger las representaciones
                             ocultas por capa durante la pasada hacia adelante
2. Proyectar al esp. latente Reducir / descomponer las activaciones (UCR usa
                             una descomposición tensorial sobre el tensor oculto)
3. Puntuar por capa          Un clasificador ligero estima una "susceptibilidad
                             al jailbreak" por capa a partir de la proyección
4. Decidir / intervenir      Marcar la solicitud, o eludir las capas/cabezas
                             más susceptibles en tiempo de inferencia

Dos propiedades la hacen atractiva. Primero, no necesita ni fine-tuning ni un segundo LLM que actúe como juez: el detector es un clasificador pequeño sobre activaciones que el modelo emite de todos modos, por lo que el sobrecoste en ejecución es mínimo. Segundo, es agnóstica a la arquitectura: el mismo enfoque registra señal en un transformador denso (LLaMA, Mistral) y en un modelo de espacio de estados (Mamba2), lo que sugiere que el rastro es una propiedad de cómo los modelos alineados procesan la intención adversaria, más que una peculiaridad de un diseño.

El grupo de UCR también probó una variante activa. En un LLaMA 3.1 8B abliterated —un modelo cuya dirección de rechazo de seguridad fue eliminada quirúrgicamente— eludir selectivamente las capas puntuadas como más susceptibles bloqueó el 78 % de los intentos de jailbreak preservando el comportamiento benigno en el 94 % de los prompts benignos, enteramente en inferencia.

Por qué importa

Las defensas a nivel de prompt libran una carrera perdida contra la paráfrasis: el atacante reescribe hasta colarse por el filtro. Si la señal discriminante reside en las activaciones, el atacante debe cambiar no solo la redacción sino el cómputo interno que el modelo realiza sobre la solicitud, un objetivo bastante más difícil. Que el efecto se mantenga en un modelo abliterated es notable, porque implica que existe un rastro aprovechable incluso cuando la maquinaria de rechazo estándar ha sido retirada.

El encuadre honesto es que se trata de investigación temprana y complementaria, no de un control resuelto. Las cifras altas provienen de modelos de pesos abiertos donde las activaciones son directamente accesibles; no puede ejecutar esto sobre una API cerrada a la que solo llega por la red. Una tasa de bloqueo del 78 % también significa que aproximadamente uno de cada cinco ataques sigue pasando: es una capa, no un muro.

Defensas

Para los equipos que alojan ellos mismos modelos de pesos abiertos, es una adición práctica al stack:

Instrumente el flujo residual. Si sirve modelos de pesos abiertos, ya dispone de los estados ocultos. Añada una sonda de activación ligera como señal de detección que alimente su registro y limitación de tasa existentes, en lugar de una nueva barrera bloqueante desde el primer día.
Úsela como defensa en profundidad, no como reemplazo. Mantenga el filtrado de entrada/salida y una jerarquía de instrucciones; la detección por representación cubre los ataques por paráfrasis que esquivan los filtros de texto, no los casos que esos filtros ya atrapan.
Vigile el presupuesto de falsos positivos. Un 94 % de preservación de prompts benignos en un conjunto de investigación no es un 99,9 % en producción. Ajuste los umbrales de susceptibilidad contra su propio tráfico benigno antes de dejar que la sonda deniegue solicitudes.
Recalibre tras cada fine-tune. El rastro latente es específico del modelo. Un nuevo fine-tune, un adaptador LoRA o una cuantización pueden desplazar las capas que portan la señal, así que reentrene la sonda cuando cambie los pesos.
Usuarios de modelos cerrados: trátenlo como una petición al proveedor. No puede leer usted mismo las activaciones de una API; presione a los proveedores para que expongan telemetría de señal de seguridad y apóyese en los controles de salida mientras tanto.

Estado

Elemento	Referencia	Fecha	Notas
Precursor: patrones de capa interna	arXiv 2510.06594 (UC Riverside)	2025-10	GPT-J, Mamba2; comportamiento distinto por capa
Jailbreaking Leaves a Trace	arXiv 2602.11495 (UC Riverside)	2026-02	Marco latente tensorial; 78 % bloqueados / 94 % benignos en LLaMA 3.1 8B abliterated
GUARD-SLM	arXiv 2603.28817 (FIU)	2026-03-28	9 ataques × 7 SLM + 3 LLM; defensa por activación, sin reentrenamiento

La conclusión es un desplazamiento de dónde mira el defensor. La investigación sobre jailbreaks pasó dos años en el prompt; estos trabajos sostienen que la evidencia más duradera de un ataque está en las activaciones que el prompt produce, y en modelos de pesos abiertos puede leerla casi gratis.