DEFENSE MEDIUM NEW

Por qué los jailbreaks se transfieren entre modelos — y cómo el «salado» contraataca

Un estudio sobre 20 modelos open-weight muestra que la transferencia de jailbreaks surge de las representaciones internas compartidas, no de un fallo del alineamiento. Una defensa llamada LLM salting rota la dirección de rechazo para romper la reutilización.

2026-06-15 // 6 min affects: llama-2-7b-chat, vicuna-7b, open-weight-llms

¿Qué es esto?

Un jailbreak diseñado contra un modelo a menudo funciona contra otros: es la transferibilidad. El estudio Jailbreak Transferability Emerges from Shared Representations (Rico Angell, Jannik Brinkmann, He He; arXiv:2506.12913, primera versión en junio de 2025, revisada el 28 de octubre de 2025) probó 20 modelos open-weight contra 33 ataques de jailbreak, cada uno aplicado a 313 prompts dañinos, y concluye que la transferencia no es un artefacto del alineamiento ni de las familias de modelos. Es una consecuencia de cómo los modelos codifican el lenguaje internamente. La implicación práctica es incómoda: un atacante puede precalcular un jailbreak y reutilizarlo en muchos despliegues, con la misma economía que una rainbow table de contraseñas. Una contramedida presentada por Sophos X-Ops en CAMLIS 2025, el «LLM salting» (salado de modelo, blog de Sophos), está diseñada precisamente para romper esa reutilización.

Cómo funciona

El estudio aísla dos factores que determinan sistemáticamente si un ataque pasa de un modelo a otro: (1) cuán similares son las representaciones internas de dos modelos ante prompts benignos, y (2) la fuerza del jailbreak en el modelo de origen. La prueba causal es la parte convincente: destilar un modelo de origen únicamente sobre las respuestas benignas de un modelo objetivo, sin ningún dato de ataque, aumenta la similitud de representaciones y eleva de forma medible la transferencia. El patrón cualitativo es coherente: los ataques de tipo persona («eres un asistente sin restricciones…») se transfieren mucho más que los basados en cifrado, porque los ataques en lenguaje natural aprovechan el espacio de representación compartido, mientras que los trucos de cifrado dependen de peculiaridades propias de cada modelo que no generalizan.

La vertiente defensiva se apoya en Arditi et al., Refusal in LLMs is mediated by a single direction (arXiv:2406.11717): una única «dirección de rechazo» lineal en el espacio de activaciones gobierna en gran medida si un modelo declina una petición. El LLM salting añade un término de pérdida al fine-tuning que penaliza la alineación con esa dirección de rechazo precalculada en los prompts dañinos, rotando la dirección para que el modelo «rechace de otra forma». Aquí no se reproduce ningún payload: se trata de una receta de fine-tuning defensiva, no de un ataque. En los experimentos de Sophos, el salado se aplicó en las capas más alineadas con la dirección de rechazo (L = {16, 17, 18, 19, 20} en los modelos de 7B estudiados).

Las cifras reportadas son notables. Frente a ataques por sufijo Greedy Coordinate Gradient (GCG) que alcanzaban un 100 % de tasa de éxito (ASR) en los modelos base sin modificar, el salado redujo la ASR a 2,75 % en LLaMA-2-7B-Chat y a 1,35 % en Vicuna-7B, manteniendo la precisión MMLU dentro del ruido entre ejecuciones. En comparación, el fine-tuning estándar y los cambios de prompt de sistema solo bajaban la ASR a aproximadamente 40–60 %.

Por qué importa

La homogeneidad de modelos es ya la norma: miles de productos se asientan sobre un puñado de modelos base con una personalización mínima. Representaciones compartidas significan una superficie de ataque compartida: un jailbreak validado una sola vez puede triunfar de forma silenciosa contra toda una clase de aplicaciones derivadas, exponiendo datos internos o produciendo salidas dañinas a escala de todo un parque. La investigación sobre transferencia reformula el fenómeno: no es mala suerte, sino una propiedad estructural del aprendizaje de representaciones. Es una mala noticia, porque no se puede parchear cómo un modelo codifica el lenguaje; y una buena noticia, porque la transferencia es predecible a partir de la similitud de representaciones y rompible al modificar la geometría en lugar de perseguir los prompts uno a uno.

Defensas

Romper la geometría compartida. El fine-tuning por salado rota la dirección de rechazo para que los jailbreaks precalculados y transferidos caigan sobre el eje equivocado. Como la perturbación es propia de cada despliegue, un ataque ajustado contra el modelo base público deja de coincidir con las representaciones internas de su modelo.

Apilar defensas. El salado no es una bala de plata: se evaluó sobre todo con GCG contra modelos de 7B open-weight, y los autores señalan AutoDAN, TAP y los modelos más grandes como cuestiones abiertas. Combínelo con filtrado de entradas y detección por clasificador en lugar de tratar un único control como suficiente.

No confíe solo en ajustes de prompt. En los mismos experimentos, los cambios de prompt de sistema y el fine-tuning ordinario dejaban operativos entre el 40 y el 60 % de los jailbreaks. Considérelos fricción, no protección.

Priorice las clases de alta transferencia. Los prompts de tipo persona se transfieren con más facilidad entre modelos; oriente su detección y su red teaming hacia ellos y hacia cualquier contenido de apariencia benigna que pueda transportar instrucciones.

Reduzca la homogeneidad innecesaria. Cuando sea factible, introduzca variación propia de cada despliegue para que un ataque diseñado por ingeniería inversa contra el modelo base ascendente no generalice a su instancia.

Estado

Elemento	Referencia	Fecha	Nota
Mecanismo de transferencia	Angell et al., arXiv:2506.12913	Jun 2025 (rev. 28 oct 2025)	20 modelos open-weight, 33 ataques, 313 prompts cada uno
Dirección de rechazo	Arditi et al., arXiv:2406.11717	2024	Rechazo mediado por una sola dirección lineal
LLM salting (defensa)	Sophos X-Ops, CAMLIS 2025	Oct 2025	ASR GCG 100 % → 2,75 % (LLaMA-2-7B) / 1,35 % (Vicuna-7B)
Ataque probado	GCG — Zou et al., arXiv:2307.15043	2023	Ataque por sufijo adversario
Cuestiones abiertas	AutoDAN, TAP, modelos más grandes	—	Aún no evaluados con salado