Optimus: puntuar jailbreaks más allá del binario revela un régimen sigiloso óptimo
Un paper de arXiv del 9 de mayo de 2026 sostiene que la tasa de éxito binaria oculta los jailbreaks más peligrosos. Su métrica Optimus puntúa los prompts por similitud y nocividad, y expone una banda «sigilosa óptima» donde el ASR cae a cero.
¿Qué es esto?
El 9 de mayo de 2026, investigadores de la University of Texas at El Paso, Southern Illinois University Carbondale y University of Illinois Urbana-Champaign (Ismail Hossain, Tanzim Ahad, Md Jahangir Alam, Sai Puppala, Syed Bahauddin Alam y Sajedul Talukder) publicaron The Art of the Jailbreak en arXiv (cs.CR, 2605.09225). El argumento es ante todo de medición: la disciplina evalúa los jailbreaks casi exclusivamente con una tasa de éxito binaria (ASR) — ¿produjo el modelo una salida nociva, sí o no? — y ese único bit descarta la información que más necesitan los defensores.
Su respuesta es Optimus, una puntuación continua sin entrenamiento, junto con un corpus de 114 000 prompts de jailbreak composicionales construido para estudiarla. Aquí tratamos la contribución sobre la evaluación, no el corpus de prompts: el hallazgo defendible y duradero es que una lectura de todo o nada es estructuralmente ciega ante una clase de jailbreaks «silenciosos».
Cómo funciona
Optimus puntúa un prompt de jailbreak en dos ejes simultáneos, escritos J(S, H):
- S — similitud semántica entre el prompt de jailbreak y la solicitud nociva original. Un S alto significa que la reformulación sigue pidiendo lo mismo.
- H — probabilidad de nocividad de la propia salida del jailbreak, estimada por un clasificador de nocividad.
Ambos se combinan mediante funciones de penalización calibradas en un único número continuo, sin ningún entrenamiento específico de la tarea — Optimus emplea modelos de embedding e inferencia disponibles de serie (la mejor pareja de los autores es all-mpnet-base-v2 × deberta-large-mnli) en lugar de un juez fine-tuned que haya que reentrenar a medida que evolucionan los ataques. Esa propiedad sin entrenamiento es el punto clave: un juez binario o un clasificador a medida envejece en cuanto cambia la distribución de ataque; una puntuación de similitud más nocividad, no.
Para tener algo que medir, los autores aplicaron 912 estrategias de composición observadas en la práctica a 125 prompts nocivos iniciales de JailBreakV-28K, y etiquetaron cada prompt resultante en una de 14 categorías de ciberataque (malware, phishing, escalada de privilegios, exfiltración de datos, etc.) mediante votación mayoritaria de seis modelos. Aquí no se reproduce ningún prompt de explotación; la referencia canónica es el paper.
El resultado principal es un régimen «sigiloso óptimo». Al situar los prompts en el plano (S, H), los más peligrosos se agrupan en torno a S* ≈ 0,57, H* ≈ 0,43 — reformulaciones que conservan suficiente de la intención original para seguir siendo útiles a un atacante, pero quedan lo bastante saneadas en superficie para sortear los filtros. Justo en esa banda, el ASR binario cae hacia cero: el ataque funciona, pero un evaluador de todo o nada registra un «fallo» porque la salida no activa el control grueso de contenido nocivo. La métrica en la que confía un equipo es la más ciega precisamente donde se concentra el riesgo.
Por qué importa
La mayoría de las defensas de LLM en producción se apoyan en clasificadores ligeros — LlamaGuard, PromptGuard, WildGuard y similares — situados delante de un modelo alineado por RLHF. El modelo de amenaza del paper es realista: un atacante de caja negra, de un solo turno, que puede iterar sin conexión contra copias locales, modelos de embedding y estimadores de nocividad antes de enviar un único prompt pulido. Frente a ese adversario, los generadores conscientes de la categoría de los autores alcanzan una perplejidad de 24–39 (frente a 40–140 de AutoDAN y AmpleGCG — una perplejidad menor significa un texto más fluido y menos anómalo) con evasión de filtro medida sobre LlamaPromptGuard-2-86M.
Dos consecuencias para los defensores. Primero, si su cuadro de mando de red team es el ASR, está sobredeclarando su propia seguridad. Los jailbreaks marcados como «bloqueados» incluyen los sigilosos óptimos que en realidad tuvieron éxito. Segundo, la puntuación por categoría cambia dónde invertir el esfuerzo. Optimus ofrece un desglose por clase de ataque — qué estrategias son más eficaces contra prompts de phishing frente a prompts de escalada de privilegios — para dirigir el endurecimiento a las categorías donde el modelo es realmente más débil, en lugar de una cifra indiferenciada de «resistencia a jailbreaks». Es la misma crítica que las revisiones de robustez dirigen al campo: una evaluación que mezcla la forma del ataque con la semántica de la amenaza dice poco de la exposición real.
Defensas
El paper es en sí mismo un instrumento defensivo — mejor medición — pero implica cambios concretos de práctica.
-
Deje de reportar la resistencia a jailbreaks como una sola cifra de ASR. Acompáñela de una puntuación continua y bidimensional (similitud a la intención × nocividad) para que su evaluación vea la banda sigilosa óptima que el todo o nada oculta.
-
Puntúe por categoría de ataque, no en agregado. Desglose los resultados por objetivo concreto (malware, phishing, escalada de privilegios, exfiltración de datos) y priorice las categorías con peores puntuaciones. Un «92 % bloqueado» agregado puede ocultar una tasa de éxito del 40 % en una categoría.
-
Pruebe con reformulaciones fluidas y composicionales — no solo plantillas. Las defensas ajustadas contra plantillas tipo DAN hechas a mano o ataques de optimización de tokens pasarán por alto los prompts de baja perplejidad reformulados semánticamente. Incluya estrategias de composición observadas en la práctica en su conjunto de red team.
-
No dependa solo de clasificadores de contenido de superficie. Un filtro que se basa en señales léxicas de nocividad es exactamente lo que derrota el régimen sigiloso óptimo. Superponga detección basada en representaciones o activaciones que inspeccione el estado interno, no solo las cadenas de salida.
-
Reevalúe de forma continua. Como Optimus no requiere reentrenamiento, puede funcionar como métrica permanente en CI ante cada actualización del modelo — detectando regresiones donde un nuevo checkpoint se vuelve discretamente más fácil de jailbreakear en una categoría.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| The Art of the Jailbreak | arXiv:2605.09225v1 (cs.CR) | 2026-05-09 | Puntuación Optimus + corpus de 114 k prompts composicionales |
| Métrica Optimus | Paper | 2026-05-09 | J(S,H) sin entrenamiento; régimen sigiloso óptimo S*≈0,57, H*≈0,43 |
| Generadores | Paper | 2026-05-09 | Perplejidad 24–39 vs 40–140 (AutoDAN/AmpleGCG); evasión medida sobre LlamaPromptGuard-2-86M |
| Alcance | Paper | 2026-05-09 | 912 estrategias de composición × 125 prompts iniciales (JailBreakV-28K), 14 categorías de ciberataque |
La idea para llevarse no es «los jailbreaks son imparables», sino que la forma en que la mayoría de los equipos miden la resistencia a jailbreaks subestima sistemáticamente los ataques que importan. Una puntuación continua, consciente de la categoría, que capta tanto la intención semántica como la nocividad, da a los defensores un mapa de dónde cede realmente su modelo — algo que un único bit de tasa de éxito no puede ofrecer.