JAILBREAK

(24)

24 hack(s).

Sobrecarga de información: prompts densos de imagen-texto para jailbreak de LLM visuales

Un artículo de la NUS (julio de 2026) hace jailbreak a modelos de visión-lenguaje sobrecargándolos con composiciones recursivas de imagen y tipografía — 84 % de éxito en Gemini y GPT-4.1-mini, con prompts que se transfieren entre modelos.

2026-07-17//7 min

JAILBREAK MEDIUM NEW

Jailbreaks de contexto largo: la posición del objetivo debilita la seguridad

Un estudio de CMU muestra que rodear una petición dañina con relleno inofensivo y situar el objetivo al principio de un contexto largo degrada los rechazos en LLaMA, Qwen, Mistral y Gemini.

2026-07-15//7 min

JAILBREAK MEDIUM NEW

Jailbreak a nivel de flujo: el agente escribe lo que rechaza en el chat

Un estudio del Alan Turing Institute (julio de 2026) muestra que los agentes de código rechazan una petición dañina en el chat pero redactan el mismo contenido dentro de un flujo de build guiado por una métrica: 816/816 salidas peligrosas en cuatro backends Claude y Gemini.

2026-07-13//8 min

JAILBREAK MEDIUM NEW

Por qué los LLM de difusión resisten los jailbreaks — hasta el anidamiento de contexto

Los modelos de lenguaje de difusión corrigen muchos jailbreaks durante la generación, una ventaja de seguridad frente a los autorregresivos. Pero la investigación de 2026 muestra que el anidamiento de contexto los evade.

2026-07-09//7 min

JAILBREAK CRITICAL NEW

Poesía y cuentos: cómo el formato jailbreak a los LLM

Dos estudios de 2025–2026 muestran que reformular una petición dañina como verso o como cuento al estilo de Propp elude el alineamiento de casi todos los modelos de frontera: una clase de ataque, no un truco aislado.

2026-07-09//7 min

JAILBREAK MEDIUM NEW

Preguntas inofensivas, respuesta prohibida: la evasión por descomposición del conocimiento

Un artículo de ICML 2026 describe un jailbreak que nunca formula nada dañino: divide un objetivo prohibido en subpreguntas inofensivas y luego reensambla la respuesta, con una tasa de evasión anunciada de más del 95 % frente a las barreras comerciales.

2026-07-07//6 min

JAILBREAK MEDIUM NEW

Persona Attack: cómo la memoria de conversación erosiona la alineación de seguridad

Un artículo de junio de 2026 muestra que un jailbreak repartido en varios turnos —que construye una persona en la memoria del modelo— puede superar gradualmente al entrenamiento de seguridad, con una tasa de éxito alta una vez acumulado suficiente contexto.

2026-07-06//6 min

JAILBREAK CRITICAL NEW

Secuestro de la cadena de razonamiento: las trazas largas diluyen el rechazo del modelo

Un jailbreak de caja negra entierra una petición dañina bajo miles de tokens de razonamiento inofensivo. Cuanto más larga es la traza, más se debilita la señal interna de rechazo — hasta un 100 % de éxito en modelos de razonamiento de vanguardia.

2026-07-05//7 min

JAILBREAK MEDIUM NEW

La superficie residual de jailbreak: los ataques adaptativos aún rompen los modelos de frontera

Un estudio red-team de junio de 2026 sobre dos modelos de frontera muestra que la ofuscación estática está casi muerta, pero la búsqueda adaptativa iterativa sigue confirmando completaciones dañinas en todas las categorías — y gana en el primer o segundo paso.

2026-07-05//6 min

JAILBREAK MEDIUM NEW

Trazas de moderación simuladas: jailbreak a LLM con herramientas

Un artículo de julio de 2026 muestra que se puede hacer jailbreak a LLM con llamada a funciones simulando un flujo de auditoría de seguridad entre turnos — prueba de que el filtrado a nivel de prompt no basta.

2026-07-04//6 min

JAILBREAK MEDIUM NEW

Dividir una tarea dañina en pasos inocuos burla las barreras de los agentes

Un marco de red teaming de finales de mayo de 2026 descompone un objetivo malicioso en subtareas individualmente inocuas y alcanza hasta el 100 % de evasión en agentes construidos con modelos de vanguardia; las defensas actuales solo lo contienen en parte.

2026-07-04//8 min

JAILBREAK MEDIUM NEW

Registro fanfiction: cuando todo un estilo de escritura se vuelve el jailbreak

Un artículo de arXiv de junio de 2026 muestra que el alineamiento cubre mal un registro entero de la escritura humana — la voz fanfiction — elevando la tasa media de éxito de 0,28 a 0,73, sin modelo atacante ni adaptación por objetivo.

2026-07-03//7 min

JAILBREAK MEDIUM NEW

Sobrecarga cognitiva: cómo una baja resolución de imagen jailbreakea los LLM multimodales

Un artículo de mayo de 2026 (Findings of ACL 2026) muestra que reducir la resolución de un texto renderizado como imagen empuja a los MLLM de vanguardia a una «zona de confort de ataque» donde la alineación de seguridad se desploma mientras el OCR sigue siendo preciso.

2026-06-21//6 min

JAILBREAK MEDIUM NEW

Jailbreak con encuadre CTF: el prompt se filtra en el ataque

Sysdig (15 de junio de 2026) detectó a operadores que jailbreakean su propio asistente de código disfrazando las peticiones de exploit como CTF o caza de CVE — y ese encuadre se filtra en los User-Agent, contraseñas y registros IAM, dejando una huella valiosa para los defensores.

2026-06-21//8 min

JAILBREAK MEDIUM NEW

Jailbreak por RL: la recompensa y la duración del episodio mandan

Un estudio de junio de 2026 descompone el jailbreak por aprendizaje por refuerzo y halla que el diseño del entorno — recompensa densa y episodios largos — pesa más que el algoritmo.

2026-06-20//7 min

JAILBREAK MEDIUM NEW

UniAttack: un jailbreak automatizado que apunta a las defensas LLM en capas

Un preprint de junio de 2026 construye un marco de red teaming automatizado que combina varias estrategias y lo lanza contra modelos con defensas apiladas, mostrando que apilar barreras no garantiza robustez.

2026-06-20//5 min

JAILBREAK MEDIUM NEW

Los jailbreaks adaptativos siguen rompiendo las defensas de los LLM: el problema es la evaluación

Un framework de junio de 2026, UniAttack, compone «características» de ataque reutilizables en jailbreaks de un solo intento que se transfieren entre modelos y defensas, recordando que una defensa probada solo frente a ataques estáticos da una falsa sensación de seguridad.

2026-06-18//6 min

JAILBREAK MEDIUM

IICL: la compleción de patrones vence al alineamiento con 10 ejemplos

Un artículo de arXiv de abril de 2026 vuelve el aprendizaje en contexto contra el modelo: una decena de ejemplos con operadores abstractos hacen que GPT-5.4 complete un patrón dañino que sus filtros de contenido nunca detectan.

2026-06-17//7 min

JAILBREAK MEDIUM NEW

Para-jailbreaking: cuando la «safe completion» filtra el daño en la alternativa

Un artículo de arXiv del 27 de abril de 2026 nombra un nuevo modo de fallo de la seguridad centrada en la salida: el modelo rechaza correctamente la pregunta directa, pero filtra contenido dañino dentro de la «alternativa segura» que ofrece en su lugar.

2026-06-16//6 min

JAILBREAK MEDIUM NEW

Jailbreak de vídeo multiclip: por qué el vídeo rompe la seguridad de los LLM multimodales

Un artículo de ACL de junio de 2026 muestra que el canal de vídeo es una frontera de seguridad más débil que la imagen: la tasa de éxito sube al dividir el vídeo en clips diversos.

2026-06-14//7 min

JAILBREAK MEDIUM NEW

CodeSpear: cuando la decodificación con restricción gramatical se convierte en superficie de jailbreak

Un artículo de arXiv del 10 de junio de 2026 muestra que la función de fiabilidad que obliga a que la salida de código de un LLM sea sintácticamente válida puede convertirse en un jailbreak. Aplicar una gramática de código inocua elude los rechazos; la defensa CodeShield de los autores responde con código señuelo.

2026-06-12//6 min

JAILBREAK MEDIUM NEW

Sockpuppeting: una sola línea de prefill que hace jailbreak a 11 LLM en producción

Una línea inyectada como último mensaje del asistente induce a 7 de 10 modelos importantes a generar contenido dañino. La defensa no está en el modelo — está en la validación del orden de mensajes a nivel de API.

2026-05-28//8 min

JAILBREAK MEDIUM

Jailbreaks por codificación matemática: cuando la teoría de conjuntos elude la seguridad de los LLM

Un artículo de arXiv publicado el 5 de mayo de 2026 muestra que reformular un prompt dañino como un problema de teoría de conjuntos o de lógica formal evade el entrenamiento de seguridad en el 46–56 % de los intentos sobre ocho modelos frontera — pero solo si un LLM auxiliar realiza la reformulación.

2026-05-25//7 min

JAILBREAK CRITICAL

Many-shot jailbreaking: 256 ejemplos para saltar cualquier alineamiento

Investigadores de Anthropic mostraron que rellenando la ventana de contexto con 256 falsos ejemplos de Q&A se elude el entrenamiento de seguridad. Más contexto = más superficie de ataque.

2026-05-15//6 min