JAILBREAK MEDIUM

Jailbreaks por codificación matemática: cuando la teoría de conjuntos elude la seguridad de los LLM

Un artículo de arXiv publicado el 5 de mayo de 2026 muestra que reformular un prompt dañino como un problema de teoría de conjuntos o de lógica formal evade el entrenamiento de seguridad en el 46–56 % de los intentos sobre ocho modelos frontera — pero solo si un LLM auxiliar realiza la reformulación.

2026-05-25 // 7 min affects: gpt-4o, gpt-5, gpt-5-mini, claude-3.5-sonnet, claude-4, gemini-1.5-pro, llama-3.1, deepseek-v3

¿De qué se trata?

El 5 de mayo de 2026, Haoyu Zhang, Mohammad Zandsalimy y Shanu Sushmita publicaron Exposing LLM Safety Gaps Through Mathematical Encoding: New Attacks and Systematic Analysis (arXiv:2605.03441). El artículo sistematiza una familia de ataques que circulaba desde el preprint MathPrompt de Bethany et al. (arXiv:2409.11445, septiembre de 2024) y el artículo Logic Jailbreak de mayo de 2025 (arXiv:2505.13527): se toma un prompt dañino en lenguaje natural, se pide a un LLM auxiliar que lo reescriba como un problema coherente de teoría de conjuntos, álgebra abstracta, lógica formal o notación cuántica, y se entrega la versión matematizada al modelo objetivo.

Sobre ocho modelos objetivo y dos benchmarks de jailbreak establecidos, el artículo de mayo de 2026 mide una tasa media de éxito del ataque del 46 % al 56 %. El resultado MathPrompt original, sobre trece modelos de 2024, era aún mayor, del 73,6 %. La novedad es doble: una nueva codificación en lógica formal que iguala o supera la codificación por teoría de conjuntos en los modelos frontera, y una ablación sistemática que aísla por qué funciona el ataque.

Cómo funciona

El pipeline tiene tres componentes: un LLM atacante, un esquema de codificación fijo y el LLM objetivo. Al atacante se le instruye para traducir la intención dañina en un enunciado matemático que conserva la estructura operativa de la solicitud envolviéndola en notación simbólica. El objetivo resuelve entonces el problema matemático — que, decodificado, es la respuesta al prompt dañino original.

# Estructura conceptual del ataque — ilustrativa, no es un payload.
# El artículo de mayo de 2026 publica metodología y agregados, sin transcripciones.

harmful_prompt    = "[REDACTED — extraído de AdvBench / HarmBench]"
encoder_prompt    = ENCODING_TEMPLATE[ "set_theory" | "formal_logic" | "abstract_algebra" ]
math_problem      = attacker_llm.reformulate(harmful_prompt, encoder_prompt)
# math_problem es un problema simbólico coherente cuya solución
# se mapea 1-a-1 con la respuesta dañina. Los clasificadores solo ven símbolos.

answer            = target_llm.solve(math_problem)
harmful_answer    = decode(answer)   # por construcción, por el atacante

La ablación sistemática es la parte que los defensores deben leer. Los autores comparan tres modos de reformulación: (1) un LLM auxiliar que reescribe en profundidad el prompt como un genuino problema matemático, (2) envoltorios basados en reglas que añaden notación matemática sin cambiar la semántica subyacente, y (3) el prompt dañino intacto. El modo 1 alcanza una tasa del 46–56 %. El modo 2 no rinde mejor que el modo 3. La conclusión: no son los símbolos los que engañan al modelo, es la distancia semántica entre el texto de superficie y la intención dañina, inducida por un reescritor competente.

El análisis de embeddings en MathPrompt corrobora esta lectura. Los prompts codificados se sitúan lejos de sus equivalentes en lenguaje natural en el espacio de representación del modelo, justo donde los clasificadores de seguridad — entrenados con ejemplos dañinos en lenguaje natural — pierden capacidad discriminativa.

Por qué importa

Tres puntos merecen sostenerse juntos.

Primero, el entrenamiento de alineación tiene un punto ciego representacional. El post-entrenamiento de seguridad generaliza a lo largo de la variedad de daños expresados en lenguaje natural; no generaliza a lo largo de transformaciones arbitrarias que preservan la semántica. La familia de codificación matemática es una instancia; los ataques por cifrado, por idiomas de bajos recursos y basados en persona son otras. El artículo de mayo de 2026 es la medición más limpia del efecto sobre una cohorte frontera que incluye GPT-5 y GPT-5-Mini, descritos como sustancialmente más robustos que los modelos previos — pero todavía vulnerables.

Segundo, el ataque escala con la capacidad del atacante, no solo con la debilidad del defensor. El paso de reformulación exige que el LLM auxiliar produzca una reescritura matemáticamente coherente. A medida que los modelos open-weight mejoran en razonamiento simbólico, el paso de reescritura se vuelve más barato y más fiable. Esto se alinea con el resultado de Large Reasoning Models as Autonomous Jailbreak Agents (Hagendorff et al., Nature Communications 2026): mejorar la capacidad de razonamiento mejora la capacidad de ataque contra modelos alineados.

Tercero, el ataque no es un payload, es una transformación. No hay una cadena canónica que filtrar. Dos codificaciones del mismo prompt dañino no comparten tokens de superficie. Por eso publicar el principio, sin payloads, es la opción responsable: los defensores necesitan la palanca conceptual, no las entradas.

Defensas

El artículo cierra con una dirección defensiva que los autores resumen como «razonar sobre la estructura matemática en lugar de la semántica de superficie». En la práctica, para los equipos que despliegan productos con LLM:

Filtrar las salidas, no solo las entradas. La clasificación en la salida — contrastada con la tarea declarada por el usuario y aplicada tras la generación — es robusta frente a entradas codificadas como la clasificación en la entrada no puede serlo. Consistente con el resultado de Evaluation of Prompt Injection Defenses in Large Language Models (arXiv:2604.23887, actualizado en mayo de 2026): el filtrado en la salida logró cero filtraciones sobre 15 000 ataques, mientras que todas las configuraciones de «modelo que se defiende a sí mismo» acabaron cediendo.
Decodificar antes de servir. Si la superficie aplicativa solo espera respuestas en lenguaje natural, parsee la salida del modelo y rechace lo que contenga contenido simbólico desarrollado, cifrados decodificados o derivaciones paso a paso en lógica formal de instrucciones operativas.
Usar un clasificador independiente y más simple sobre la intención reconstruida. En lugar de pedir al mismo modelo que juzgue su propia salida, ruteé el par (entrada, salida) por un pequeño clasificador de daño dedicado — Llama Guard 3, ShieldGemma, Granite Guardian — entrenado en lenguaje natural. El paso de decodificación previo a la clasificación es relevante.
Limitar los ámbitos de uso de herramientas. Si el LLM está conectado a herramientas, un jailbreak matemático exitoso que devuelve una respuesta textual es peor cuando esa respuesta puede ejecutarse. Listas blancas por herramienta y el patrón Agents Rule of Two reducen el radio de impacto.
Seguir esta familia de ataques en las evaluaciones. Añada una variante codificada matemáticamente a sus benchmarks de rechazo. Vuelva a ejecutar tras cada cambio de prompt de sistema. El artículo de mayo de 2026 muestra que los modelos más nuevos son más robustos — pero solo en las codificaciones probadas.

Estado

Elemento	Referencia	Fecha	Notas
Artículo principal — preprint arXiv	`arXiv:2605.03441`	05/05/2026	8 modelos objetivo, 2 benchmarks, ASR 46–56 %
Antecedente — MathPrompt	`arXiv:2409.11445` (Bethany et al.)	17/09/2024	13 modelos, ASR media 73,6 %
Antecedente — Logic Jailbreak	`arXiv:2505.13527`	05/2025	Expresiones lógicas formales como codificación
Referencia independiente — Promptfoo LM Security DB	promptfoo.dev	2026	Catalogado como «Symbolic Math Jailbreak»
Complemento defensivo — filtrado en salida	`arXiv:2604.23887`	05/2026	Resultado cero-filtraciones sobre 15 000 ataques

La clase de ataque no es nueva; el artículo de mayo de 2026 es una actualización de medición sobre modelos frontera actuales y una ablación limpia del porqué funciona la familia. La señal accionable para los defensores apunta en la misma dirección que los otros resultados de mayo de 2026: la frontera que sobrevive a un atacante adaptativo se encuentra fuera del modelo, en el filtrado de salida y las restricciones de la capa de acciones.