Prueba del NIST: ningún conjunto finito de barreras frena todo jailbreak
Un científico del NIST aplica la lógica de incompletitud de Gödel para probar que cualquier conjunto finito de barreras de IA puede ser eludido por algún prompt: el argumento de un modelo de seguridad de monitoreo y actualización continuos.
¿De qué se trata?
El 9 de junio de 2026, el NIST publicó un comunicado que describe un resultado revisado por pares de Apostol Vassilev, científico sénior del Instituto Nacional de Estándares y Tecnología (NIST) y especialista en aprendizaje automático adversarial. En el artículo «Robust AI Security and Alignment: A Sisyphean Endeavor?» (IEEE Security & Privacy, mayo de 2026, DOI 10.1109/MSEC.2026.3678214), Vassilev ofrece una prueba matemática de que ningún conjunto finito de barreras de protección es universalmente robusto frente a los prompts adversariales. Para cualquier colección fija de reglas de seguridad existe un prompt que hace que el modelo las ignore; lo único que falta es encontrarlo.
No es una divulgación de vulnerabilidad ni hay un payload. Es un límite estructural y demostrable de un enfoque defensivo que buena parte de la industria todavía trata como un problema a resolver de una vez. Lo cubrimos porque la conclusión replantea cómo deben repartir los equipos su esfuerzo de seguridad, y porque pone una base rigurosa bajo un giro ya defendido con argumentos empíricos —entre ellos el de OWASP, que sostiene que los defensores deben contener la inyección de prompts a la velocidad de la máquina en lugar de esperar una solución definitiva.
Cómo funciona
El argumento extiende los teoremas de incompletitud de Kurt Gödel, publicados en 1931. Gödel demostró que ningún sistema formal consistente construido sobre un número finito de axiomas puede probar toda afirmación verdadera expresable en él; se pueden añadir axiomas para cubrir los huecos, pero cada adición reabre el mismo problema. Vassilev lo traslada a la seguridad de la IA: las barreras que escribe el diseñador de una IA forman precisamente ese conjunto finito de reglas, así que siempre existirá una entrada que las reglas no cubren.
Dos propiedades de los LLM hacen que esta brecha sea explotable en la práctica, y no solo teórica:
Propiedad Consecuencia para las barreras
------------------------------ --------------------------------------------
Entrada en lenguaje natural La verificación de cumplimiento contra un
conjunto finito de reglas es «infinitamente
ambigua»: la intención dañina se oculta en
texto plano de infinitas maneras.
Instrucciones y datos El modelo carece de una frontera interna
comparten el mismo canal fiable entre reglas de confianza y entrada no
fiable, así que la entrada puede volverse
instrucción.
Algo crucial: la prueba es un resultado de existencia, no una receta. Afirma que un prompt de elusión existe para cualquier defensa fija; no le da al atacante ningún método para construirlo. En el planteamiento de Vassilev, esto empuja a los adversarios hacia un descubrimiento al estilo zero-day —buscar una debilidad que nadie más conoce— en lugar de reutilizar una técnica publicada. Es el mismo hecho estructural que subyace al trilema de defensa de los wrappers anti-inyección y la razón por la que los enfoques que apuntan a barreras demostrables restringen lo que un agente puede hacer en vez de prometer que el modelo nunca será engañado.
Por qué importa
El resultado traza una línea bajo el modelo de seguridad de «una vez y listo»: lanzar un modelo, acoplar un clasificador y declarar cerrado el problema de seguridad. Si una defensa completa y fija es matemáticamente imposible, entonces cualquier afirmación de ser «robusto frente a todos los prompts adversariales» es falsa por construcción, y un conjunto estático de barreras es una instantánea que se degrada a medida que los atacantes la sondean.
Los hallazgos empíricos apuntan en la misma dirección. La cobertura de Help Net Security cita al Trustworthy AI Research Lab de Stanford, según el cual las barreras a nivel de modelo son insuficientes por sí solas —ataques de fine-tuning eludieron a Claude Haiku en el 72 % de los casos y a GPT-4o en el 57 %—, en eco al patrón más amplio donde un fine-tuning de apariencia inofensiva degrada la seguridad. La inyección de prompts encabezó el OWASP 2025 LLM Top 10 precisamente porque a los modelos les cuesta separar las instrucciones de los datos. La prueba explica por qué nada de esto es una carencia de ingeniería pasajera.
Defensas
La receta de Vassilev no es la desesperanza, sino un cambio de modelo: pasar de buscar una solución permanente a una postura de monitoreo y actualización continuos, con tres elementos:
- Red teaming continuo. Montar equipos (y arneses automatizados) que rastreen sin descanso nuevos prompts adversariales antes que los atacantes. Aquí la economía favorece la velocidad —véase cómo el red teaming agéntico comprime semanas en horas.
- Endurecimiento continuo. Actualizar las barreras contra cada nuevo prompt descubierto y conectar suites de pruebas adversariales en el CI/CD, de modo que cada cambio de modelo, de prompt o de configuración de agente vuelva a ejecutar automáticamente la batería de ataques.
- Resiliencia operativa. Asumir que un exploit acabará pasando. Priorizar la reducción del radio de impacto y la recuperación rápida: alcances de herramientas mínimos, credenciales efímeras y contención en tiempo de ejecución en lugar de revisar registros a posteriori.
- Ir más allá de las reglas fijas. Combinar el filtrado de entrada/salida con señales a nivel de representación o de comportamiento, como la detección de jailbreak sobre el estado interno, aceptando que cada capa eleva el costo sin garantizar la cobertura.
- Fijar expectativas honestas. El objetivo explícito de Vassilev es un equilibrio económico: hacer que el costo de hallar un nuevo exploit supere lo que un atacante está dispuesto a gastar. Es seguridad parcial y continua, no una meta final.
Estado
| Elemento | Detalle |
|---|---|
| Autor | Apostol Vassilev, científico sénior, NIST |
| Artículo | «Robust AI Security and Alignment: A Sisyphean Endeavor?», IEEE Security & Privacy, mayo de 2026 (DOI 10.1109/MSEC.2026.3678214) |
| Comunicado NIST | 9 de junio de 2026 |
| Cobertura de prensa | Help Net Security, 10 de junio de 2026 |
| Naturaleza | Prueba matemática (basada en Gödel): sin payload, sin método de ataque |
| Conclusión | Las barreras fijas no pueden ser universalmente robustas; adoptar monitoreo y actualización continuos |
La lección duradera: la seguridad de la IA, como las matemáticas de Gödel, no tiene un conjunto finito de axiomas que la cierre para siempre. Las barreras siguen mereciendo construirse —elevan el costo para el atacante—, pero son un proceso a mantener, no un perímetro a terminar. El objetivo honesto es volver los ataques económicamente prohibitivos y, luego, no detenerse nunca.
Sources
- → https://www.nist.gov/news-events/news/2026/06/nist-mathematical-proof-supports-transition-continuous-monitor-and-update
- → https://www.helpnetsecurity.com/2026/06/10/broken-ai-guardrails-research/
- → https://doi.org/10.1109/MSEC.2026.3678214
- → https://techxplore.com/news/2026-06-mathematical-proof-reveals-ai-guardrails.html