OFFENSIVE AI MEDIUM NEW

Zero-days escritos por IA: cómo el GTIG identificó el primer exploit creado por un modelo

El 11 de mayo de 2026, el GTIG de Google reveló el primer zero-day que cree desarrollado con IA: un script de bypass de 2FA delatado por una puntuación CVSS alucinada y docstrings de manual. Así se leen esas señales.

2026-06-01 // 6 min affects: open-source-web-admin-tools, 2fa-implementations, frontier-llms

¿Qué es esto?

El 11 de mayo de 2026, el Google Threat Intelligence Group (GTIG) publicó un informe en el que afirma que, por primera vez, había identificado a un actor de amenazas utilizando un exploit de día cero que cree desarrollado con IA. Un grupo criminal —en palabras del GTIG, con «un sólido historial de incidentes de alto perfil y explotación masiva»— planeaba desplegarlo en un evento de explotación masiva. El GTIG sostiene que su «descubrimiento proactivo» probablemente lo impidió, colaborando con el proveedor afectado para divulgar y corregir el fallo antes de que se lanzara la campaña.

El exploit en sí es modesto en alcance: un script de Python que evade la autenticación de dos factores (2FA) en una popular herramienta de administración de sistemas de código abierto basada en web, y que aún requiere credenciales válidas. Lo que hace que esta divulgación merezca atención no es el fallo, sino su procedencia: el script lleva huellas observables de autoría por modelo de lenguaje, y el fallo subyacente es de los que las herramientas tradicionales detectan mal.

Cómo funciona

Dos elementos del relato del GTIG importan a los defensores.

Primero, la clase de fallo. No fue una corrupción de memoria ni un error de saneamiento de entradas, sino un fallo de lógica semántica de alto nivel: el desarrollador codificó de forma fija una suposición de confianza en la lógica de aplicación de la 2FA —una excepción que contradecía el control que debía imponer—. Los fuzzers y el análisis estático están optimizados para encontrar caídas y sumideros de flujo de datos, y este tipo de error lógico latente les parece funcionalmente correcto. Según el GTIG, los modelos de frontera «destacan en identificar este tipo de fallos de alto nivel y anomalías estáticas codificadas de forma fija» porque saben leer la intención del desarrollador y correlacionar la lógica de 2FA con las excepciones que la rompen en silencio.

Segundo, las señales de autoría por IA. El GTIG atribuye el exploit a la IA con alta confianza a partir de la estructura del artefacto, no de una confesión:

Huella                              A qué se parece
----------------------------------  -------------------------------------------
Puntuación CVSS alucinada           Una calificación de severidad incrustada en
                                    el código que no corresponde a ninguna
                                    entrada CVE real
Docstrings sobredocumentadas        Comentarios "educativos" muy por encima de
                                    lo que un operador escribiría para una
                                    herramienta ofensiva privada
Estructura Python de manual         Menús de ayuda detallados, una clase ANSI
                                    de colores limpia, andamiaje idiomático
                                    característico de los datos de entrenamiento

Ninguno de estos elementos es prueba por sí solo —un humano puede escribir código pulcro, y un operador puede eliminar los comentarios—. Pero combinados, en una herramienta de ataque privada donde la verbosidad no aporta beneficio operativo, forman una firma reconocible. El GTIG precisa que no cree que se haya utilizado su propio modelo Gemini.

El informe sitúa todo esto dentro de un giro más amplio que el GTIG denomina la «aplicación a escala industrial de modelos generativos dentro de los flujos de trabajo ofensivos»: UNC2814 (vinculado a China) haciendo que un modelo actúe como «auditor de seguridad sénior» para investigación de firmware, el APT45 norcoreano enviando miles de prompts recursivos para validar pruebas de concepto, y familias de malware rusas usando código señuelo generado por IA para camuflar su función real.

Por qué importa

La capacidad que encontró este fallo —leer la intención del desarrollador para sacar a la luz fallos lógicos— se generaliza. Los fallos de lógica semántica son precisamente esa larga cola que históricamente ha sobrevivido a la revisión automatizada porque exige entender qué se suponía que debía hacer el código, no solo qué hace. Si los modelos de frontera cierran esa brecha a escala, la asimetría se inclina hacia quien ejecute más análisis con mayor rapidez. El analista jefe del GTIG, John Hultquist, lo formuló sin rodeos: «Existe la idea errónea de que la carrera de vulnerabilidades por IA es inminente. La realidad es que ya ha comenzado.»

El reverso es igual de visible. El fallo lo detectó primero Big Sleep, el agente de descubrimiento de vulnerabilidades de Google DeepMind y Project Zero —una IA defensiva que llegó al fallo antes que el atacante—. La carrera es simétrica; la pregunta es quién itera más rápido.

Defensas

Para los defensores y los equipos de respuesta a incidentes, las conclusiones prácticas son concretas.

Trate las huellas de autoría por IA como señales de triaje, no como veredictos. Una puntuación CVSS alucinada en el código fuente, docstrings sobreexplicativas en herramientas ofensivas y una estructura sospechosamente de manual son indicadores débiles por separado que cobran sentido al combinarse. Úselos para priorizar la revisión, nunca para atribuir por sí solos.

Cierre la brecha de los fallos semánticos en su propia revisión. Los fuzzers y el SAST seguirán pasando por alto las suposiciones de confianza codificadas de forma fija y las excepciones de autorización contradictorias. Combínelos con una revisión asistida por LLM, orientada expresamente a buscar lógica que contradiga la intención de seguridad declarada —la misma capacidad que usan los atacantes, vuelta hacia adentro— y mantenga la revisión humana de la lógica de autorización en las rutas de autenticación y 2FA.

Asuma que existen fallos lógicos de bypass de 2FA en su pila y reduzca el radio de impacto: aplique defensa en profundidad para que un simple bypass con credenciales válidas no equivalga a acceso total, y vigile las anomalías de autenticación en lugar de confiar en la puerta.

Por último, adopte la IA defensiva en el lado del descubrimiento. La lección de este incidente no es que la IA diera un nuevo superpoder a los atacantes; es que los mismos agentes encuentran los mismos fallos, y el bando que analiza de forma proactiva gana la carrera del tiempo. Programas como Big Sleep y agentes de remediación automatizada como CodeMender existen precisamente para llegar primero.

Estado

Elemento	Detalle
Divulgación	Informe del GTIG, 11 de mayo de 2026 (33 páginas)
Vulnerabilidad	Fallo lógico de bypass de 2FA en una herramienta de admin web de código abierto (proveedor no nombrado); requiere credenciales válidas
Estado	Divulgación responsable; proveedor parcheó; evento de explotación masiva frustrado
Implicación de la IA	Alta confianza en que el exploit fue desarrollado por IA; el GTIG indica que no se usó Gemini
Detectado por la defensa	Agente «Big Sleep» de Google DeepMind / Project Zero