PROMPT INJECTION MEDIUM NEW

La inyección de prompts automatizada depende del modelo: TAP supera a GCG, GPT-5 resiste

Un estudio de ETH Zúrich del 9 de junio de 2026 adapta GCG y TAP a AgentDojo en 80 pares de tareas de agente. El TAP de caja negra supera al GCG por gradiente, pero los ataques ajustados en modelos pequeños no se transfieren a GPT-5.

2026-06-25 // 6 min affects: qwen3-4b, gemma3-4b, gpt-5, gpt-5-mini, claude-sonnet-4.5, gemini-2.5-flash, qwen3-235b

¿De qué se trata?

El 9 de junio de 2026, tres investigadores de ETH Zúrich —David Hofer, Edoardo Debenedetti y Florian Tramèr— publicaron Assessing Automated Prompt Injection Attacks in Agentic Environments (arXiv:2606.10525). Es la primera medición sistemática de si los métodos de ataque automatizados que funcionan para el jailbreak también funcionan para la inyección de prompts indirecta (IPI) contra agentes con herramientas. La respuesta corta: funcionan, pero de forma desigual. Contra modelos pequeños de pesos abiertos, las tasas de éxito son reales; contra un modelo de frontera (GPT-5) se desploman, y los ataques optimizados en modelos pequeños no se transfieren hacia arriba. La inyección automatizada es una amenaza creíble, pero fuertemente dependiente del modelo.

Cómo funciona

El equipo adaptó dos optimizadores de jailbreak conocidos al entorno agéntico, dentro de AgentDojo, el banco de pruebas de referencia para agentes que actúan sobre datos no confiables. El método de caja blanca es GCG, que usa gradientes para buscar una cadena de tokens adversaria; el método de caja negra es TAP, que emplea un LLM atacante para reescribir iterativamente una inyección y podar los callejones sin salida. No se reproduce aquí ningún payload: la contribución es la medición, no una receta.

La evaluación abarca 80 pares de tareas en cuatro dominios (workspace, banca, viajes, slack). Las cifras destacadas, sobre el objetivo pequeño Qwen3-4B:

Method (Qwen3-4B target)      Attack Success Rate
----------------------------  -------------------
Universal TAP (black-box)     45.2%
Single-task TAP               44.6%
Universal GCG (white-box)     24.1%
Single-task GCG               23.0%

Destacan dos hallazgos estructurales. Primero, la caja negra supera a la caja blanca: TAP aproximadamente duplica el éxito de GCG, lo que los autores atribuyen a la inestabilidad de optimización de GCG con un presupuesto de cómputo realista. Segundo, la fuerza del ataque depende del modelo atacante: un LLM atacante más capaz y menos ajustado a la seguridad produce mejores inyecciones, mientras que un atacante ajustado a la seguridad a veces se niega directamente a generarlas.

Por qué importa

El resultado interesante es el techo, no el suelo. En GPT-5, los mejores ataques alcanzan solo alrededor del 4,5–4,7 % de ASR, y las cadenas GCG transferidas desde Qwen3-4B caen por debajo del 1 %. Inyecciones universales que generalizan a dominios de tareas no vistos en el modelo pequeño bajan al 0 % en el dominio no visto de GPT-5. Dicho de otro modo, la vía barata —optimizar una inyección contra un modelo abierto que controlas y luego dispararla a un despliegue de frontera— hoy en gran medida no funciona.

Es una buena noticia con fecha de caducidad. Dice que la inyección de botón único e independiente del modelo aún no ha llegado; no dice que los agentes sean seguros. Las tareas tipo Slack fueron la superficie más vulnerable (alrededor del 67 % de ASR en el modelo pequeño), e incluso una instrucción simple sin optimización alcanzaba allí ~25 %. Cualquiera que ejecute modelos de pesos abiertos o pequeños en un bucle de agente sobre contenido no confiable está de lleno en el rango explotable que mide el estudio.

Defensas

El hallazgo propio del estudio —robustez de los modelos de frontera y escasa transferencia entre modelos— invita a elegir el modelo con cuidado para agentes que leen datos no confiables, no a bajar la guardia. Las mitigaciones duraderas son arquitectónicas y anteriores a este trabajo:

Tratar la salida de herramientas como datos, nunca como instrucciones. Mantenga el contenido recuperado fuera del canal de instrucciones privilegiado; AgentDojo existe precisamente para probar defensas basadas en esa separación.
Autorizar la acción, no el texto. Condicione cada llamada a herramienta con consecuencias (enviar, pagar, compartir, eliminar) a la intención original del usuario, con confirmación humana para las operaciones irreversibles.
Limitar el radio de impacto. Ámbitos de herramientas de mínimo privilegio, destinatarios en lista blanca y límites de gasto/alcance por sesión convierten una inyección exitosa en una contenida.
Vigilar primero las superficies de alto riesgo. Las herramientas de mensajería y correo mostraron la mayor susceptibilidad: priorice allí la monitorización y las barreras.
Volver a probar bajo optimización, no solo con prompts estáticos. Una defensa que sobrevive a una inyección escrita a mano puede caer ante un ataque adaptativo guiado por un LLM; evalúe con red-teaming automatizado.

Estado

Elemento	Detalle
Publicación	arXiv:2606.10525 v1, 9 de junio de 2026
Autores	Hofer, Debenedetti, Tramèr (ETH Zúrich)
Marco	AgentDojo (extendido para acceso de caja blanca)
Modelo más robusto probado	GPT-5 (~5 % de ASR; GCG transferido < 1 %)
Superficie más vulnerable	Tareas de mensajería tipo Slack (~67 % de ASR en Qwen3-4B)
Naturaleza	Estudio de medición defensiva — sin exploit publicado