DEFENSE MEDIUM NEW

AgentDyn: por qué las defensas anti-inyección que brillan en benchmarks fallan en el mundo real

AgentDyn, un benchmark de ICML de febrero de 2026, prueba diez defensas anti-inyección de primer nivel en tareas de agente dinámicas y abiertas. Casi todas son inseguras o sobredefienden hasta volverse inservibles.

2026-06-12 // 7 min affects: gpt-4o, gpt-5.1, gemini-2.5-pro, llama-3.3-70b, qwen3-235b

¿Qué es esto?

AgentDyn es un benchmark de inyección de prompts para agentes LLM con herramientas, publicado en arXiv en febrero de 2026 (2602.03117, autores Hao Li, Ruoyao Wen, Shanghao Shi, Ning Zhang y Chaowei Xiao; código en github.com/leolee99/AgentDyn). Su hallazgo es incómodo: de diez defensas de última generación que reportan cifras casi perfectas en el popular benchmark estático AgentDojo, casi ninguna es desplegable en cuanto las tareas se vuelven dinámicas y abiertas. O siguen siendo inseguras, o «defienden» destruyendo la utilidad del agente.

El artículo es una crítica metodológica, no un exploit. Importa porque los defensores citan cada vez más las cifras de ASR (tasa de éxito de ataque) de los rankings —a menudo cercanas a cero— como prueba de que la inyección de prompts está controlada. AgentDyn sostiene que esas cifras son un artefacto de cómo se construye el benchmark. Esto resuena con un tema más amplio de 2026; véase nuestra nota sobre por qué evaluar agentes es difícil.

Cómo funciona

AgentDyn identifica tres fallos estructurales de los benchmarks estáticos actuales y construye contra ellos. Primero, la falta de tareas dinámicas y abiertas: en AgentDojo solo 6 de 97 tareas requieren replanificación, de modo que un agente puede planificar toda su secuencia de acciones por adelantado. Una defensa puede entonces parecer segura limitándose a ese plan inicial: un atajo que se rompe en cuanto una tarea exige adaptarse a mitad de ejecución. Segundo, la falta de instrucciones útiles: el contenido de terceros real está lleno de instrucciones benignas y útiles («inicie sesión primero» en una página de pago), y el carácter malicioso de una instrucción depende del contexto. Una defensa que ignora todas las instrucciones externas puntúa bien en un benchmark que no contiene ninguna, y se desmorona en la realidad. Tercero, tareas de usuario demasiado simples: los benchmarks anteriores promedian 1–3 pasos, 1–2 aplicaciones y menos de 20 herramientas.

AgentDyn responde con 60 tareas abiertas y 560 casos de prueba de inyección en Shopping, GitHub y Daily Life, con una media de 7,1 pasos y 3,17 escenarios de aplicación por tarea, todas exigiendo planificación dinámica con instrucciones benignas intercaladas. Construido sobre el framework AgentDojo, se evaluó en ocho agentes (GPT-4o, GPT-5.1, Gemini-2.5-Pro/Flash, Llama-3.3-70B, Qwen3-235B y otros) y cuatro familias de defensas.

Por qué importa

Los resultados revelan un trilema de la defensa, no un problema de ajuste (un tema tratado en el trilema de los wrappers anti-inyección). En GPT-4o:

Las defensas por prompt (Prompt Sandwiching, Spotlighting) conservan la utilidad pero apenas reducen el ASR frente a no tener defensa (~27–31 %).
El filtrado (ProtectAI, PIGuard) no distingue las instrucciones útiles de las inyecciones y reduce la utilidad casi a cero; PromptGuard2 mantiene la utilidad hasta que aparece un ataque, luego descarta toda la salida de la herramienta y aún deja un 27,15 % de ASR.
Los diseños a nivel de sistema que imponen un plan fijo, como CaMeL, alcanzan 0 % de ASR pero también 0 % de utilidad en tareas plenamente abiertas. Las defensas dependientes del plan (Tool Filter, Progent, DRIFT) sufren una fuerte pérdida de utilidad a medida que crecen los conjuntos de herramientas.
El único resultado relativamente equilibrado es el alineamiento (Meta SecAlign 70B), que mejora la utilidad reduciendo el ASR, pero aún deja un residuo de ~9 %.

La lección para quien despliega agentes: una defensa anunciada con un ASR casi nulo puede haber pagado esa cifra con una sobredefensa que sentirá como flujos de trabajo rotos, o con un benchmark que nunca probó tareas adaptativas de varios pasos. La misma cautela aplica al leer un único punto de operación; véase benchmarks de detectores y puntos de operación.

Defensas

AgentDyn es en sí mismo una herramienta defensiva. Conclusiones concretas:

Reevalúe las defensas en tareas dinámicas y largas. Trate un ASR casi nulo tipo AgentDojo como necesario, no suficiente. Use AgentDyn o suites abiertas comparables antes de creer una afirmación de proveedor.
Mida la utilidad bajo defensa, no solo el ASR. Un control que anula los ataques reduciendo a la mitad la finalización de tareas no es una victoria; reporte ambas cifras juntas.
Prefiera controles adaptativos a los de plan fijo. La imposición de un plan estático es frágil en el trabajo abierto. El control de acceso dinámico por tarea se degrada con más elegancia; véase autorización de herramientas por tarea.
Mantenga la defensa en profundidad. Combine comprobaciones ligeras en tiempo de ejecución con entrenamiento de jerarquía de instrucciones y un alcance de mínimo privilegio en lugar de apostarlo todo a un solo filtro.
Limite el radio de impacto. Incluso un ASR residual de ~9 % es inaceptable para herramientas de alto impacto; coloque las acciones sensibles tras revisión humana y limite el trío letal de datos privados, contenido no confiable y vías de exfiltración.

Estado

Familia de defensa	Ejemplo	Utilidad GPT-4o (sin ataque)	ASR	Modo de fallo
Ninguna	Vanilla	53,3 %	37,8 %	referencia
Prompt	Spotlighting	55,0 %	27,6 %	seguridad baja
Filtrado	PromptGuard2	60,0 %	27,2 %	descarta la salida bajo ataque
Filtrado	ProtectAI	~0 %	~1 %	sobredefensa severa
Nivel de sistema	CaMeL	0 %	0 %	utilidad nula en tareas abiertas
Alineamiento	Meta SecAlign 70B	mejorada	~9 %	mejor equilibrio, riesgo residual

Los autores subrayan que AgentDyn es «solo un pequeño benchmark abierto», y aun así todas las defensas probadas tienen dificultades en él: la brecha con el despliegue real es todavía mayor. Trabajos recientes convergen en la misma advertencia: cifras limpias de ranking pueden inducir a error (Adversa AI, junio de 2026; «medir la seguridad sin engañarnos», mayo de 2026). La postura defensiva resultante no es «elegir la defensa con el ASR más bajo», sino «verificarla en tareas que se parezcan a las suyas y conservar las capas que necesitaría si falla».

Este artículo resume investigación publicada con fines defensivos y educativos. No contiene payloads de ataque operativos.