AGENTS MEDIUM NEW

Confusión de autoridad: cuando el agente con herramientas abusa de su propio acceso

Un artículo de mayo de 2026 nombra un modo de fallo distinto de la inyección de prompts: un dato no confiable puede informar el razonamiento de un agente, pero nunca autorizar un efecto secundario. AIRGuard impone esa frontera en el momento de la acción.

2026-06-19 // 8 min affects: claude-haiku-4.5, claude-sonnet-4.6, gpt-5.4-mini, gpt-5.3-codex, mcp-agents

¿Qué es esto?

El 27 de mayo de 2026, investigadores de la University of Notre Dame, Inria y la University of Liverpool publicaron en arXiv AIRGuard: Guarding Agent Actions with Runtime Authority Control (arXiv:2605.28914). El artículo nombra un modo de fallo al que llama confusión de autoridad (authority confusion) y propone una defensa en tiempo de ejecución. La idea cabe en una frase que los autores repiten: los datos pueden informar, pero solo la autoridad puede autorizar.

La confusión de autoridad es la brecha entre lo que un agente tiene permitido hacer y lo que algún contenido sugiere que debería hacer. Un agente con herramientas lee archivos, ejecuta comandos de shell, llama a API, envía correos e invoca herramientas MCP. Un contenido controlado por el atacante —una página web, un documento recuperado, un paquete, un script de ayuda, la salida de una herramienta MCP— puede describir una acción que parece pertinente de forma aislada, pero que redirige discretamente el acceso autorizado del agente hacia el objetivo del atacante. El artículo sostiene que esto es distinto tanto del jailbreak como de la inyección de prompts clásica, y que las defensas basadas solo en la separación datos–instrucciones o en la procedencia de parámetros no lo abordan.

Cómo funciona

La distinción importa porque el paso malicioso rara vez es sospechoso por su tipo de herramienta. Leer un archivo, enviar un mensaje, llamar a una API de dominio o cambiar una configuración son acciones rutinarias y legítimas. El problema es qué autoridad las justifica.

Los ejemplos del artículo son ilustrativos. Una documentación controlada por el atacante puede etiquetar una URL externa como endpoint de «auditoría», pero esa etiqueta no autoriza al agente a transmitir allí informes locales, credenciales o datos de configuración. Un paquete puede contener instrucciones de instalación sin autorizar la persistencia. La salida de una herramienta MCP puede sugerir un destinatario sin autorizar el envío de un correo. Un script descargado puede ayudar en una tarea sin autorizar su propia ejecución. En cada caso, los parámetros de la acción pueden estar bien fundamentados en lo observado, mientras que la operación queda fuera del alcance que el usuario realmente concedió.

Por eso los controles de procedencia y de tinte (taint) no bastan por sí solos: la evidencia no es autoridad. Un argumento puede estar perfectamente fundamentado en contenido recuperado mientras el efecto secundario resultante sigue sin estar autorizado.

Por qué importa

A medida que los agentes pasan de producir texto a ejecutar acciones, el radio de impacto de un solo paso mal juzgado crece: exfiltración de datos, envenenamiento de configuración, instalaciones por la cadena de suministro, divulgación no autorizada. La confusión de autoridad también se agrava a lo largo de varios pasos: acciones individualmente plausibles pueden sumar una secuencia dañina que ningún control aislado señalaría.

El artículo cuantifica la brecha en dos benchmarks: AgentTrap (141 casos, de los cuales 91 son ataques de confusión de autoridad que abarcan exfiltración, envenenamiento de configuración, abuso de MCP, escalada de privilegios y más) y DTAP-150 (150 tareas de dominio MCP en código, sistema de archivos, finanzas, legal y telecomunicaciones). Sin defensa, la tasa de éxito de ataque (ASR) en AgentTrap alcanza el 20,9 % con Claude Haiku 4.5 y el 36,3 % con Claude Sonnet 4.6: aproximadamente entre un quinto y un tercio de los ataques tienen éxito contra modelos capaces en un bucle de agente ordinario.

Defensas

AIRGuard trata el mínimo privilegio como un problema de autorización en el momento de la acción, no como una mera asignación estática de permisos. Es una capa de guarda previa a la acción que, antes de cada llamada a herramienta con efecto secundario, comprueba cuatro cosas: la autoridad heredada de la tarea del usuario y de la política, el nivel de confianza del objetivo, el nivel de confianza de la fuente y el efecto probable de la acción. En concreto, el artículo combina un mapeo de capacidades, una herencia de autoridad (la autoridad de la tarea puede estrecharse al nivel de paso, pero nunca ampliarse), etiquetas de confianza de recurso y objetivo, reservas de confianza por fuente (las fuentes reputadas pueden informar la ejecución, las poco fiables disparan una inspección), una simulación de efectos secundarios para acciones sensibles, una cascada de aplicación escalonada y una auditoría de secuencia que detecta el riesgo entre pasos.

Dos lecciones de diseño van más allá de este sistema. Primero, instruir no es imponer: en la ablación, poner la política solo en el prompt redujo el ASR únicamente del 22 % al 17 %, mientras que la guarda en tiempo de ejecución llegó al 4 %, porque observa las llamadas de herramienta normalizadas e interviene antes de que el efecto secundario se ejecute, en lugar de pedirle al modelo que se vigile a sí mismo. Segundo, hay que contar con una tensión seguridad–utilidad: controles más estrictos reducen los efectos secundarios no autorizados pero pueden sobrebloquear el trabajo legítimo, así que la imposición debe ser selectiva (los autores reportan algo de sobredefensa, p. ej. 6 % en la ablación de DTAP-150).

Para los equipos que despliegan agentes hoy, la conclusión accionable es añadir una comprobación de autorización determinista en la frontera de las herramientas, gobernada por la tarea del usuario y su política, y no por el contenido que el agente acaba de leer.

Estado

Elemento	Detalle
Artículo	AIRGuard, arXiv:2605.28914v1, publicado el 27 de mayo de 2026
Tipo	Investigación defensiva (guarda en ejecución), no un exploit activo
Modelos probados	Claude Haiku 4.5, Claude Sonnet 4.6; ablaciones con GPT-5.4-mini y GPT-5.3-codex
Resultado	ASR AgentTrap 20,9 %→3,3 % (Haiku), 36,3 %→5,5 % (Sonnet); mejor nivel de ASR en 3/4 modelos en DTAP-150
Bases de comparación	ARGUS, MELON

Las cifras reportadas provienen de la evaluación de los autores y reflejan sus benchmarks y versiones de modelos a la fecha de publicación del artículo (mayo de 2026).