DEFENSE LOW NEW

AuthGraph: alineación de doble grafo contra la inyección en agentes

Un artículo de UCLA del 26 de mayo de 2026 compara un grafo de autorización limpio con el grafo de procedencia real del agente, reduciendo el éxito de ataque del 40 % al 1 % en AgentDojo.

2026-06-19 // 6 min affects: llm-agents, tool-using-agents, mcp-clients

¿Qué es esto?

AuthGraph es un marco defensivo para agentes LLM con herramientas, descrito en un preprint de arXiv (2605.26497, cs.CR) publicado el 26 de mayo de 2026 por Peiran Wang y sus colegas de UCLA. Apunta a la inyección de prompts indirecta: el ataque en el que un agente lee una fuente de datos externa que no controla — un correo, una página web, un archivo — y esa fuente porta instrucciones ocultas que lo empujan a una acción no autorizada, como transferir fondos a una cuenta controlada por el atacante.

El planteamiento del artículo es que las defensas existentes comparten un punto ciego estructural. Los verificadores de valores de llamada a herramienta inspeccionan los argumentos sin rastrear su origen. Los analizadores de grafo de traza construyen un único grafo de la ejecución y lo inspeccionan a posteriori — pero si la inyección ya manipuló al agente mientras se construía ese grafo, el grafo registra fielmente la vista manipulada, sin nada con que compararla. La aportación de AuthGraph es construir un segundo grafo independiente, al que la inyección no puede llegar, y detectar el ataque comparando ambos.

Cómo funciona

AuthGraph construye dos grafos complementarios sobre una misma tarea del agente. El primero es el grafo de razonamiento inyectado (IRG): la procedencia de la información reconstruida a partir de la trayectoria de ejecución real, expuesta deliberadamente a todo lo que el agente leyó, incluido el contenido inyectado. Registra la «vista subjetiva» del agente sobre el origen de cada valor — manipulación incluida.

El segundo es el grafo de autorización. Se deriva de la intención original del usuario en un contexto aislado y limpio que nunca ve los datos no confiables. Los autores describen esta referencia como imposible de influir mediante inyección en sentido de teoría de la información: al planificador que la construye sencillamente no se le muestran los bytes controlados por el atacante. Este grafo opera a nivel de la fuente de los parámetros (restringe no solo qué herramientas pueden ejecutarse, sino de dónde puede provenir cada argumento), respeta el mínimo privilegio y es extensible en tiempo de ejecución.

Un verificador de alineación de grafos compara entonces estructuralmente ambos. Como el grafo de autorización es una referencia infalsificable de «lo que el agente debería hacer» y el IRG captura «lo que el agente realmente hizo», una discrepancia revela la inyección — a nivel de herramienta (una acción nunca autorizada) y a nivel de la fuente del parámetro (una acción autorizada cuyo argumento se tomó en silencio de datos envenenados). Lo decisivo es que el veredicto final se apoya en la evidencia bruta de la trayectoria, y no en un LLM razonando sobre un texto potencialmente envenenado.

El ejemplo recurrente es una llamada fraudulenta book_flight(flight_id="EVIL-123"): una verificación de valor llamada por llamada o una traza de grafo único no puede detectar que el flight_id fue inyectado, pero una comparación estructural con una base de autorización limpia sí.

Por qué importa

Es el problema del diputado confundido en el núcleo de la seguridad de agentes: el agente está autorizado a actuar, pero los datos que consultó han sido corrompidos, de modo que ejecuta fielmente un plan con parámetros elegidos por el atacante. Es el mismo trío letal — datos privados, contenido no confiable y un canal de acción externo en una sola tarea — que Simon Willison documenta desde hace tiempo.

Las cifras reportadas justifican la atención. En el benchmark AgentDojo, AuthGraph reduce la tasa de éxito de ataque del 40 % al 1 % manteniendo un 76 % de finalización de tarea en GPT-4o; en AgentDyn, pasa del 39 % al 2 % de éxito de ataque preservando un 51 % de utilidad. Los autores afirman superar a defensas recientes de tipo planificar-y-verificar y de control de flujo de información, entre ellas CaMeL, DRIFT y Progent. La superficie afectada es cualquier agente que lea contenido accesible para un atacante y pueda luego actuar: pagos, correos, despliegues, escrituras de archivos.

Defensas

La lección para los equipos es arquitectónica y va más allá de esta implementación concreta. Derive una especificación de autorización a partir de la intención del usuario antes de que el agente toque datos no confiables, y mantenga esa especificación en un contexto en el que esos datos nunca puedan entrar — una base de referencia sin inyección solo es fiable si está estructuralmente aislada, no si simplemente se le pide ignorar instrucciones. Rastree la procedencia a nivel de la fuente de los parámetros, y no solo por llamada a herramienta, para que un valor derivado de una entrada envenenada no se convierta sigilosamente en el argumento de una acción sensible. Base la decisión final de permitir o denegar en la evidencia de la trayectoria, en lugar de en un modelo que resume un texto ya posiblemente comprometido. Estas ideas prolongan la dirección de «trazabilidad y mínimo privilegio» de trabajos afines como las defensas con grafo de procedencia y los patrones de diseño para asegurar agentes LLM (Beurer-Kellner et al., junio de 2025), que sostienen que la inyección de prompts debe contenerse arquitectónicamente en lugar de resolverse en la capa del modelo.

Límites a tener presentes antes de confiar en ello: AuthGraph es una capa de detección y alineación evaluada sobre benchmarks, no un producto desplegado; depende de poder derivar un grafo de autorización fiel en contexto limpio y de reconstruir la procedencia desde la trayectoria; y el éxito de ataque residual se reduce, no se anula. Contiene y detecta la manipulación en lugar de impedir que un modelo sea manipulado de entrada.

Estado

El trabajo es un preprint del 26 de mayo de 2026 (arXiv:2605.26497v1) de UCLA, evaluado en los benchmarks de inyección AgentDojo y AgentDyn con GPT-4o y comparado con CaMeL, DRIFT y Progent. No tiene CVE asociado, porque AuthGraph describe una defensa, no una vulnerabilidad. Los equipos que operan agentes en producción pueden adoptar ya el principio subyacente — una base de autorización aislada, a nivel de la fuente de los parámetros, comparada estructuralmente con la procedencia de ejecución — con independencia de este prototipo concreto.