DEFENSE LOW NEW

AgentTrust: revisar las llamadas a herramientas de un agente antes de ejecutarlas

Un preprint del 6 de mayo de 2026 presenta AgentTrust, una capa de ejecución que inspecciona cada llamada a herramienta antes de que se ejecute y devuelve permitir / advertir / bloquear / revisar, incluso sobre cargas de shell ofuscadas.

2026-06-08 // 6 min

¿Qué es esto?

El 6 de mayo de 2026, un preprint titulado AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use (arXiv:2605.04785) propuso una defensa para un problema que el resto del mes no dejó de ilustrar: los agentes de IA ya producen efectos reales —operaciones de archivos, comandos de shell, peticiones HTTP, consultas a bases de datos— y una sola acción insegura (un borrado accidental, una credencial filtrada, un archivo exfiltrado) puede causar un daño irreversible. AgentTrust se sitúa entre el agente y sus herramientas y decide, antes de ejecutar cada llamada, si debe dejarla pasar.

El trabajo fue destacado en el panorama agéntico de junio de 2026 de Adversa AI entre las defensas notables del mes. Su motivación es concreta: en el mismo periodo, Microsoft documentó cómo una inyección de prompt puede llegar a una ejecución remota de código a nivel del host a través de las funciones invocables por el modelo. Si las inyecciones convierten los prompts en shells, la última línea de defensa es aquello que inspecciona la acción que el agente está a punto de realizar.

Cómo funciona

AgentTrust es una capa de interceptación en tiempo de ejecución. Cada llamada a herramienta que intenta el agente se pausa, se evalúa y se le asigna uno de cuatro veredictos estructurados —permitir, advertir, bloquear o revisar— antes de poder ejecutarse. El artículo sostiene que esto cubre un hueco que dejan las tres defensas habituales, cada una descrita como incompleta por sí sola:

Existing control        What it does                      Where it falls short
----------------------  --------------------------------  ------------------------------------
Post-hoc benchmarks     Measure agent behavior            Judge after the action already ran
Static guardrails       Pattern-match inputs/outputs      Miss obfuscation and multi-step context
Infra sandboxes         Constrain WHERE code runs         Don't understand WHAT an action means

Para cerrar esa brecha, AgentTrust combina cuatro componentes. Un normalizador de desofuscación de shell deshace los trucos que se usan para ocultar un comando peligroso ante una simple coincidencia de patrones —expansión de variables, escapes hexadecimales/octales, resolución de alias, sustitución de comandos, comillas ANSI-C, concatenación de comillas adyacentes— para que el veredicto recaiga sobre lo que el comando realmente hace, no sobre cómo está escrito. SafeFix es un motor basado en reglas que, en lugar de solo bloquear, propone una alternativa más segura a una llamada arriesgada. RiskChain examina la secuencia de pasos para detectar cadenas de ataque de varios pasos que parecen inofensivas llamada a llamada. Y un LLM-juez con caché atiende las entradas ambiguas que las reglas no resuelven, manteniendo la latencia baja gracias a la caché.

En el banco de pruebas interno de 300 escenarios (seis categorías de riesgo), el conjunto de reglas de producción reporta 95,0 % de exactitud de veredicto y 73,7 % de exactitud de nivel de riesgo, con latencia del orden del milisegundo. En un conjunto distinto de 630 escenarios adversarios reales —evaluado bajo un conjunto de reglas corregido y explícitamente no presentado como zero-shot— reporta 96,7 % de exactitud de veredicto, incluido alrededor del 93 % en cargas de shell ofuscadas. Esas cifras son de los propios autores; como con cualquier evaluación de un solo artículo, tómelas como punto de partida, no como una garantía independiente.

Por qué importa

El modelo de amenaza de los agentes pasó de «qué dice el modelo» a «qué hace el modelo». Las divulgaciones que se acumulan en 2026 —RCE en agentes de código, cadenas de inyección-de-prompt-a-shell, registros de herramientas y memoria envenenados— comparten una causa: a un agente se le permitió realizar una acción cuyo efecto real nadie inspeccionó. Una capa que comprende el significado de una llamada a herramienta, la desofusca y puede vetarla responde directamente a esa clase de fallos.

También importa que AgentTrust se distribuya como un servidor Model Context Protocol bajo licencia AGPL-3.0. Eso permite colocarlo delante de agentes compatibles con MCP sin reconstruirlos, y deja las reglas de desofuscación auditables en lugar de opacas. El compromiso es el propio de cualquier guardarraíl en línea: cada acción legítima bloqueada genera fricción, y un «permitir» erróneo pero confiado es peor que no tener guardarraíl; la calidad de los veredictos y la tasa de falsos positivos deciden, por tanto, si los equipos lo mantienen activado.

Defensas

AgentTrust es en sí mismo un control defensivo. Las conclusiones prácticas para los equipos que operan agentes con herramientas:

Medie las llamadas a herramientas, no se limite a aislarlas en un sandbox. Un sandbox limita dónde se ejecuta el código; un mediador a nivel de acción decide si una llamada concreta debe ejecutarse. Use ambos: cubren fallos distintos.
Normalice antes de juzgar. Toda decisión de permitir/denegar tomada sobre el texto en bruto de un comando está a un truco de ofuscación de ser errónea. Desofusque la entrada de shell (expansión de variables, escapes hexadecimales/octales, alias, sustitución de comandos, trucos de comillas) y evalúe la forma canónica.
Razone sobre la secuencia, no solo sobre la llamada. Cadenas de varios pasos pueden ser inocuas una a una y, en conjunto, una exfiltración. Conserve suficiente contexto para captar la cadena, no solo la llamada aislada.
Prefiera una alternativa más segura al bloqueo seco. Un guardarraíl que solo bloquea se desactiva la primera vez que interrumpe un trabajo real. Ofrecer una reescritura más segura (la idea de SafeFix) preserva la utilidad y mantiene el guardarraíl activado.
Mantenga a un humano en el bucle para el nivel «revisar». Reserve un veredicto para las acciones demasiado graves para autoautorizarse y demasiado plausibles para autobloquearse —borrados irreversibles, acceso a credenciales, transferencias salientes— y enrútelas a una persona.
Mida sus propios falsos positivos. Las cifras de exactitud de un proveedor o de un artículo son un punto de partida. Antes de confiar en un guardarraíl en línea en producción, pruébelo con su propio tráfico y observe qué bloquea por error, porque eso es lo que decide si sobrevive al contacto con sus usuarios.

Estado

Elemento	Referencia	Fecha	Notas
Preprint	arXiv:2605.04785	2026-05-06	Interceptación en ejecución; veredictos permitir/advertir/bloquear/revisar; AGPL-3.0, incluye un servidor MCP
Mención en panorama	Adversa AI	2026-06-01	Listado bajo «Agentic AI defense»
Motivación de amenaza	Blog de seguridad de Microsoft	2026-05-07	Inyección de prompt que alcanza RCE a nivel del host vía funciones invocables por el modelo

El mensaje no es «la interceptación de llamadas a herramientas resuelve la seguridad de los agentes». Es más estrecho: en cuanto un agente puede actuar, es la acción —no el prompt— la frontera que conviene defender, y esa frontera debe entender qué significa una llamada, no solo cómo está escrita. AgentTrust es un intento publicado y de código abierto de hacer real esa frontera; las cifras reportadas son de los autores, así que valídelo con su propio tráfico antes de confiar en él.