Trust No Tool: envenenamiento cognitivo de agentes LLM vía la retroalimentación de herramientas
Un artículo de arXiv del 17 de mayo de 2026 introduce el «envenenamiento cognitivo»: una herramienta maliciosa que se gana la confianza del agente durante muchas interacciones benignas y solo arma la acción final. El objetivo de defensa se desplaza del prompt a la trayectoria.
What is this?
El 17 de mayo de 2026, Lecheng Yan y coautores (Southern University of Science and Technology, Alibaba DAMO Academy, University of Aberdeen) publicaron en arXiv Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback (arXiv:2605.17453), dentro de las secciones cs.CR / cs.CL. El artículo formaliza un nuevo modo de fallo en la seguridad de agentes que los autores denominan envenenamiento cognitivo (cognitive poisoning) y entrega tres artefactos para estudiarlo: TRUST-Bench (1.970 episodios de compromiso de herramientas con disparador oculto y controles seguros emparejados), una métrica de evaluación asimétrica llamada GuardedJoint y un marco de defensa denominado VISTA-Guard.
La contribución es tanto conceptual como técnica. La mayoría de los benchmarks publicados sobre seguridad de agentes asume que, una vez seleccionada una herramienta, sus salidas son confiables. Yan et al. demuestran que esta suposición atraviesa intacta la literatura sobre inyección de prompts, OWASP LLM Top 10 y las guías de MCP, y que precisamente ahí es donde los ecosistemas de herramientas en caja negra se rompen.
How it works
El artículo divide la ejecución de un agente en dos fases: una fase exploratoria (varias llamadas a herramientas, el agente sondea el entorno) y una fase de acción final (una llamada ejecutable con efectos colaterales: escritura de archivo, transferencia, modificación de recurso).
Una herramienta que realiza envenenamiento cognitivo:
- Se comporta de manera plausible durante la exploración. Cada sondeo devuelve respuestas útiles y coherentes con la tarea.
- Acumula confianza a través de esa retroalimentación de apariencia benigna. Ningún mensaje individual resulta obviamente malicioso; los detectores clásicos de inyección de prompts y los jueces LLM zero-shot no marcan nada.
- Solo se dispara cuando se cumple una condición de estado oculta — típicamente una combinación de parámetros de la acción final — y en ese momento orienta al agente hacia un bundle peligroso (por ejemplo, un
rm -rfsobre una ruta distinta a la solicitada, una transferencia a un número de cuenta sustituido, una llamada a la API contra el tenant equivocado).
Los autores describen el riesgo decisivo como una propiedad de composición estado-acción:
«lo que la herramienta pareció hacer a lo largo del tiempo, lo que la trayectoria reveló sobre su comportamiento y el bundle exacto de herramienta y parámetros finales que el agente está a punto de ejecutar.»
El planteamiento es estructuralmente distinto a la literatura existente. La inyección indirecta de prompts (Greshake et al., 2023) trata de una instrucción oculta en contenido recuperado. El envenenamiento de metadatos de herramientas se refiere a la descripción de una herramienta maliciosa. Las fallas en el back-end de MCP (Akamai, 12 de mayo de 2026) son bugs web clásicos en el conector. El envenenamiento cognitivo apunta a la trayectoria de interacción misma.
Para estudiar empíricamente el régimen, el equipo construye TRUST-Bench transformando mínimamente tareas de suites existentes de uso de herramientas:
# Cada episodio TRUST-Bench = (tarea, trayectoria exploratoria, acción final)
# Cada variante maliciosa tiene un control seguro emparejado que
# conserva la interfaz externa de la herramienta, la semántica de
# la acción y las restricciones de seguridad.
#
# 1.970 episodios de compromiso con disparador oculto
# 1.970 controles seguros emparejados
# 4 familias de acciones finales (archivo, ejecución de código, finanzas, identidad)
# Disparador oculto = condición de estado sobre la trayectoria
VISTA-Guard, la defensa propuesta, toma la trayectoria completa y la abstrae en tres representaciones estructuradas: trajectory_digest, world_model_state y action_param_features. El riesgo de la acción final se puntúa a partir de ese triplete, no solo del texto del prompt. El marco se presenta como agnóstico al backbone — no depende de un LLM subyacente en concreto. Bajo GuardedJoint (una penalización asimétrica que castiga más severamente los fallos de seguridad que los de utilidad), VISTA-Guard alcanza 84,2 en in-domain y 56,9 en evaluación OOD balanceada. Las heurísticas centradas en el prompt, las características escalarizadas y los jueces zero-shot se desploman a cero bajo la misma métrica.
Why it matters
Tres lecciones trascienden el caso concreto de la defensa propuesta.
Primero, la seguridad de los agentes no se reduce al filtrado de prompts. La visión instantánea («¿contiene la entrada una instrucción maliciosa?») no ve toda una clase de ataques que se construyen a lo largo de varios turnos. Los guardrails de producción actuales — Lakera Guard, Microsoft Prompt Shields, NeMo Guardrails, LLM-Guard — están mayoritariamente centrados en prompt o output; los experimentos del artículo sugieren que no verán llegar las trayectorias de envenenamiento cognitivo.
Segundo, el ecosistema de herramientas es la nueva superficie de ataque. MCP, el tool-calling de OpenAI, las tools de Anthropic, las Claude Skills y los frameworks de agentes personalizados — todos enrutan llamadas a herramientas de terceros cuyo comportamiento no controla el sistema anfitrión. La divulgación de Akamai del 12 de mayo de 2026 (CVE-2025-66335 y el patrón MCP más amplio) mostró cómo las vulnerabilidades web clásicas llegan a esta capa. Trust No Tool demuestra que la retroalimentación controlada por el atacante llega a la misma capa, sin necesidad de un bug de nivel CVE.
Tercero, el objetivo de la defensa se desplaza del texto al estado. Si el planteamiento se confirma, el trabajo futuro en seguridad de agentes deberá incorporar una noción de estado de trayectoria y una noción de riesgo de acción final distintas de la moderación de entrada. Eso se acerca más a los modelos de confianza usados en seguridad de sistemas operativos (capabilities, taint tracking) que a los modelos de moderación de la seguridad conversacional.
Defenses
El marco de los autores no es un producto listo para usar, pero sus decisiones de diseño se traducen en controles concretos aplicables hoy.
- Tratar la retroalimentación de las herramientas como entrada no confiable. Toda cadena devuelta por una herramienta — incluso una usada muchas veces antes — debe ser saneada, validada por esquema y despojada de instrucciones antes de volver al contexto del modelo. El «lethal trifecta» de Simon Willison aplica aquí: contenido no confiable + datos sensibles + herramientas con efectos colaterales conforman la combinación peligrosa.
- Puntuar la acción final, no solo el prompt. Antes de cualquier llamada con efectos colaterales (escritura de archivo, transferencia, envío de correo, despliegue, eliminación), evaluar la llamada contra la trayectoria que la produjo. Valores de parámetros anómalos, combinaciones inesperadas de herramientas o destinos que se desvían de la intención declarada por el usuario aportan más señal que una sola pasada de moderación.
- Aplicar mínimo privilegio en la capa de herramientas. La Practical Guide for Secure MCP Server Development de OWASP (2026) y las entradas LLM06 / LLM07 del OWASP LLM Top 10 convergen aquí: la credencial back-end de cada herramienta solo debe portar los derechos que la herramienta exija. Un envenenamiento cognitivo que secuestre una acción final queda acotado por lo que esa cuenta puede hacer.
- Exigir confirmación humana en acciones finales de alto impacto. Para llamadas irreversibles o costosas, imponer un paso de confirmación estructurado que muestre al usuario los parámetros ejecutables, no solo un resumen en lenguaje natural generado por el modelo. El modelo de amenaza del artículo apunta exactamente a la brecha entre resumen y parámetros.
- Registrar las trayectorias completas, no solo las salidas finales. El envenenamiento cognitivo es invisible sin la secuencia completa de llamadas a herramientas y sus respuestas. Las plataformas de agentes en producción necesitan trayectorias replicables con pares entrada/salida, parámetros y marcas temporales para detectar esta clase a posteriori.
- Diversificar y rotar proveedores de herramientas para acciones de alta confianza. Cuando sea viable, enrutar el paso final con efectos colaterales a través de una herramienta desarrollada y auditada de forma independiente respecto a las usadas en la exploración. El modelo de envenenamiento cognitivo asume que la misma herramienta se mantiene confiable entre fases.
Status
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Envío del artículo | arXiv:2605.17453 v1 | 2026-05-17 | cs.CR / cs.CL, CC BY 4.0 |
| Modelo de amenaza nombrado | Trust No Tool | 2026-05-17 | «Envenenamiento cognitivo» |
| Publicación de TRUST-Bench | Artículo | 2026-05-17 | 1.970 episodios con disparador oculto + controles emparejados |
| Métrica GuardedJoint | Artículo | 2026-05-17 | Penalización asimétrica seguridad-utilidad |
| Marco VISTA-Guard | Artículo | 2026-05-17 | 84,2 in-domain, 56,9 OOD balanceada |
| Relacionado: patrón back-end MCP | Akamai | 2026-05-12 | Misma superficie de ataque, bugs clásicos |
| Relacionado: MindGuard | arXiv:2508.20412 | 2025 | Detección de envenenamiento de metadatos (modelo distinto) |
El planteamiento del artículo es la pieza inmediatamente útil. Que VISTA-Guard llegue a ser una defensa práctica dependerá del trabajo de seguimiento que los autores invitan — réplicas sobre trayectorias más ricas, evaluación sobre agentes cerrados e integración con las pilas de guardrails existentes. La afirmación más acotada — que la frontera de la seguridad de agentes se desplaza del texto del prompt a la trayectoria de interacción — es la que conviene interiorizar ya.