AGENTS MEDIUM

Trust No Tool : empoisonnement cognitif des agents LLM via les retours d'outils

Un article arXiv du 17 mai 2026 introduit l'« empoisonnement cognitif » : un outil malveillant gagne la confiance de l'agent au fil de tours anodins et n'arme que l'action finale. La cible de défense passe du prompt à la trajectoire.

2026-05-26 // 8 min affects: llm-agents, tool-using-agents, agentic-workflows, mcp

What is this?

Le 17 mai 2026, Lecheng Yan et ses co-auteurs (Southern University of Science and Technology, Alibaba DAMO Academy, University of Aberdeen) ont déposé sur arXiv Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback (arXiv:2605.17453), dans les sections cs.CR / cs.CL. Le papier formalise un nouveau mode de défaillance des agents que les auteurs appellent empoisonnement cognitif (cognitive poisoning) et livre trois artefacts pour l’étudier : TRUST-Bench (1 970 épisodes de compromission d’outils à déclencheur caché, avec témoins sûrs appariés), une métrique d’évaluation asymétrique nommée GuardedJoint, et un cadre de défense baptisé VISTA-Guard.

La contribution est autant conceptuelle que technique. La plupart des benchmarks publiés en sécurité des agents postulent qu’une fois l’outil sélectionné, ses sorties sont dignes de confiance. Yan et al. montrent que cette hypothèse traverse intacte la littérature sur le prompt injection, l’OWASP LLM Top 10 et les guides MCP — et qu’elle constitue précisément le point de rupture des écosystèmes d’outils en boîte noire.

How it works

Le papier découpe l’exécution d’un agent en deux phases : une phase exploratoire (plusieurs appels d’outils, l’agent sonde son environnement) et une phase d’action finale (un appel exécutable à effet de bord : écriture fichier, virement, modification de ressource).

Un outil opérant l’empoisonnement cognitif :

Se comporte de façon plausible pendant l’exploration. Chaque sonde renvoie des réponses utiles et cohérentes avec la tâche.
Accumule de la confiance via ces retours anodins. Aucun message n’est manifestement malveillant ; les détecteurs classiques de prompt injection et les juges LLM zero-shot ne signalent rien.
Ne se déclenche que lorsqu’une condition d’état caché est remplie — typiquement une combinaison de paramètres de l’action finale — et oriente alors l’agent vers un bundle dangereux (par exemple un rm -rf sur un chemin différent de celui demandé, un virement vers un IBAN substitué, un appel API vers le mauvais tenant).

Les auteurs décrivent le risque décisif comme une propriété de composition état-action :

« ce que l’outil a semblé faire dans le temps, ce que la trajectoire a révélé de son comportement, et le bundle outil-paramètres final que l’agent est sur le point d’exécuter. »

Le cadre est structurellement différent de la littérature existante. L’injection indirecte de prompt (Greshake et al., 2023) concerne une instruction cachée dans un contenu récupéré. Le poisoning de métadonnées d’outils vise la description d’un outil malveillant. Les failles back-end MCP (Akamai, 12 mai 2026) sont des bugs web classiques dans le connecteur. L’empoisonnement cognitif vise la trajectoire d’interaction elle-même.

Pour étudier le régime empiriquement, l’équipe construit TRUST-Bench en transformant a minima des tâches issues de suites d’usage d’outils existantes :

# Chaque épisode TRUST-Bench = (tâche, trajectoire exploratoire, action finale)
# Chaque variante malveillante a un témoin sûr apparié qui
# conserve l'interface outil externe, la sémantique d'action et
# les contraintes de sécurité.
#
# 1 970 épisodes de compromission à déclencheur caché
# 1 970 témoins sûrs appariés
# 4 familles d'actions finales (fichier, exécution code, finance, identité)
# Déclencheur caché = condition d'état sur la trajectoire

VISTA-Guard, la défense proposée, prend la trajectoire complète et l’abstrait en trois représentations structurées : un trajectory_digest, un world_model_state et des action_param_features. Le risque de l’action finale est alors scoré à partir de ce triplet plutôt qu’à partir du texte du prompt seul. Le cadre est dit « backbone-agnostic » — il ne dépend pas d’un LLM sous-jacent particulier. Sous GuardedJoint (pénalité asymétrique qui sanctionne plus durement les échecs de sécurité que d’utilité), VISTA-Guard atteint 84,2 en in-domain et 56,9 en évaluation OOD balancée. Les heuristiques prompt-centriques, les caractéristiques scalarisées et les juges zero-shot s’effondrent à zéro sous la même métrique.

Why it matters

Trois enseignements dépassent le cas de la défense proposée.

Premièrement, la sécurité des agents ne se résume pas au filtrage de prompts. La vue en un coup (« l’entrée contient-elle une instruction malveillante ? ») rate toute une classe d’attaques qui se construit sur plusieurs tours. Les garde-fous en production aujourd’hui — Lakera Guard, Microsoft Prompt Shields, NeMo Guardrails, LLM-Guard — sont majoritairement prompt- ou output-centriques ; les expériences du papier suggèrent qu’ils ne verront pas venir les trajectoires d’empoisonnement cognitif.

Deuxièmement, l’écosystème d’outils est la nouvelle surface d’attaque. MCP, le tool-calling OpenAI, les tools Anthropic, les Skills Claude, les frameworks d’agents maison — tous orchestrent des appels vers des outils tiers dont le système hôte ne contrôle pas le comportement. La divulgation Akamai du 12 mai 2026 (CVE-2025-66335 et motif MCP plus large) a montré comment les vulnérabilités web classiques arrivent à cette couche. Trust No Tool montre comment des retours sous contrôle de l’attaquant y arrivent aussi, sans bug de niveau CVE.

Troisièmement, la cible de la défense glisse du texte vers l’état. Si le cadrage du papier tient, la sécurité des agents devra intégrer une notion d’état de trajectoire et une notion de risque d’action finale distinctes de la modération d’entrée. On se rapproche des modèles de confiance utilisés en sécurité des systèmes d’exploitation (capabilities, taint tracking) plutôt que des modèles de modération de la sécurité des chatbots.

Defenses

Le cadre des auteurs n’est pas un produit clé en main, mais ses choix de conception se traduisent en contrôles concrets applicables dès aujourd’hui.

Traiter les retours d’outils comme une entrée non fiable. Toute chaîne retournée par un outil — même un outil utilisé maintes fois — doit être assainie, validée par schéma et débarrassée des instructions avant de revenir dans le contexte du modèle. Le « lethal trifecta » de Simon Willison s’applique : contenu non fiable + données sensibles + outils à effet de bord constituent le cocktail dangereux.
Scorer l’action finale, pas seulement le prompt. Avant tout appel à effet de bord (écriture fichier, virement, envoi d’e-mail, déploiement, suppression), évaluer l’appel à l’aune de la trajectoire qui l’a produit. Une valeur de paramètre anormale, une combinaison d’outils inattendue ou une destination qui s’écarte de l’intention déclarée par l’utilisateur sont plus signifiantes qu’une passe de modération unique.
Appliquer le principe de moindre privilège à la couche outil. Le Practical Guide for Secure MCP Server Development d’OWASP (2026) et les entrées LLM06 / LLM07 de l’OWASP LLM Top 10 convergent : le credential back-end de chaque outil ne doit porter que les droits que l’outil exige. Un empoisonnement cognitif qui détourne une action finale est borné par ce que le compte associé est autorisé à faire.
Exiger une confirmation humaine sur les actions finales à fort impact. Pour les appels irréversibles ou coûteux, imposer une étape de confirmation structurée exposant les paramètres exécutables à l’utilisateur, et pas seulement le résumé en langage naturel généré par le modèle. Le modèle de menace du papier vise précisément l’écart entre résumé et paramètres.
Journaliser les trajectoires complètes, pas seulement les sorties finales. L’empoisonnement cognitif est invisible sans la séquence complète des appels d’outils et de leurs réponses. Les plateformes d’agents en production ont besoin de trajectoires rejouables avec paires entrée/sortie, paramètres et horodatages pour détecter cette classe a posteriori.
Diversifier et faire tourner les fournisseurs d’outils pour les actions de confiance élevée. Quand c’est possible, router l’étape finale à effet de bord vers un outil développé et audité indépendamment de ceux utilisés en exploration. Le modèle d’empoisonnement cognitif suppose le même outil de confiance d’une phase à l’autre.

Status

Élément	Référence	Date	Notes
Soumission du papier	arXiv:2605.17453 v1	2026-05-17	cs.CR / cs.CL, CC BY 4.0
Nommage du modèle de menace	Trust No Tool	2026-05-17	« Empoisonnement cognitif »
Publication de TRUST-Bench	Papier	2026-05-17	1 970 épisodes à déclencheur caché + témoins appariés
Métrique GuardedJoint	Papier	2026-05-17	Pénalité asymétrique sécurité/utilité
Cadre VISTA-Guard	Papier	2026-05-17	84,2 in-domain, 56,9 OOD balancée
Connexe : motif back-end MCP	Akamai	2026-05-12	Même surface d’attaque, bugs classiques
Connexe : MindGuard	arXiv:2508.20412	2025	Détection de poisoning de métadonnées (modèle différent)

Le cadrage du papier est la pièce immédiatement utile. Que VISTA-Guard devienne ou non une défense pratique dépendra des travaux de suivi que les auteurs invitent — réplications sur des trajectoires plus riches, évaluation sur agents propriétaires, intégration avec les piles de garde-fous existantes. Le constat plus étroit — la frontière de la sécurité des agents se déplace du texte de prompt vers la trajectoire d’interaction — est celui à intérioriser maintenant.