DEFENSE MEDIUM NEW

Taxonomie v2.0 des modes de défaillance agentiques de Microsoft : le contournement zéro-clic du humain dans la boucle

La taxonomie v2.0 de l'AI Red Team de Microsoft (4 juin 2026) ajoute sept modes de défaillance agentiques et désigne le contournement du humain dans la boucle comme le plus exploité — y compris des chaînes zéro-clic partant d'une seule entrée externe.

2026-06-07 // 8 min affects: llm-agents, mcp-clients, computer-use-agents, multi-agent-systems, ai-coding-assistants

De quoi s’agit-il ?

Le 4 juin 2026, l’AI Red Team de Microsoft (AIRT) a publié une mise à jour v2.0 de sa Taxonomy of Failure Modes in Agentic AI Systems. La v1.0 d’origine (avril 2025) était largement prospective, construite à partir de modélisation de menaces et d’entretiens avec des praticiens. Le livre blanc v2.0 est différent : il s’appuie sur douze mois d’engagements de red team contre des systèmes agentiques déployés, ajoute sept nouveaux modes de défaillance et cinq nouvelles familles de mitigations, et fait des renvois croisés vers OWASP, CSA, MITRE, NIST et CoSAI.

Le constat le plus significatif sur le plan opérationnel est empirique, pas conceptuel : sur une année d’engagements, le contournement du humain dans la boucle (HitL) a été le mode de défaillance le plus systématiquement exploité, et plusieurs engagements ont produit des chaînes zéro-clic de bout en bout partant d’une seule entrée externe et atteignant l’exfiltration de données ou le mouvement latéral, sans aucune interaction humaine au-delà du lancement initial de l’agent.

Fonctionnement

Le cadrage de l’AIRT est que les attaques réelles tiennent rarement dans un seul mode de défaillance — les chaînes composées sont la norme. Les sept nouvelles catégories décrivent les surfaces qui s’enchaînent :

Compromission de la chaîne d’approvisionnement agentique — un plugin, serveur MCP, gabarit de prompt ou descriptif d’outil empoisonné injecte des instructions en langage naturel qui modifient le comportement sans toucher à aucun binaire.
Détournement d’objectif (goal hijacking) — un texte adverse redirige silencieusement l’objectif terminal de l’agent tout en continuant à passer les contrôles de plausibilité (déjà observé en conditions réelles pour l’empoisonnement de recommandations produit).
Escalade de confiance inter-agents — un problème de député confus induit en langage naturel, où un orchestrateur fait confiance à l’identité ou aux permissions auto-déclarées d’un sous-agent.
Attaque visuelle des Computer Use Agents (CUA) — des instructions cachées dans les pixels que l’agent capture (texte hors champ, bandeaux peu contrastés, faux bouton « Approuver ») et anodines pour un relecteur humain.
Contamination du contexte de session — des données introduites tôt dans une longue session biaisent le raisonnement ultérieur sans qu’aucune étape isolée ne paraisse anormale.
Abus de MCP / plugin — empoisonnement de descriptif d’outil, injection d’instructions côté serveur et écrasement inter-serveurs où un serveur malveillant réécrit le comportement des serveurs de confiance.
Divulgation de capacités / d’architecture — l’agent révèle des noms d’outils, des schémas, la structure du prompt système ou la logique de déclenchement HitL, convertissant un sondage en boîte noire en plan d’attaque en boîte blanche.

Les mécanismes de contournement HitL rapportés depuis les engagements réels sont le tissu conjonctif. Les red teamers ont usé la revue par fatigue du consentement (prompts répétés à faible enjeu), exploité l’invocation probabiliste (les agents qui décident quand demander) et employé l’escalade incrémentale où aucune étape isolée ne justifiait de revue mais l’issue composée si. Une chaîne représentative démarre par une injection inter-domaines (XPIA) dans un document hébergé sur le web ; la divulgation de capacités fuite ensuite le schéma d’outils ; un jeton de consentement falsifié mais valide selon le schéma glisse un appel à privilège élevé au-delà de l’approbation. Les pipelines de l’agent font le reste. C’est la leçon architecturale derrière le lethal trifecta et l’agents rule of two, désormais étayée par douze mois de données opérationnelles.

Pourquoi c’est important

La valeur tient au passage de la prédiction à la preuve. La v1.0 émettait des hypothèses sur le contournement HitL et l’empoisonnement de mémoire ; la v2.0 rapporte que XPIA et empoisonnement de mémoire sont apparus à haute fréquence et fréquemment combinés, que l’injection inter-domaines est restée le vecteur d’accès initial le plus fiable, et que la contamination de session et l’escalade incrémentale étaient à la fois très efficaces et difficiles à détecter, car aucune étape isolée n’est anormale.

Deux conséquences ressortent pour les défenseurs. D’abord, l’évaluation au niveau du modèle ne les fera pas apparaître : les chaînes zéro-clic, l’escalade de confiance inter-agents et la contamination de session n’émergent que sous tests au niveau système, sur des flux de tâches complets. Ensuite, la divulgation de capacités est le pivot — dans bon nombre des chaînes à plus fort impact de l’AIRT, l’exécution dépendait d’abord de l’extraction de détails d’architecture, ce qui ne demandait souvent que de poser directement la question à l’agent.

Défenses

Les mitigations de la v2.0 sont architecturales, et l’AIRT est explicite : elles sont difficiles à rétro-intégrer. La liste courte obligatoire :

Traitez les composants agentiques comme une chaîne d’approvisionnement logicielle. Générez un SBOM incluant plugins, serveurs MCP, gabarits de prompt et descriptifs d’outils ; exigez vérification de signature/provenance avant installation ; scannez les registres à la recherche d’instructions cachées dans les descriptifs d’outils, pas seulement de code malveillant ; figez les versions, car même un correctif mineur peut changer le comportement en langage naturel d’un outil.
Architecture inter-agents à confiance zéro. Délivrez à chaque agent une identité attestable au provisionnement ; liez-la à chaque message et appel d’outil ; vérifiez la chaîne d’identité avant toute décision de privilège. Ne laissez jamais un sous-agent s’élever via son auto-description.
Durcissez l’architecture de consentement — l’UX est un contrôle de sécurité. Rendez l’invocation HitL déterministe (l’agent ne doit pas décider quand demander), décomposez les actions composées avant approbation, résumez les invites d’approbation à partir des appels d’outils sous-jacents plutôt que de la description de l’agent (pour stopper le blanchiment de description), graduez les approbations selon la réversibilité et le rayon d’impact, et détectez les anomalies de fréquence d’approbation pour repérer l’exploitation par fatigue du consentement.
Durcissement de session adverse. Marquez chaque jeton de sa source (système / utilisateur / récupéré / outil / inter-agent), séparez structurellement contenu de confiance et non fiable, surveillez l’amplification du cadrage d’un seul document récupéré à travers les étapes de raisonnement, bornez la quantité de contenu externe pouvant orienter une session, et verrouillez les appels d’outils sensibles dès que des données non fiables sont entrées dans le contexte.
Prompts résistants à la divulgation et filtrage de sortie. Refusez uniformément l’introspection de la liste d’outils, du prompt système et des schémas sur tous les canaux d’entrée ; scannez le contenu sortant (y compris écritures mémoire et messages inter-agents) à la recherche d’empreintes de schéma ; résolvez l’inventaire d’outils à l’exécution depuis un registre non divulgable ; et minimisez la surface privilégiée pour qu’une fuite vaille moins. Associez-y des défenses contre l’injection visuelle pour les surfaces CUA.

Statut

Élément	Référence	Date	Notes
Annonce de la taxonomie v2.0	Microsoft Security Blog	2026-06-04	Fondée sur 12 mois d’engagements de red team
Livre blanc v2.0	Microsoft AI Red Team	daté avril 2026	7 nouveaux modes de défaillance, 5 familles de mitigations
Constat phare	Contournement HitL	—	Le plus systématiquement exploité ; chaînes zéro-clic observées
Nouveaux modes	Chaîne d’approvisionnement, détournement d’objectif, escalade de confiance inter-agents, attaque visuelle CUA, contamination de session, abus MCP/plugin, divulgation de capacités	—	Intégrés à la structure v1.0, étiquetés [New in v2.0]
Alignement industrie	OWASP ASI, CSA, MITRE SAFE-AI, NIST AI 600-1, CoSAI	—	Renvois croisés, sans dépendre d’un seul cadre
Base v1.0	Taxonomy of Failure Modes v1.0	2025-04	Prédécesseur prospectif

Le bon enseignement n’est pas un nouvel exploit mais un calibrage : une année de red teaming confirme que les défenses durables pour les agents sont architecturales — provenance de la chaîne d’approvisionnement, identité d’agent cryptographique, consentement déterministe et gradué, contexte marqué à la source — et que le moyen le plus fiable pour les attaquants d’atteindre un fort impact est de contourner discrètement l’humain censé être dans la boucle.