DEFENSE MEDIUM NEW

La triade létale est devenue la norme — défendez les agents à l'exécution

La triade létale signalait jadis les agents à risque. Mi-2026, elle décrit tout agent utile : l'évitement architectural ne suffit plus. La défense se déplace vers cinq signaux comportementaux à l'exécution.

2026-06-18 // 6 min affects: ai-agents, microsoft-365-copilot, notion-ai, claude-cowork, superhuman-ai

De quoi s’agit-il ?

En juin 2025, Simon Willison a nommé la « triade létale » : un agent qui dispose en même temps d’un accès à des données privées, d’une exposition à du contenu non fiable et d’une capacité à communiquer vers l’extérieur constitue une voie d’exfiltration quasi garantie via l’injection de prompt indirecte. Nous l’avons traitée dans La triade létale. Un an plus tard, une analyse CSO du 15 juin 2026 du chercheur Ax Sharma pousse l’argument plus loin : la triade a cessé d’être un signal de risque élevé, car elle décrit désormais le fonctionnement de base de pratiquement tout agent réellement déployé. Quand un signal d’alerte est présent dans 100 % des déploiements, il ne distingue plus rien. La question défensive se déplace donc de « mon agent présente-t-il la triade ? » vers « comment distinguer un agent-triade compromis d’un agent sain ? » — un problème d’exécution, pas d’architecture.

Comment ça marche

Le raisonnement est simple. Un agent de support lit des dossiers clients (données privées), ingère messages et pièces jointes (contenu non fiable) et appelle des CRM ou des API de remboursement (communication externe). Un assistant de messagerie lit votre courrier, traite des messages d’inconnus et envoie des réponses. Retirez une seule jambe et l’agent devient, selon la formule de Sharma, « plus proche d’une barre de recherche que d’un agent ». Le RSSI de Sophos, Ross McKerchar, faisait le même constat dans un billet de mai 2026, parlant du « coût architectural de l’utilité ». La Règle des Deux de Meta — que nous avons couverte dans Agents Rule of Two — tente de limiter les agents à deux des trois propriétés par session, mais la section « limites » de Meta reconnaît elle-même que beaucoup de cas d’usage recherchés n’y entreront pas, et que des conceptions conformes « peuvent malgré tout échouer ».

Les preuves sont déjà là. Selon le rapport de Breached.Company, entre le 7 et le 15 janvier 2026, quatre assistants en production — IBM Bob, Superhuman AI, Notion AI et Claude Cowork d’Anthropic — ont chacun fui des données via injection de prompt indirecte. Dans le cas de Cowork, une instruction cachée dans un document téléversé a dirigé l’agent pour exfiltrer des fichiers via un domaine d’API en liste blanche — invisible aux contrôles périmétriques et indiscernable d’un comportement normal jusqu’à ce que les données soient parties.

Pourquoi c’est important

Si la triade est désormais le minimum, les contrôles de périmètre et d’architecture ne peuvent à eux seuls détecter la compromission, car rien de structurel ne sépare l’action malveillante de l’action légitime. Un agent compromis ne se comporte pas anormalement : il suit des instructions, c’est sa fonction. Ce qui change, c’est de qui viennent les instructions, et cela ne devient visible qu’au niveau des actions réelles de l’agent à l’exécution. Ce recadrage compte pour qui dimensionne sa détection : le budget va à l’observabilité des agents et à la télémétrie comportementale, pas seulement à la revue de conception préalable.

Défenses

L’analyse CSO ramène la détection à cinq signaux d’exécution. Traitez-les comme l’équivalent EDR/SIEM pour les agents — une instrumentation qui manque encore à la plupart des déploiements :

Anomalies de suivi d’instructions. Signalez les actions sans lien plausible avec la tâche de l’utilisateur — par exemple une demande « résume ce rapport » qui déclenche une requête sortante vers un domaine inconnu. C’est le contenu ingéré qui l’a ordonné.
Séquences d’appels d’outils qui brisent la topologie attendue. Un agent de code corrigeant un bug devrait toucher fichiers, tests et docs — pas des API de messagerie ou de calendrier. Signalez les appels transversaux même si chacun paraît légitime isolément. Voir interception des appels d’outils à l’exécution.
Exfiltration via canaux à faible débit. URL d’images encodées, données glissées dans des paramètres d’API, liens dans des documents générés. La détection exige de corréler les données accessibles à l’agent avec ce qu’il a inséré en sortie — une visibilité de bout en bout, pas seulement la réponse finale. Voir exfiltration silencieuse.
Accès aux secrets hors périmètre de la tâche. Un agent corrigeant un bug d’affichage n’a aucune raison de lire des identifiants cloud. Le moindre privilège est le contrôle architectural ; surveiller l’accès aux secrets hors périmètre est la couche de détection qui rattrape ses défaillances.
Anomalies d’écriture en mémoire. La mémoire persistante permet à une entrée empoisonnée de transporter des instructions-déclencheurs dormantes d’une session à l’autre. Auditez les écritures mémoire contenant du texte de type instruction, ou survenant dans des sessions ayant ingéré du contenu non fiable. Voir empoisonnement de la mémoire d’agent.

Aucun de ces signaux ne remplace le moindre privilège ou la validation humaine pour les actions à fort enjeu — ils constituent la couche de détection qui suppose que ces contrôles échoueront parfois.

État des lieux

Élément	Détail
Concept	Triade létale (Willison, juin 2025)
Affirmation nouvelle	La triade = config par défaut des agents déployés (CSO, 15 juin 2026)
Preuves	4 assistants ayant fui par injection, 7–15 janvier 2026 (Breached.Company)
Réponse architecturale	Règle des Deux de Meta (oct. 2025) ; réduction du rayon d’impact, Sophos (mai 2026)
Posture recommandée	Détection comportementale à l’exécution sur 5 signaux

La leçon durable : un contrôle que tout le monde déclenche n’est pas un contrôle. À mesure que les agents convergent vers la triade par conception, les défenseurs doivent cesser d’en faire une barrière et commencer à instrumenter ce que l’agent fait à l’exécution — car la prochaine compromission ressemblera exactement à un travail normal, jusqu’à ce que les données soient déjà parties.