système : OPÉRATIONNEL
← retour à tous les hacks
DEFENSE LOW NEW

Agent Threat Rules : un « Sigma pour agents IA » — et ce que ses chiffres de rappel avouent

ATR propose des règles de détection YAML ouvertes pour les attaques d'agents, déjà en production chez Microsoft, Cisco et Gen Digital. Ses propres benchmarks montrent pourquoi la détection par regex est une couche, pas un périmètre.

2026-06-03 // 6 min affects: langchain, crewai, autogen, mcp-servers, claude-code, github-copilot

De quoi s’agit-il ?

Agent Threat Rules (ATR) est un format ouvert, versionné et lisible par machine pour décrire des règles de détection d’attaques contre les agents IA — injection de prompt, empoisonnement d’outils, compromission de compétences (skills) et exfiltration de contexte. Help Net Security a couvert son passage en production le 3 juin 2026 ; le projet se présente comme un « Sigma pour agents IA », à l’image de Sigma pour la détection SIEM et de YARA pour les signatures de malware. Les règles sont des documents YAML qui déclarent un motif d’attaque, le champ d’entrée à inspecter (entrée du LLM, arguments d’appel d’outil ou contenu de SKILL.md) et les cas de test qui prouvent que la règle se déclenche. Un moteur de référence en TypeScript et un wrapper Python, pyATR, sont publiés sous licence MIT.

L’intérêt éditorial ne tient pas au slogan mais à la transparence. Le projet publie ses propres chiffres de rappel, corpus par corpus, y compris ceux qui sont mauvais. Cette honnêteté est précisément ce qui permet à un défenseur de raisonner sur les endroits où la détection par règles aide — et ceux où elle échoue.

Comment ça marche

Une règle filtre les événements du runtime d’un agent — prompts utilisateur, appels d’outils, échanges MCP, opérations mémoire, installations de skills — au moyen de motifs regex et de seuils comportementaux, puis déclare une réponse (bloquer, alerter, mettre en quarantaine, escalader). Comme chaque règle est livrée avec des cas de test vrais-positifs et vrais-négatifs, le jeu de règles est lui-même testable et relisible par les pairs, propriété qui manque le plus souvent aux listes de blocage des garde-fous classiques.

Les chiffres de benchmark sont le cœur du sujet. D’après le compte rendu de Help Net des mesures version-pinned d’ATR :

Corpus (version-pinned)        Rappel    Signification
-----------------------------  --------  ----------------------------------------
garak jailbreaks « in-the-wild » 98.0%   Payloads connus, structurés : détectés
garak (toutes familles)        38.5%     Espace d'attaque élargi : la plupart passent
hackaprompt                    66.0%     Attaques humaines variées : partiel
AdvBench / HarmBench           1.3 / 2.5%  Jeux adversariaux académiques : quasi nuls
JailbreakBench                 5.0%
PromptBench / PromptInject     0.0%      Attaques paraphrasées / sémantiques : aveugle

Le mainteneur, Adam Lin, traite le problème frontalement : chaque règle de ces évaluations à faible score passait ses propres tests vrais-positifs et vrais-négatifs, et pourtant le rappel agrégé est proche de zéro. Le clivage est structurel. Une couche regex détecte ce qu’elle peut exprimer — des chaînes d’attaque fixes et structurées — et reste aveugle à ce qu’elle ne peut pas : les charges paraphrasées et reformulées sémantiquement. Le projet documente cela comme une lacune de couverture plutôt que de la masquer, et recommande de coupler ATR avec le courtage de secrets (credential brokering), l’exécution en bac à sable et la relecture humaine pour les actions à risque élevé.

Pourquoi c’est important

Deux choses sont vraies en même temps, et les deux comptent pour les défenseurs.

D’abord, la détection d’agents se dote enfin d’un vocabulaire commun. ATR couvre 10 des 10 catégories de l’OWASP Agentic Top 10 et revendique 78 des 85 techniques SAFE-MCP (91,8 %), avec des règles individuelles référençant de vraies CVE dans Microsoft Semantic Kernel, Spring AI, LiteLLM et Claude Code. Le format est déjà en production : l’Agent Governance Toolkit de Microsoft synchronise automatiquement un pack de règles ATR chaque semaine, Cisco AI Defense en exécute un dans son skill-scanner, MISP au CIRCL a fusionné un cluster de renseignement, et Gen Digital (maison mère de Norton, Avast et AVG) a fusionné un pack. Un format neutre vis-à-vis des éditeurs, lisible par machine et consommé par plusieurs outils du Fortune 500 constitue un vrai progrès par rapport à chaque équipe écrivant sa propre liste de blocage non documentée.

Ensuite, le tableau de rappel est un avertissement contre l’idée de traiter un détecteur de motifs comme un périmètre. 98 % sur les jailbreaks connus et 0 % sur les attaques paraphrasées : c’est la signature de la détection regex partout, excellente sur les attaques déjà vues, aveugle à la nouveauté. Un attaquant capable de reformuler — c’est-à-dire la plupart — contourne la règle. Le bon modèle mental est celui de l’immunité innée : rapide, peu coûteuse, à forte couverture sur les motifs connus, et explicitement pas un substitut aux défenses sémantiques et architecturales plus lentes qui rattrapent l’inconnu.

Défenses

ATR est une couche de détection. Déployez-la comme une entrée parmi d’autres d’une défense en profondeur, pas comme le mur.

  1. Faites tourner la détection par règles sur les événements qui comptent. Branchez ATR (ou tout moteur conforme) pour inspecter les entrées/sorties du LLM, les arguments d’appels d’outils et les événements SKILL.md/installation de skills. C’est peu coûteux, rapide, et cela attrape les attaques structurées à fort volume — une vraie réduction du bruit.

  2. Supposez la couche regex contournable et architecturez derrière. Couplez la détection au courtage de secrets, à l’exécution en bac à sable et à des jetons au périmètre étroit, pour qu’une injection manquée par les règles atterrisse dans un rayon d’explosion confiné. C’est la recommandation du mainteneur lui-même.

  3. Conditionnez les actions à fort impact à une approbation humaine ou par politique. Les étapes irréversibles ou sensibles — envoyer des données, écrire en production, exécuter du code — ne doivent pas dépendre du déclenchement d’un motif. La détection informe ; une personne ou un moteur de politique confirme.

  4. Ajoutez une couche sémantique pour la lacune des paraphrases. Là où le regex obtient 0 % (PromptBench, PromptInject), un classifieur fondé sur un LLM ou sur des embeddings est le contrôle complémentaire. Servez-vous des règles pour les 95 % de trafic connu et de la couche sémantique pour la longue traîne inédite.

  5. Suivez le benchmark, pas le titre. Pour évaluer un produit de sécurité d’agents, exigez un rappel et une précision version-pinned par corpus — exactement ce que publie ATR. Une simple revendication « bloque l’injection de prompt » sans détail par corpus est infalsifiable.

  6. Remontez vos faux positifs. La valeur du format croît avec le réglage communautaire. Des règles optimisées pour le rappel plutôt que la précision se déclencheront à tort sur votre charge ; les remonter est ce qui transforme un standard partagé en bon standard.

Statut

ÉlémentRéférenceDateNotes
Passage d’ATR en production (couverture)Help Net Security2026-06-03400+ règles ; « Sigma pour agents IA »
Première version publique (v0.1.0)GitHub2026-03-0929 règles, brouillon RFC, licence MIT
Rappel garak « in-the-wild »ATR version-pinned2026-0698,0 % sur jailbreaks structurés connus
garak (toutes familles) / PromptBenchATR version-pinned2026-0638,5 % / 0,0 % — lacune des paraphrases
Couverture OWASP Agentic Top 10ATR2026-0610/10 catégories ; SAFE-MCP 78/85 (91,8 %)
Adoptants en productionHelp Net, site du projet2026-04 → 2026-06Microsoft AGT, Cisco AI Defense, MISP/CIRCL, Gen Digital

À retenir : non pas « ATR ne marche pas » — sur les attaques qu’il est conçu pour attraper, il les attrape, et un format de règles ouvert et partagé était attendu. À retenir plutôt : ses propres benchmarks honnêtes tracent la frontière à votre place. La détection par règles est la couche interne rapide et peu coûteuse de la défense des agents, et le trou en forme de paraphrase qui la traverse est exactement là où votre bac à sable, votre cloisonnement des secrets et votre humain dans la boucle doivent faire le travail.

Sources