DEFENSE

SherAgent : l'investigation d'attaques par LLM et la confiance qu'elle hérite

Un papier de juillet 2026 place un agent LLM dans la boucle du SOC pour reconstituer des attaques à partir de graphes de provenance. Un vrai gain — et un rappel : tout agent qui raisonne sur des logs manipulables hérite d'une surface d'injection.

2026-07-17//6 min

Scan de secrets par agent : quand un LLM relie un identifiant fuité à ce qu'il déverrouille

Un article de recherche de juillet 2026 décrit un agent LLM qui non seulement retrouve les identifiants fuités dans des documents, mais évalue aussi le périmètre d'accès que chacun ouvre. Un outil défensif au double usage évident.

2026-07-16//6 min

GPT-Red : entraîner un modèle attaquant pour durcir les défenseurs face à l'injection

Le 15 juillet 2026, OpenAI a décrit GPT-Red, un modèle de red team interne entraîné par self-play pour trouver des injections de prompt. Il bat les humains 84 % contre 13 %, puis sert à rendre GPT-5.6 plus robuste.

2026-07-16//6 min

Détecter l'empoisonnement de mémoire d'un agent via ses seuls logs d'outils

Une étude de juin 2026 montre que l'empoisonnement du canal mémoire laisse une empreinte forensique dans la trajectoire d'appels d'outils d'un agent — un motif « recall avant send » détectable sans toucher à la mémoire, aux poids ni au contenu des messages.

2026-07-16//6 min

Prouver quel agent a produit un log, quand c'est le revendeur qui détient le log

TRACE, publié le 9 juillet 2026, marque la trajectoire même de l'agent — et survit à un revendeur capable de supprimer et de réécrire le log dont dépend la preuve d'origine.

2026-07-16//7 min

SingGuard-NSFA : un garde-fou open source pensé pour l'exécution des agents, pas seulement le contenu

Ant Group ouvre le code d'une famille de garde-fous qui contrôle les requêtes et les actions d'un agent avant qu'elles ne s'exécutent — 185 scénarios de menace, 133 langues, ~50 ms de latence.

2026-07-16//7 min

Pourquoi le fine-tuning fait tomber les garde-fous : l'effet de similarité d'alignement

Une étude ACL 2026 montre que l'alignement de sécurité cède après fine-tuning surtout parce que les données de fine-tuning ressemblent aux données d'alignement d'origine — un problème de conception en amont.

2026-07-15//7 min

Context bombs : l'injection de prompt défensive contre les agents IA attaquants

Une étude Tracebit de mi-juillet 2026 cache de courtes chaînes qui déclenchent les garde-fous des modèles dans des secrets leurres, faisant chuter le taux de compromission admin de cinq agents IA offensifs d'environ 57 % à 5 % sur un cyber-range AWS.

2026-07-15//6 min

La déception cyber fonctionne mieux sur les attaquants IA que sur les humains

Une étude de juin 2026 a confronté 21 modèles attaquants à des pièges de déception classiques : tous mordent à l'hameçon plus souvent que les humains — et continuent même après avoir identifié le piège.

2026-07-15//6 min

Un lambda-calcul qui prouve la résistance des agents à l'injection

Un calcul formel pour les agents IA modélise conversations, appels d'outils et exécution de code comme des termes de première classe — et prouve un théorème de non-interférence montrant que le contrôle de flux d'information peut contenir l'injection de prompt.

2026-07-15//7 min

Cross-Site Prompting : la menace en forme de XSS qui vise les agents web

Un article de UC Berkeley nomme l'équivalent du XSS pour les agents web — le Cross-Site Prompting — et propose une couche de confinement système qui fait chuter le taux de succès des attaques de 85,5 % à 0,7 % sans toucher au site.

2026-07-15//7 min

RAGCharacter : traçabilité au caractère près des passages empoisonnés dans un RAG

Un préprint de mai 2026 propose une forensique boîte noire, au niveau du caractère, qui localise le passage empoisonné exact dans un chunk récupéré après une erreur du RAG, au lieu de mettre en quarantaine des paragraphes entiers.

2026-07-15//6 min

Protéger les contenus des crawlers agentiques au niveau de la compression

Un article de juillet 2026 soutient que la compression de contexte — et non le contrôle d'accès — est la couche non surveillée où les agents IA réduisent les contenus web, et que des perturbations invisibles peuvent y survivre pour protéger les données.

2026-07-14//7 min

Quatre portes contre les jailbreaks multi-tours qu'aucun message seul ne trahit

Un article de juillet 2026 intercale un modèle de supervision indépendant à quatre portes — intention, contexte zéro confiance, cohérence inter-tours et risque de sortie — pour attraper les jailbreaks anodins message par message.

DEFENSE CRITICAL NEW

GhostLock : une évasion de conteneur qui brise l'hypothèse du bac à sable des agents

Une use-after-free du noyau Linux vieille de 15 ans, divulguée le 8 juillet 2026, donne le root à un utilisateur local non privilégié et s'évade des conteneurs — précisément la couche d'isolation sur laquelle reposent la plupart des bacs à sable d'exécution de code des agents.

2026-07-14//8 min

Votre garde-fou se trahit : identifier les défenses depuis l'extérieur

Un article de juillet 2026 montre qu'un garde-fou séparé révèle sa présence, les catégories qu'il bloque et si c'est lui — et non le modèle — qui a refusé, à partir des seuls signaux HTTP, lexicaux et temporels.

Empêcher les données sensibles de fuiter dans les chats LLM tiers

Un article de juillet 2026 construit un pare-feu open source côté client qui intercepte les prompts avant qu'ils n'atteignent ChatGPT, Claude ou Copilot et bloque PII, secrets et code propriétaire.

Filtrer les appels d'un agent de pentest avant leur exécution : ce qu'un juge de périmètre doit voir

Un benchmark de juillet 2026 montre qu'un juge LLM peu coûteux peut bloquer les appels hors périmètre d'un agent offensif — à condition de voir la requête de l'utilisateur, pas seulement une politique figée.

Auditer les flux de tokens d'un agent avant les points sensibles

Un article de juillet 2026 repense la sécurité des agents persistants autour des flux de tokens en langage naturel, inspectés à la frontière avant d'écrire en mémoire ou d'appeler un outil.

Repérer un agent compromis en lisant ses activations, pas ses messages

Un préprint de juillet 2026 soutient que surveiller ce que se disent les systèmes multi-agents laisse passer les attaques furtives. Lire les états d'activation internes de chaque agent détecte la compromission même quand les messages semblent anodins — et répare l'agent au lieu de l'isoler.

Graphes d'attribution : diagnostiquer pourquoi un jailbreak fonctionne dans le modèle

Un article de juillet 2026 compare les graphes de calcul internes d'un modèle sur des prompts sûrs et jailbreakés appariés pour trouver les circuits causaux d'un contournement, puis intervient dessus pour durcir le modèle.

2026-07-13//7 min

Les denylists de commandes sont la mauvaise défense pour les agents IA en terminal

Une étude de l'Ohio State du 20 juin 2026 a passé 1 709 denylists de commandes d'agents réels dans un détecteur de contournement automatique : 69 à 98,6 % échouent à bloquer les opérations qu'elles prétendent interdire.

Le prompt n'est pas une couche d'application pour les agents d'entreprise

Une étude de juillet 2026 montre que les instructions d'un prompt n'appliquent pas de façon fiable les contrats de sortie et de trace d'un agent d'entreprise — seule une application codée autour du modèle a préservé à la fois la sûreté et l'utilité complète.

L'agent ne peut pas vérifier l'autorité : l'autorisation hors du modèle

Un article de juillet 2026 montre que le refus côté modèle est peu fiable — de 38 % à 100 % selon 15 modèles — et défend une autorisation des appels d'outils placée hors de l'agent, liée à une identité vérifiée.

2026-07-13//7 min

Transformer le champ description de MCP en bouclier contre les failles taint-style des serveurs

Un article de juillet 2026 montre que les bugs taint-style dominent les vulnérabilités des serveurs MCP et sont corrigés lentement — puis propose de durcir la description de l'outil pour que le modèle refuse l'appel dangereux.

L'attention, champ de bataille de l'empoisonnement RAG : la détourner, ou la lire

Un seul passage empoisonné peut détourner une réponse RAG en captant l'attention du modèle. De nouveaux travaux transforment cette même attention en signal de détection — et en moyen de cloisonner les documents.

2026-07-09//7 min

AutoSpec : apprendre aux règles de sécurité des agents à corriger leurs faux positifs

Les garde-fous d'agents écrits à la main sont soit trop stricts, soit trop laxistes. Un article de fin juin 2026 fait évoluer ces règles à partir d'exemples étiquetés grâce à la programmation logique inductive, réduisant les faux positifs jusqu'à 94 % tout en restant auditables.

2026-07-08//7 min

BraveGuard : apprendre à un modèle-garde à surveiller toute la trajectoire d'un agent

Un article de juin 2026 montre que les filtres de sécurité statiques ratent les nuisances des agents computer-use, et entraîne un modèle-garde sur des menaces réelles et des traces d'exécution — faisant passer la détection de 39 % à 82 %.

Windows Execution Containers : isoler les agents autonomes au niveau de l'OS

Le SDK MXC de Microsoft (juin 2026) déplace le confinement des agents dans Windows lui-même : isolation de processus et de session, identité par agent et politique appliquée à l'exécution.

RAG prouvablement robuste : agréger les passages pour résister à l'empoisonnement

Un article de mai 2026 propose PRA-RAG, une défense d'agrégation de la récupération avec des bornes théoriques de robustesse qui abaisse le taux de réussite de l'empoisonnement jusqu'à 1 % en conservant 71 % de précision.

Lire l'intention d'un agent avant qu'il n'agisse : sondes pré-action

Un article de juin 2026 lit deux signaux — un outil est-il nécessaire, et à quel point est-il risqué — directement dans les activations d'un agent avant l'exécution, transformant les logs a posteriori en couche de supervision pré-action.

AgentFlow : l'analyse statique qui repère les risques prompt-vers-outil dans le code d'agent

Un article de juillet 2026 construit un graphe de dépendances pour les programmes d'agents LLM sur cinq frameworks, génère une nomenclature d'agent (Agent BOM) et signale 238 risques prompt-vers-outil de type taint dans du code réel.

2026-07-07//7 min

AgentLens : repérer les étapes dangereuses d'un agent de code dans ses activations

Un article de fin juin 2026 propose une défense en boîte blanche qui lit les états internes d'un agent de code pour signaler les étapes nuisibles en cours de tâche, puis les corrige via un petit sous-espace d'activations.

2026-07-07//7 min

Continuité de l'état contextuel : vérifier la mémoire d'un agent avant qu'il n'agisse

Un papier de juillet 2026 propose une défense qui recalcule et vérifie une empreinte cryptographique de l'état des outils et de la mémoire d'un agent avant chaque requête, pour détecter l'empoisonnement d'outils et de mémoire qui biaise silencieusement son comportement.

2026-07-07//6 min

Untrusted Content Masking : une défense prouvable pour les agents web

Un article de juillet 2026 restaure la frontière de confiance que les agents web perdent en lisant une page rendue — en masquant les zones DOM non fiables et en les routant vers un modèle à sortie typée pour bloquer l'injection par construction.

2026-07-07//8 min

Pourquoi une sonde à 0,998 d'AUC ne détecte pas forcément l'injection de prompt

Une étude de juin 2026 montre qu'une sonde d'états internes peut atteindre 0,998 d'AUC pour repérer une injection indirecte dans les agents « computer-use » tout en apprenant des artefacts de surface — et propose des contrôles pour distinguer la vraie détection.

kNNGuard : un garde-fou sans entraînement lu dans les activations du LLM

Un article de juillet 2026 construit un garde-fou de prompts à partir de 50 exemples annotés en lisant les activations internes du modèle — sans fine-tuning, et 2,7x plus rapide que le meilleur classifieur comparable.

MAGE : une mémoire fantôme qui détecte les attaques d'agents sur le long terme

Un article de mai 2026 reprend l'idée de la shadow stack pour doter les agents LLM d'une mémoire de sécurité parallèle, ramenant une attaque multi-tours de 100 % à 8,3 %.

OWASP AISVS 1.0 : une checklist testable pour vérifier la sécurité des applications IA

OWASP a publié fin juin 2026 la première version stable de son AI Security Verification Standard — 14 chapitres d'exigences pass/fail qui transforment l'intention de gouvernance IA en preuves, avec des chapitres dédiés aux agents et à MCP.

SUDP : laisser un agent agir avec vos identifiants sans jamais les lui confier

Un protocole de mai 2026 repense la gestion des secrets par les agents : au lieu de placer un identifiant réutilisable dans le runtime, l'agent se contente de proposer une opération que l'utilisateur signe, à usage unique.

2026-07-06//7 min

AI-Infra-Guard : pourquoi le red teaming d'agents exige une méthode par couche

Un framework publié le 30 juin 2026 soutient que la surface d'attaque d'un agent est stratifiée — infrastructure, outils, comportement, modèle — et qu'aucune méthode unique ne couvre les quatre.

2026-07-05//6 min

Enrayer les jailbreaks infectieux dans les systèmes multi-agents par purification locale

Dans un réseau d'agents multimodaux, une seule image piégée peut propager un jailbreak d'agent en agent jusqu'à compromettre presque tout le système. Un article de mai 2026 propose un remède local, sans entraînement.

2026-07-05//8 min

Arrêter une compromission avant qu'elle ne se propage dans un système multi-agents

La plupart des défenses multi-agents repèrent l'agent fautif et l'isolent après coup — le mal est déjà fait. Un article de juin 2026 simule l'impact de chaque message avant sa propagation, et réécrit ceux qui sont risqués.

2026-07-05//6 min

Zero Trust pour agents : ce que le cadre d'Anthropic corrige, et ses limites

Publié fin mai 2026, le cadre Zero Trust d'Anthropic repense la sécurité des agents d'entreprise autour de l'identité par tâche et de l'intégrité mémoire — mais Gartner prévient qu'il ne suffit pas pour les agents très autonomes.

AgentWatch : un cadre ouvert pour auditer le comportement des agents-navigateurs

Une équipe de l'UC Berkeley a audité cinq agents de navigation IA de premier plan sur cinq dimensions de risque et publié un cadre de notation ouvert, tolérant à l'aléa, que chacun peut étendre.

Un seul filtre ne suffit pas : une défense en couches pour les chatbots RAG

Un article de mi-juin 2026 montre que les filtres d'injection à une seule étape laissent passer un document empoisonné du corpus, et teste un pipeline à trois couches qui fait chuter le taux de réussite des attaques de 71 % à 11 %.

Locate-and-Judge : détecter les skills d'agent malveillants par l'attention

Un article de juin 2026 scanne environ 134 000 skills d'agent sur trois marketplaces et confirme 131 skills malveillants en circulation, en s'appuyant sur l'attention de suivi d'instructions pour repérer des charges cachées dans des fichiers d'apparence anodine.

2026-07-04//7 min

MDASH : la découverte de vulnérabilités par agents IA passe en défense de production

Le harnais MDASH de Microsoft orchestre plus de 100 agents IA spécialisés pour trouver, débattre et prouver des bugs noyau. Il a révélé 16 CVE Windows et obtenu 88,45 % sur CyberGym — le signal défensif, et le signal dual-use.

2026-07-04//8 min

Régularisation des tokens de sécurité : garder les LLM fine-tunés alignés

Un article d'avril 2026 montre qu'un fine-tuning pourtant bénin érode les refus d'un LLM, et propose un régularisateur léger dans l'espace des logits qui préserve la sécurité sans nuire à la précision.

Où la hiérarchie d'instructions casse dans les modèles à raisonnement

Un article de diagnostic de juin 2026 décompose les échecs de la hiérarchie d'instructions des LLM à raisonnement en trois étapes — et montre qu'une auto-surveillance sans réentraînement en répare la plupart.

2026-07-03//6 min

MemAudit : un audit forensique pour repérer la mémoire d'agent empoisonnée

La plupart des défenses cherchent à bloquer l'empoisonnement en amont. Un article de mai 2026 inverse le problème : auditer la mémoire après coup, en remontant d'une mauvaise action vers les entrées qui l'ont causée.

2026-07-03//6 min

La provenance au niveau des arguments arrête l'injection là où les défenses par appel échouent

Un papier de mai 2026 soutient que l'injection indirecte ne devient dangereuse que lorsqu'une donnée non fiable lie un argument porteur d'autorité. PACT vérifie la provenance argument par argument.

2026-07-03//8 min

Le raisonnement par alignement de tâche surpasse la détection de motifs face à l'injection adaptative

Un papier de juin 2026 montre que les benchmarks statiques surestiment les défenses anti-injection : un attaquant adaptatif relève le pire taux de succès d'environ 16 points. RETA ancre la décision sur la tâche de l'utilisateur, pas sur le texte de l'attaquant.

2026-07-03//8 min

SCOUT : allocation adaptative de détecteurs contre l'injection de prompt

Publié sur arXiv en mai 2026, SCOUT reformule la défense contre l'injection de prompt en un problème de routage par requête — réduisant, selon les auteurs, le taux de succès des attaques de 46 % et la latence de 40 % face à un juge LLM permanent.

2026-07-03//6 min

TRACE : détecter l'empoisonnement de corpus RAG en suivant l'influence des tokens

Un article de juin 2026 détecte les documents empoisonnés d'un corpus RAG en traçant quels tokens récupérés ont dicté la réponse — sans classifieur supplémentaire ni second LLM, et révèle au passage la réponse cible de l'attaquant.

2026-07-03//7 min

Partager du renseignement sur les injections de prompt sans partager les prompts

Un papier SaTML 2026 de Microsoft transforme les prompts d'injection détectés en empreintes binaires respectueuses de la vie privée : un service peut alerter les autres sans exposer le texte des utilisateurs.

Quand l'injection parle la langue du document : l'angle mort du camouflage

Deux études de 2026 montrent que les injections rédigées dans le jargon métier d'un document passent au travers des classifieurs de garde — Llama Guard 3 n'en a détecté aucune. Reformuler le contenu récupéré est la défense la plus robuste, mais les résultats varient selon le modèle.

2026-07-02//6 min

Harnais contre modèle : évaluer les LLM sur la détection de failles d'accès

Un benchmark Semgrep de juin 2026 sur la détection d'IDOR montre un modèle open-weight battant un agent de code frontier sur un simple prompt — mais un harnais dédié reste devant. Ce que les défenseurs doivent en retenir.

Le blanchiment de mémoire déjoue les défenses par contenu et par lignée des agents

Un article de juin 2026 prouve que toute défense fondant l'autorité d'un élément de mémoire sur son contenu ou son historique de dérivation peut être blanchie — et que seule la liaison d'origine à l'écriture arrête l'empoisonnement de mémoire des agents.

Les défenses hors bande contre l'injection n'ont pas encore affronté d'attaquant adaptatif

Un article de juin 2026 alerte : les défenses par moniteur de référence comme CaMeL et Progent sont encore jugées sur des benchmarks statiques — la méthode exacte qui faisait paraître fortes les défenses in-band avant que les attaques adaptatives ne les brisent.

2026-07-02//8 min

Une défense certifiée pour la mémoire RAG qu'un agent empoisonné n'oublie jamais

Un article de juin 2026 modélise l'empoisonnement de mémoire multi-session — où une seule entrée piégée corrompt tous les futurs utilisateurs — et propose la première défense assortie d'une borne de robustesse prouvée plutôt que d'un simple filtre heuristique.

Cognitive Firewall : une défense répartie pour les agents navigateurs

Un papier eBay de mars 2026 empile une sentinelle locale, un planificateur cloud et un garde d'exécution déterministe pour faire chuter l'injection indirecte dans les agents navigateurs de 100 % à moins de 1 %.

2026-06-22//7 min

MemMark : attribuer une mémoire d'agent empoisonnée à partir du seul instantané

Un article arXiv du 26 mai 2026 inscrit la propriété dans les décisions latentes d'écriture mémoire d'un agent : la provenance survit même quand les journaux ont été effacés et qu'il ne reste que l'instantané final.

2026-06-22//7 min

AI Control Roadmap de DeepMind : défense en profondeur pour agents non alignés

L'AI Control Roadmap de Google DeepMind (juin 2026) traite les agents IA internes comme des menaces internes potentielles, en superposant une supervision par modèles de confiance à l'alignement.

2026-06-21//7 min

Le désapprentissage de backdoor généralise : retirer un déclencheur peut en neutraliser d'autres

Un article de juin 2026 montre que désapprendre un seul déclencheur de backdoor peut affaiblir d'autres backdoors jamais ciblées — lorsque leurs décalages d'activation internes sont proches, mesurés par une nouvelle métrique : la CASD.

2026-06-21//6 min

Diversion défensive : pourquoi bloquer les jailbreaks automatisés peut se retourner contre vous

Un papier de juin 2026 modélise le juge automatique de l'attaquant et montre que des refus prévisibles alimentent sa boucle de recherche — d'où une diversion contrôlée plutôt qu'un simple blocage.

2026-06-21//6 min

LLM salting : faire pivoter la direction de refus pour casser la réutilisation des jailbreaks

Le « LLM salting » de SophosAI (CAMLIS 2025) applique une légère rotation à la direction de refus d'un modèle : un jailbreak précalculé contre le modèle de base ne se transfère plus à votre déploiement — la parade des rainbow tables, appliquée aux LLM.

2026-06-21//6 min

Pourquoi les refus des agents échouent : le Cybersecurity Refusal Framework

Un nouveau benchmark montre que les refus de sécurité des agents se décident sur la chaîne d'URL, pas sur la cible réelle. Deux astuces triviales — fausses « règles d'engagement » et proxy localhost — transforment le refus en obéissance sur des sites de production.

2026-06-20//7 min

Sécurité MCP : la vraie question n'est pas quelles attaques existent, mais où placer les défenses

Un article arXiv d'avril 2026 cartographie les attaques MCP sur six couches architecturales et constate des défenses inégales, trop centrées sur l'outil — laissant l'orchestration hôte, le transport et la chaîne d'approvisionnement structurellement sous-protégés.

2026-06-20//7 min

Localiser l'injection de prompt : de la détection à l'excision forensique

Détecter une injection de prompt vous dit seulement que quelque chose ne va pas. Deux travaux de 2026, PromptLocate et WebSentinel, identifient précisément le segment de contexte empoisonné pour l'exciser et récupérer la tâche.

2026-06-20//6 min

SEAgent : un contrôle d'accès obligatoire contre l'escalade de privilèges des agents

Un article de janvier 2026 reformule les attaques d'agents comme une escalade de privilèges — des actions dépassant le moindre privilège requis — et propose SEAgent, une couche MAC/ABAC déterministe appliquée sur un graphe de flux d'information.

2026-06-20//7 min

AuthGraph : alignement à double graphe contre l'injection sur agents

Un papier UCLA du 26 mai 2026 compare un graphe d'autorisation propre au graphe de provenance réel de l'agent, faisant chuter le taux de succès d'attaque de 40 % à 1 % sur AgentDojo.

2026-06-19//6 min

Cordon : un confinement transactionnel pour les agents LLM outillés

Un papier arXiv du 16 juin 2026 propose des 'transactions sémantiques' : un runtime qui met en attente les effets irréversibles d'un agent et valide tout le flux de la tâche avant de committer.

2026-06-19//6 min

DoubtProbe : détecter les jailbreaks qui réorganisent l'intention

Un papier de juin 2026 propose une défense à l'inférence qui traite la détection de jailbreak comme un contrôle de cohérence : on reconstruit la requête sous contraintes structurelles, puis on signale les prompts dont le sens ne survit pas à l'aller-retour.

2026-06-18//6 min

SafeMCP : filtrer l'acquisition d'outils pour contenir la quête de pouvoir des agents MCP

Un papier arXiv du 1er juin 2026 (ACL 2026) propose SafeMCP, un plugin côté serveur qui utilise un raisonnement anticipatif par modèle du monde pour filtrer l'acquisition d'outils dangereux avant qu'un agent MCP n'étende ses pouvoirs.

2026-06-18//6 min

SkillVetBench : un LLM-juge qui voit ce que les scanners de skills ratent

Un papier arXiv du 14 juin 2026 montre que les scanners de skills au niveau code ratent 89 à 100 % des menaces au niveau instruction, là où un LLM-juge détecte les 78 skills malveillantes de test sans aucun faux positif.

2026-06-18//7 min

La triade létale est devenue la norme — défendez les agents à l'exécution

La triade létale signalait jadis les agents à risque. Mi-2026, elle décrit tout agent utile : l'évitement architectural ne suffit plus. La défense se déplace vers cinq signaux comportementaux à l'exécution.

2026-06-18//6 min

Backdoors leurres : supprimer les backdoors LLM inconnues via des mécanismes internes partagés

Un article de juin 2026 supprime des backdoors invisibles en en plantant une visible : différentes backdoors partagent des motifs d'activation internes, donc effacer un « leurre » contrôlé affaiblit aussi l'inconnue.

2026-06-17//6 min

Détecter les attaques dans le trafic d'appels d'outils : le contenu prime

Une étude arXiv de mai 2026 sur la supervision des appels d'outils MCP montre que les embeddings de contenu portent la détection (AUROC > 0,89), que la structure de graphe apporte peu, et que les splits aléatoires gonflent les scores jusqu'à 26 points.

2026-06-17//6 min

RUBAS : un signal de récompense fin pour la sûreté des agents par RL à grilles

Un papier de juin 2026 remplace la récompense binaire refus/exécution par quatre grilles notées — usage d'outil, arguments, réponse, utilité — pour entraîner des agents qui restent sûrs sans perdre en utilité.

2026-06-17//5 min

SkillGuard : un cadre de permissions pour ce qu'une skill d'agent peut faire à l'exécution

Un papier de juin 2026 comble l'écart entre ce qu'une skill injecte dans le contexte d'un agent et ce qu'elle lui fait faire, via des manifestes, un contrôle d'accès deny-by-default et de la surveillance à l'exécution.

2026-06-17//6 min

Les défenses par provenance de la mémoire-graphe des agents sont aveugles par construction

Un article arXiv daté du 10 juin 2026 montre que les contrôles de provenance sur la mémoire-graphe des LLM se contournent sans falsifier aucune source : une écriture de structure non fiable change quels faits authentifiés sont sélectionnés, et le contrôle de flux d'information ne le voit jamais.

La vie privée d'un agent est un problème de trajectoire : OCELOT budgétise la fuite par inférence à l'exécution

Un article arXiv daté du 10 juin 2026 redéfinit la vie privée des agents LLM comme un contrôle du risque a posteriori : non plus filtrer chaque sortie, mais budgétiser de combien la croyance d'un adversaire sur un secret peut progresser sur toute une trajectoire.

Parallax : placer la sécurité des agents dans l'architecture, pas dans le prompt

Un position paper publié le 14 avril 2026 soutient que les garde-fous au niveau du prompt s'effondrent dès que le raisonnement d'un agent est compromis, et propose de séparer structurellement ce qui pense de ce qui agit.

2026-06-16//8 min

Architecturer des agents sûrs : une défense « plan et politique » contre l'injection de prompt

Un position paper de NVIDIA (31 mars 2026) soutient que l'injection de prompt indirecte ne se corrige pas au seul niveau du modèle — et propose une architecture « plan et politique » qui contraint ce qu'un agent peut observer et décider.

Skills d'agent vérifiés : gouvernance des capacités pour la chaîne SKILL.md

Les skills d'agent vérifiés de NVIDIA (19 mai 2026) ajoutent scan de risques, signature cryptographique et fiches de skill lisibles par machine à la chaîne SKILL.md — une réponse défensive aux skills empoisonnés.

Confidential Computing et IA agentique : ce que les enclaves ne protègent pas

Une étude de mai 2026 projette le confidential computing sur la pile agentique : les enclaves matérielles protègent la mémoire et le cache KV d'un opérateur cloud malveillant, mais n'arrêtent pas la prompt injection.

Pourquoi les jailbreaks se transfèrent entre modèles — et comment le « salage » riposte

Une étude sur 20 modèles open-weight montre que le transfert des jailbreaks vient des représentations internes partagées, pas d'un défaut de l'alignement. Une défense appelée LLM salting fait pivoter la direction de refus pour casser la réutilisation.

L'injection de prompt n'est pas résolue — contenez-la à la vitesse machine

À l'Infosecurity Europe 2026, Ariel Fogel (OWASP) a qualifié l'injection de prompt de problème architectural non résolu et plaidé pour un passage de la prévention au confinement à l'exécution, aussi rapide que l'agent.

Pourquoi les détecteurs d'injection de prompt échouent : le problème d'évasion en 2026

Des classifieurs par mots-clés aux sondes de dérive d'activation, les détecteurs d'injection de prompt partagent une faiblesse : l'adversaire adaptatif. Deux études rapportent jusqu'à ~100 % d'évasion. La détection est une couche, jamais la frontière.

2026-06-15//7 min

SafeHarbor : un garde-fou à mémoire hiérarchique qui s'attaque au sur-refus des agents

Accepté à ICML 2026, SafeHarbor est un garde-fou sans réentraînement qui injecte des règles de sécurité contextuelles depuis un arbre de risques auto-évolutif — 63,6 % d'utilité bénigne sur GPT-4o tout en refusant plus de 93 % des attaques.

SecureClaw : une défense à double frontière pour les agents LLM outillés

Un article de juin 2026 propose de garder deux frontières distinctes à la fois — autoriser les actions externes au point d'effet et confiner le texte en clair à la frontière de lecture — avec 0 % de réussite d'attaque sur un benchmark d'agents.

2026-06-14//6 min

PI-Hunter : auditer les agents pour exposer et localiser les injections de prompt cachées

Un article de juin 2026 signé par des chercheurs de Google transforme le red-teaming d'injection de prompt en audit — PI-Hunter fait évoluer des cas de test ancrés dans la source pour révéler où une injection latente entre et se propage dans un agent, pas seulement si l'attaque réussit.

2026-06-13//6 min

AgentDyn : pourquoi les défenses anti-injection brillantes sur benchmark échouent en conditions réelles

AgentDyn, un benchmark ICML de février 2026, teste dix défenses anti-injection de premier plan sur des tâches d'agent dynamiques et ouvertes. Presque toutes sont soit non sûres, soit surdéfensives au point d'être inutilisables.

2026-06-12//7 min

Le trilemme de la défense : pourquoi les wrappers anti-injection ne peuvent être complets

Une preuve vérifiée en Lean 4 (avril 2026) montre qu'aucun wrapper d'entrée continu et préservant l'utilité ne peut bloquer toute injection de prompt. Continuité, utilité et complétude ne peuvent coexister.

2026-06-12//7 min

Dans GitHub Agentic Workflows : une architecture de sécurité pour les agents CI/CD

GitHub Agentic Workflows est passé en préversion publique le 11 juin 2026 avec une conception « sécurité d'abord » : agents sans secret dans une prison chroot, pare-feu de workflow, écritures mises en attente puis vérifiées, et un job de détection de menaces. La réponse défensive à l'injection de prompt en CI/CD.

2026-06-12//8 min

Le Recuse Signal : un robots.txt pour les agents qui détiennent de vrais identifiants

Un article de juin 2026 propose un signal de « refus » in-band — émis via une bannière SSH ou un NOTICE PostgreSQL — qui demande poliment à un agent autonome de se retirer. En pilote, il a induit 100 % de recusal, mais un cadrage d'autorisation a fait repartir le modèle le plus capable.

2026-06-12//6 min

Injection par flux d'outils : pourquoi les défenses d'agents statiques cassent, et ce que corrige le verify-before-commit

Un papier de janvier 2026, VIGIL, recentre l'injection indirecte sur le flux d'outils — descriptions falsifiées et faux messages d'erreur — et montre que mieux un agent est aligné, plus il leur obéit.

2026-06-12//7 min

TRUSTDESC : dériver les descriptions d'outils depuis le code pour désamorcer le tool poisoning

Un papier d'avril 2026 s'attaque au tool poisoning à la racine : générer la description d'un outil à partir de son implémentation plutôt que de faire confiance au texte fourni par l'auteur, neutralisant le poisoning implicite que les détecteurs ratent.

2026-06-12//6 min

CASA : un contrôle d'accès par tâche qui confronte chaque appel d'outil à l'intention réelle de l'utilisateur

Un papier arXiv du 4 mai 2026 propose Continuous Agent Semantic Authorization — une couche zero-trust qui extrait la tâche de l'utilisateur d'une conversation multi-tours et refuse les appels d'outils qui n'y correspondent pas.

2026-06-11//6 min

La supervision a une capacité : quand plus d'approbations rend l'agent moins sûr

Un papier arXiv du 8 juin 2026 modélise le relecteur humain derrière la porte d'approbation d'un agent comme une ressource finie qui fatigue — et montre qu'escalader plus d'actions peut réduire la sécurité réelle et ouvrir une attaque par saturation.

2026-06-11//8 min

ADR : détection et réponse pour agents MCP, éprouvé à l'échelle d'Uber

Un papier de mai 2026 signé Uber décrit un système type EDR pour agents MCP : télémétrie causale complète, détection à deux étages et red teaming hors ligne, déployé sur plus de 7 200 hôtes pendant dix mois.

2026-06-08//7 min

La sécurité des agents est un problème de système : traiter le modèle comme non fiable

Un position paper de mai 2026 (Google, UCSD, UW–Madison) soutient que la sécurité des agents doit sortir du modèle pour passer dans le système : traiter le LLM comme un composant non fiable et imposer les invariants autour de lui.

2026-06-08//8 min

AgentTrust : filtrer les appels d'outils d'un agent avant leur exécution

Un préprint du 6 mai 2026 présente AgentTrust, une couche d'exécution qui inspecte chaque appel d'outil avant qu'il ne s'exécute et renvoie autoriser / avertir / bloquer / revoir — y compris sur les charges shell obfusquées.

2026-06-08//6 min

Détecter l'extraction de modèle en observant la fenêtre de trafic, pas les requêtes isolées

Un papier de juin 2026 montre qu'un simple test de distribution (MMD sur les embeddings de requêtes, calibré uniquement sur le trafic légitime) détecte les campagnes d'extraction noyées dans un trafic d'API mixte — 0,3 % de faux positifs, 100 % sur le trafic purement attaquant.

2026-06-08//6 min

ePCA : remplacer les garde-fous sémantiques d'agents par de la vérification formelle

Un article de mai 2026 propose ePCA, un garde-fou qui compile chaque action d'agent en logique du premier ordre et exécute une vérification SMT avant exécution, bloquant les étapes dangereuses sous forme de blocages logiques.

2026-06-08//7 min

Taxonomie v2.0 des modes de défaillance agentiques de Microsoft : le contournement zéro-clic du humain dans la boucle

La taxonomie v2.0 de l'AI Red Team de Microsoft (4 juin 2026) ajoute sept modes de défaillance agentiques et désigne le contournement du humain dans la boucle comme le plus exploité — y compris des chaînes zéro-clic partant d'une seule entrée externe.

2026-06-07//8 min

AgentVisor : un patron type hyperviseur OS qui audite chaque appel d'outil

Un article arXiv du 27 avril 2026 emprunte l'idée de l'hyperviseur OS pour défendre les agents LLM outillés : un « visor » de confiance audite chaque appel d'outil et est architecturalement aveugle au contenu non fiable.

2026-06-07//8 min

Need to Know : réécriture de requêtes par intégrité contextuelle

Un papier arXiv du 2 juin 2026 reformule la réécriture de requêtes respectueuse de la vie privée comme un problème d'intégrité contextuelle : ne transmettre une donnée au LLM cloud que si la tâche en a besoin, pas parce qu'un type de PII a été reconnu.

Deux pièges méthodologiques qui gonflent les scores des détecteurs d'injection de prompt

Un préprint arXiv du 1ᵉʳ juin 2026 montre que la plupart des benchmarks de détecteurs d'injection de prompt et de jailbreak reposent sur un réglage de seuil par jeu de données et des points de fonctionnement non divulgués — deux habitudes qui gonflent discrètement la précision annoncée.

Membrane : une mémoire de sécurité contrastive qui adapte les garde-fous sans réentraînement

Un papier arXiv du 4 juin 2026 propose Membrane, un garde-fou auto-évolutif qui associe chaque attaque bloquée à une requête bénigne quasi identique, ramenant le sur-refus à 7-14 % tout en dominant le F1 sur six jailbreaks.

Lockdown Mode d'OpenAI : couper la voie d'exfiltration du prompt injection

Le 6 juin 2026, OpenAI a étendu Lockdown Mode aux comptes ChatGPT personnels et Business en libre-service : un réglage déterministe qui désactive les canaux sortants utilisés pour exfiltrer des données via prompt injection.

THRD : une défense temporelle sans réentraînement contre les jailbreaks multi-tours

Un papier de juin 2026 soutient qu'un jailbreak multi-tours doit être jugé sur l'ensemble de la conversation, pas tour par tour. THRD agrège le risque dans le temps et ramène le taux de succès des attaques à 0,2–4 %, sans réentraînement.

2026-06-07//7 min

L'agent qui écrit ses propres logs : pourquoi les journaux d'audit auto-déclarés ne sont pas fiables

Si un agent compromis produit lui-même son journal d'activité, il peut omettre, altérer ou fabriquer ce qu'il a fait. Trois travaux de juin 2026 — Notarized Agents (arXiv), un draft IETF sur l'audit trail des agents, et SCITT — convergent vers la même solution : déplacer la frontière de confiance hors de l'agent.

2026-06-05//6 min

Quand les défenses par embedding échouent dans les systèmes multi-agents LLM

Un papier arXiv du 1er mai 2026 montre que les détecteurs qui écartent un agent malveillant via l'embedding de ses messages s'effondrent face à un texte rendu quasi-bénin — et propose les signaux de confiance par token comme remplacement plus robuste.

2026-06-05//6 min

Détecter l'exfiltration d'identifiants par les agents LLM avant le token de sortie

Publié le 2 juin 2026, un papier arXiv détecte les fuites d'identifiants d'un agent avant tout token de sortie — en combinant sondes d'activation, honeytokens calibrés et comptabilité de fuite multi-tour.

2026-06-04//7 min

AgentShield : démasquer les agents compromis avec des honeytokens et des outils-leurres

Un papier de mai 2026 applique l'ingénierie de la déception aux agents LLM outillés : faux outils, fausses identifiants et listes blanches de paramètres sur lesquels un agent détourné trébuche. Détection annoncée de 90,7 à 100 % des attaques réussies, sans fausse alerte.

2026-06-04//6 min

La recherche hybride BM25 + vecteurs fait tomber l'empoisonnement RAG de 38 % à 0 %

Un préprint arXiv du 10 mars 2026 montre qu'ajouter du BM25 épars à la recherche dense bloque toute une classe d'empoisonnement de corpus RAG optimisé par gradient — sans toucher au LLM.

2026-06-04//7 min

OWASP Agent Memory Guard : une couche d'exécution contre l'empoisonnement mémoire des agents

Relayé par Help Net Security le 1er juin 2026, Agent Memory Guard est la première implémentation de référence OWASP pour ASI06 : une couche prête à l'emploi qui filtre chaque lecture et écriture mémoire d'un agent selon une politique YAML.

2026-06-04//7 min

PISmith : le red teaming par RL adaptatif casse encore les défenses anti-injection

Un papier de mars 2026 entraîne un modèle attaquant par apprentissage par renforcement pour éprouver les défenses anti-injection en boîte noire — et 8 défenses de pointe tombent, y compris sur AgentDojo et InjecAgent.

2026-06-04//6 min

Agent Threat Rules : un « Sigma pour agents IA » — et ce que ses chiffres de rappel avouent

ATR propose des règles de détection YAML ouvertes pour les attaques d'agents, déjà en production chez Microsoft, Cisco et Gen Digital. Ses propres benchmarks montrent pourquoi la détection par regex est une couche, pas un périmètre.

2026-06-03//6 min

DataShield : quand un fine-tuning anodin érode la sûreté d'un modèle

Un papier arXiv du 29 mai 2026 montre qu'affiner un LLM aligné sur des données inoffensives dégrade quand même sa sûreté, et propose DataShield pour repérer les échantillons en cause avant l'entraînement.

2026-06-03//6 min

SnapGuard : détecter l'injection dans ce que l'agent voit, pas dans ce qu'il parse

Un papier d'avril 2026 propose un détecteur léger pour les agents web fondés sur captures d'écran, là où les garde-fous textuels sont aveugles. Il lit les pixels rendus — stabilité des gradients et texte à polarité inversée — en 1,81 s par page.

2026-06-03//6 min

Séparateurs dynamiques : durcir le Polymorphic Prompt Assembling contre l'injection

Un papier arXiv du 28 mai 2026 corrige une faille de « rayon d'impact » du Polymorphic Prompt Assembling en générant un séparateur SHA-256 unique par requête, faisant chuter le taux de succès d'un payload de 0,88 à 0,38.

2026-06-02//6 min

Cessez d'évaluer les défenses anti-jailbreak au seul taux de réussite

Un papier IEEE S&P de mai 2026 soutient que le taux de réussite d'attaque — la métrique par défaut du domaine — masque le comportement réel des défenses anti-jailbreak. Son Security Cube les évalue sur plusieurs axes à la fois.

2026-06-02//6 min

Attribution causale : une défense émergente contre l'injection indirecte

Un ensemble de papers début 2026 — CausalArmor et AttriGuard — défend les agents à outils en demandant quelles actions sont causalement provoquées par du contenu non fiable plutôt que par l'utilisateur. Tour d'horizon de la défense par attribution causale.

2026-06-01//7 min

Le triangle des compromis : défendre un tuteur LLM contre l'injection de prompt

Un benchmark de mai 2026 sur les défenses anti-injection pour tuteurs pédagogiques LLM chiffre une vérité gênante : aucun garde-fou ne gagne à la fois sur la robustesse, l'usabilité et la latence.

2026-06-01//7 min

Les jailbreaks laissent une trace : les détecter dans les activations internes des LLM

Un article de février 2026 et son prolongement de mars 2026 montrent qu'un prompt de jailbreak grave une signature distinctive dans les activations cachées du modèle — permettant une détection à l'inférence, sans fine-tuning ni modèle juge auxiliaire.

2026-06-01//6 min

MCP a besoin d'une poignée de main de confiance : l'admission attestée des serveurs d'outils

Un papier arXiv du 22 mai 2026 propose mcp-attested — une extension rétrocompatible de MCP qui conditionne tout dispatch d'outil à une attestation signée, à une allowlist deny-by-default et à un journal d'audit infalsifiable.

2026-05-29//7 min

Un million de services IA exposés : ce que le scan Intruder a réellement trouvé

Le 5 mai 2026, Intruder publiait les résultats d'un scan internet ayant cartographié un million de services IA exposés sur deux millions d'hôtes. Le défaut récurrent n'est pas exotique : ce sont les configurations par défaut permissives.

2026-05-29//8 min

WARD : un modèle de garde co-évolué qui tient face aux injections de prompt adaptatives sur agents web

Un papier de la NUS daté du 14 mai 2026 propose WARD — un modèle de garde entraîné contre un attaquant adversarial à mémoire — et rapporte un rappel quasi parfait hors-distribution sur l'injection de prompt en agent web.

2026-05-29//8 min

Project Glasswing : 10 000+ bugs critiques trouvés par Claude Mythos en un mois

Le bilan publié par Anthropic le 26 mai 2026 indique que près de 50 partenaires de Project Glasswing ont utilisé Claude Mythos Preview pour identifier plus de 10 000 vulnérabilités de sévérité élevée ou critique, dont 271 bugs latents corrigés dans Firefox 150.

2026-05-26//8 min

Agents Rule of Two : la réponse pragmatique de Meta au prompt injection

Publiée le 31 octobre 2025 par Meta et reprise dans le guide Databricks de mai 2026, l'Agents Rule of Two limite une session d'agent à deux des trois propriétés à risque — le cadre le plus actionnable tant que le prompt injection reste sans solution.

2026-05-25//7 min

ARGUS : une défense par graphe de provenance contre l'injection de prompt contextuelle

Publié le 5 mai 2026, l'article ARGUS introduit un audit par graphe d'influence pour les agents LLM — le taux de réussite des attaques chute de 28,8 % à 3,8 % sur un nouveau benchmark.

2026-05-22//8 min

Hiérarchie des instructions : entraîner les LLM à prioriser les ordres privilégiés

Le papier OpenAI de 2024 propose une défense structurelle contre l'injection de prompt : apprendre au modèle que système > utilisateur > sortie d'outil. L'idée est désormais centrale dans l'entraînement de GPT-4o-mini et de la série o.

2026-05-22//8 min