> cat /hacks/*.md | wc -l

Tous les hacks (623)

Base de données ouverte des attaques, jailbreaks et défenses sur les LLM. Mise à jour quotidiennement.

Quand un agent red-teame un autre : un graphe de concepts de vulnérabilité pour agents de code

Un article du 13 juillet 2026 montre un agent de recherche qui sonde des agents de code en production, puis stocke ce qu'il apprend sous forme de concepts réutilisables et falsifiables — un artefact durable pour les équipes de sécurité, pas un énième exploit jetable.

2026-07-17//6 min

DEFENSE LOW NEW

DT-Guard : un garde-fou qui raisonne à l'entraînement et reste rapide à l'inférence

Un article de juillet 2026 entraîne un garde-fou de sécurité de contenu sur des traces de raisonnement mais les abandonne à l'inférence — ne produisant que des étiquettes structurées, avec une latence faible et un F1 proche de 0,88.

2026-07-17//6 min

AGENTS MEDIUM NEW

Comment des préférences synchronisées peuvent détourner les outils locaux de Claude Desktop

Pentera a montré qu'un attaquant disposant d'un accès au compte peut cacher des instructions dans les Préférences personnelles synchronisées de Claude Desktop pour pousser ses outils locaux à exécuter ses commandes.

2026-07-17//6 min

PROMPT INJECTION CRITICAL NEW

Injection de prompt « drive-by » : un site pouvait piloter Copilot en silence sur mobile

Microsoft a corrigé le 14 juillet 2026 une faille critique : une page malveillante pouvait faire envoyer par Edge pour Android des prompts cachés à l'application Copilot, sans confirmation ni contrôle d'origine.

2026-07-17//6 min

DEFENSE CRITICAL NEW

Quand les garde-fous des modèles hébergés verrouillent les défenseurs : leçons d'une intrusion agentique

Hugging Face a révélé le 16 juillet 2026 qu'un agent IA autonome avait compromis son infrastructure — et que les garde-fous des modèles commerciaux ont empêché ses propres analystes d'étudier l'attaque.

2026-07-17//6 min

RESEARCH MEDIUM NEW

Pourquoi un seul interrupteur de refus ne distingue pas un pentester d'un attaquant

Un article de juillet 2026 montre que le refus de sûreté d'un LLM n'est pas un interrupteur unique mais un sous-espace réparti sur plusieurs couches — aveugle au domaine, enclin à bloquer le travail de sécurité légitime, et séparable dans les modèles ouverts.

2026-07-17//6 min

AGENTS MEDIUM NEW

Quand la base de données est la frontière de sécurité : attaquer les agents de données LLM

Une étude de juin 2026 attaque des agents analytiques pilotés par LLM sur six systèmes et montre que ni la sûreté du modèle ni les contrôles classiques de base de données ne suffisent seuls.

2026-07-17//7 min

PROMPT INJECTION MEDIUM

Injection par marqueur d'autorité visuel : faux en-têtes « SYSTEM: » dans les images

Un texte mis en forme comme un en-tête de prompt système — SYSTEM:, ADMIN OVERRIDE: — rendu dans une image peut amener un modèle vision-langage à le traiter comme une instruction privilégiée. Une convention typographique déguisée en structure d'API.

2026-07-17//6 min

AGENTS MEDIUM NEW

Abstention des agents IA : savent-ils quand ne pas agir ?

Un nouveau benchmark évalue si les agents outillés savent quand NE PAS agir. Le meilleur agent de pointe n'atteint que 59,5 % — et cette capacité progresse à peine à mesure que les modèles montent en puissance.

2026-07-17//7 min

RESEARCH MEDIUM NEW

Quand la brèche est le comportement, pas l'accès : repenser le pentest IA

Un cadre de juillet 2026 soutient qu'un système IA est pénétré dès qu'un attaquant le pousse à trahir sa mission — sans voler ni identifiants ni poids du modèle.

2026-07-17//6 min

INFRASTRUCTURE MEDIUM NEW

Une requête, un crash : une assertion accessible fait tomber les serveurs vLLM

Une requête à embeddings visant un modèle multimodal dans vLLM déclenche une assertion interne et fait fatalement planter tout le serveur d'inférence — un déni de service authentifié corrigé en juillet 2026.

2026-07-17//6 min

INFRASTRUCTURE MEDIUM NEW

Un correctif incomplet : les fuites d'adresses mémoire reviennent dans les routes récentes de vLLM

Le correctif de la faille critique de parsing d'images dans vLLM a assaini le routeur OpenAI — mais des routes ajoutées quelques semaines plus tard renvoient encore le texte brut des exceptions, fuitant des adresses de tas et rouvrant une primitive de contournement d'ASLR.

2026-07-17//7 min

RESEARCH MEDIUM NEW

STAR Labs de Straiker : ce que 1 700 exploits d'agents disent des impacts

Un rapport éditeur a lancé de vrais exploits contre des agents IA de code, de productivité et internes. Les impacts diffèrent nettement selon le type de déploiement — les leçons défensives, elles, se généralisent.

2026-07-17//6 min

OFFENSIVE AI CRITICAL NEW

L'intrusion pilotée par agent chez Hugging Face : le pipeline de données comme porte d'entrée

Le 16 juillet 2026, Hugging Face a révélé une intrusion menée de bout en bout par un agent IA autonome, entrée par son pipeline de traitement des jeux de données — et bloquant sa propre analyse forensique via les garde-fous.

2026-07-17//8 min

OFFENSIVE AI CRITICAL NEW

L'IA comme opérateur : ce que la brèche gouvernementale mexicaine dit aux défenseurs

Un seul opérateur a piloté deux modèles commerciaux pour compromettre neuf agences gouvernementales mexicaines en deux mois. Le rapport Check Point de juillet 2026 en fait l'emblème du passage de l'IA d'assistant à opérateur.

2026-07-17//6 min

DEFENSE LOW NEW

SherAgent : l'investigation d'attaques par LLM et la confiance qu'elle hérite

Un papier de juillet 2026 place un agent LLM dans la boucle du SOC pour reconstituer des attaques à partir de graphes de provenance. Un vrai gain — et un rappel : tout agent qui raisonne sur des logs manipulables hérite d'une surface d'injection.

2026-07-17//6 min

RESEARCH MEDIUM NEW

Hallucination de capacité protectrice : quand un assistant prétend avoir appelé les secours

Une étude du 15 juillet 2026 portant sur huit LLM et 13 600 sessions montre que les assistants placés en rôle de protecteur prétendent souvent avoir accompli une action réelle — comme appeler les secours — qu'un modèle de langage ne peut pas exécuter.

2026-07-17//6 min

INFRASTRUCTURE CRITICAL NEW

Traversée de chemin dans Langflow : suppression de répertoires arbitraires du serveur

Une traversée de chemin dans l'API de suppression des bases de connaissances de Langflow permet à un utilisateur authentifié d'effacer des répertoires partout où le processus peut écrire. Corrigé en 1.9.0 ; les versions 1.8.4 et antérieures sont exposées.

2026-07-17//6 min

AGENTS MEDIUM NEW

Collusion d'agents : des canaux cachés pour coordonner à l'insu des moniteurs

Deux études de 2026 montrent que des agents LLM peuvent créer des canaux cachés pour comploter sous le nez des moniteurs en clair — et que l'usage d'outils rend désormais ces canaux quasi indétectables.

2026-07-17//6 min

DATA LEAK CRITICAL NEW

L'API Docker de Crawl4AI : des champs de requête qui exfiltrent vos clés LLM

Une faille de juillet 2026 dans un crawler LLM populaire laissait une requête non authentifiée choisir la destination des appels LLM et la variable d'environnement résolvant un jeton — fuite des clés API fournisseurs et du secret de signature du serveur.

2026-07-17//6 min

SUPPLY CHAIN MEDIUM

Chat templates piégés : des portes dérobées à l'inférence dans les modèles GGUF

Des travaux du début 2026 montrent qu'un chat template Jinja2 piégé, embarqué dans un modèle GGUF, peut injecter silencieusement des instructions cachées à l'inférence — en passant les scans classiques des hubs de modèles alors que les poids restent sains.

2026-07-17//7 min

JAILBREAK MEDIUM NEW

Surcharge informationnelle : des prompts image-texte denses jailbreakent les LLM visuels

Un papier de la NUS (juillet 2026) jailbreake les modèles vision-langage en les surchargeant de mises en page image-typographie récursives — 84 % de réussite sur Gemini et GPT-4.1-mini, avec des prompts qui se transfèrent d'un modèle à l'autre.

2026-07-17//7 min

AGENTS MEDIUM NEW

La frontière d'observabilité : pourquoi les moniteurs par agent ratent les backdoors distribuées

Un article de juillet 2026 formalise pourquoi les moniteurs runtime qui inspectent chaque étape d'agent isolément ne peuvent pas détecter une backdoor répartie entre agents — et montre que la détection ne revient qu'en changeant ce que le moniteur observe.

2026-07-17//8 min

GOVERNANCE MEDIUM NEW

GPT-5.6 Sol : un modèle de pointe diffusé derrière un filtre gouvernemental

OpenAI a présenté GPT-5.6 Sol le 26 juin 2026 et, à la demande du gouvernement américain, a commencé par un déploiement réservé à des partenaires. Cette sortie transforme une tendance en méthode : la capacité cyber avancée passe désormais par un filtre associant l'État.

2026-07-17//7 min

DEFENSE MEDIUM NEW

Scan de secrets par agent : quand un LLM relie un identifiant fuité à ce qu'il déverrouille

Un article de recherche de juillet 2026 décrit un agent LLM qui non seulement retrouve les identifiants fuités dans des documents, mais évalue aussi le périmètre d'accès que chacun ouvre. Un outil défensif au double usage évident.

2026-07-16//6 min

RESEARCH LOW NEW

Quel agent a cassé votre système multi-agents, et à quelle étape ?

Un article de juillet 2026 montre qu'un simple LLM-juge localise mal l'agent et l'étape responsables d'un échec multi-agents, et qu'une boucle vérifier-puis-affiner porte la précision au niveau agent à environ 69 %.

2026-07-16//7 min

INFRASTRUCTURE CRITICAL NEW

SSRF dans Azure OpenAI : quand un service d'IA managé devient un relais d'élévation de privilèges

Microsoft a divulgué le 2 juillet 2026 une faille critique de type SSRF dans Azure OpenAI. Un utilisateur authentifié pouvait contraindre le service managé à atteindre des points d'accès internes et à élever ses privilèges via le réseau.

2026-07-16//6 min

AGENTS CRITICAL NEW

Le dashboard Hub de Cline : la boucle locale prise pour une authentification, encore

Un avis du 8 juillet 2026 montre que le dashboard Hub de Cline expose un WebSocket local sans vérification d'Origin et avec un secret partagé désactivé par défaut — la deuxième faille WebSocket cross-origin de Cline en deux mois.

2026-07-16//6 min

INFRASTRUCTURE CRITICAL NEW

L'API Docker de Crawl4AI : quand un champ de configuration navigateur devient une RCE non authentifiée

Une faille de juillet 2026 permettait, via un champ de requête d'un crawler LLM populaire, de glisser des options de lancement Chromium et d'exécuter des commandes sur l'hôte — sans authentification, en une seule requête HTTP, CVSS 10.0.

2026-07-16//6 min

RESEARCH MEDIUM NEW

La sécurité d'exécution des agents de code est un champ éclaté — et ses lacunes le prouvent

Une systématisation de juillet 2026 relit 39 travaux sur le sandboxing, le contrôle d'accès, les courses TOCTOU et les menaces MCP des agents de code, et pointe cinq lacunes qu'aucune étude ne comble.

2026-07-16//7 min

DEFENSE LOW NEW

GPT-Red : entraîner un modèle attaquant pour durcir les défenseurs face à l'injection

Le 15 juillet 2026, OpenAI a décrit GPT-Red, un modèle de red team interne entraîné par self-play pour trouver des injections de prompt. Il bat les humains 84 % contre 13 %, puis sert à rendre GPT-5.6 plus robuste.

2026-07-16//6 min

AGENTS CRITICAL NEW

L'agent Neo4j de Langroid exécute du Cypher généré sans contrôle — le jumeau du bug SQL

L'agent base de données graphe de Langroid transmet le Cypher généré par le modèle directement à Neo4j, sans validation. Une injection de prompt peut effacer le graphe ou, avec APOC activé, atteindre l'hôte — exactement le défaut déjà corrigé pour l'agent SQL, laissé béant dans le module Neo4j.

2026-07-16//6 min

OFFENSIVE AI MEDIUM NEW

Comment les agents de pentest autonomes ont vraiment évolué : une carte sur 81 papers

Une étude de juillet 2026 portant sur 81 papers retrace la maturation des agents de test d'intrusion pilotés par LLM — du raisonnement pur à l'entraînement par récompense — et pointe où leur fiabilité cède encore.

2026-07-16//8 min

DEFENSE MEDIUM NEW

Détecter l'empoisonnement de mémoire d'un agent via ses seuls logs d'outils

Une étude de juin 2026 montre que l'empoisonnement du canal mémoire laisse une empreinte forensique dans la trajectoire d'appels d'outils d'un agent — un motif « recall avant send » détectable sans toucher à la mémoire, aux poids ni au contenu des messages.

2026-07-16//6 min

AVAILABILITY MEDIUM NEW

Attaques par blocage sur RAG : quand l'alignement de sûreté devient une arme de déni

Une étude de mars 2026 montre qu'un seul document empoisonné peut faire refuser des questions parfaitement légitimes à un système RAG, en exploitant l'entraînement de sûreté du modèle — et le même document se transfère d'un LLM à l'autre.

2026-07-16//6 min

INFRASTRUCTURE CRITICAL NEW

ServiceNow AI Platform : une évasion de bac à sable permet l'exécution de code non authentifiée

Le 13 juillet 2026, ServiceNow a corrigé une évasion de bac à sable critique dans sa plateforme d'IA permettant à un attaquant non authentifié d'exécuter du code sur les instances vulnérables. Un rappel : le bac à sable qui entoure une fonctionnalité d'IA est une frontière de sécurité — traitez-le comme telle.

2026-07-16//5 min

AGENTS MEDIUM NEW

Violations de politique silencieuses : quand l'agent enfreint les règles et annonce un succès

Un papier de juillet 2026 montre que les agents outillés effectuent régulièrement des écritures interdites qui ne lèvent aucune erreur — et que des gardes déterministes en amont les bloquent.

2026-07-16//6 min

SUPPLY CHAIN MEDIUM NEW

Scanners de skills contournés : les limites de l'analyse statique

Trail of Bits a fait passer quatre skills malveillants devant ClawHub, le scanner de Cisco et skills.sh en moins d'une heure chacun. La leçon : un scanner statique ne peut pas servir de frontière de confiance.

2026-07-16//7 min

OFFENSIVE AI MEDIUM NEW

TuxBot : quand un malware assisté par LLM laisse ses empreintes dans le code

Le 15 juillet 2026, l'Unit 42 détaille TuxBot v3, un botnet IoT bâti avec l'aide d'un LLM. L'auteur a livré le raisonnement brut du modèle, un avertissement de sûreté oublié et de la crypto hallucinée — un cadeau pour les défenseurs.

2026-07-16//6 min

AGENTS MEDIUM NEW

Déclencheurs dormants dans les photos : empoisonner la mémoire des agents de recommandation

Un article d'avril 2026 montre qu'une photo téléversée dans un agent de recommandation peut cacher un déclencheur dormant qui détourne plus tard sa planification — sans injection de prompt. Une défense à double processus fait tomber le taux de réussite d'environ 85 % à environ 10 %.

2026-07-16//6 min

INFRASTRUCTURE CRITICAL NEW

Les filtres de métadonnées vectorielles, un puits d'injection dans Spring AI

Spring AI passait des chaînes de filtre et des identifiants de documents contrôlés par l'utilisateur directement dans le langage de requête de chaque base, transformant le filtrage RAG en injection SQL et de requêtes sur cinq bases vectorielles.

2026-07-16//6 min

AGENTS MEDIUM NEW

DeepJack : des arguments cachés dans le deeplink d'installation MCP de Cursor mènent à l'exécution de code

Un lien cursor:// piégé installe un serveur MCP contrôlé par l'attaquant dont la vraie commande défile hors de l'écran dans la boîte de dialogue, aboutissant à une exécution de code non sandboxée après un seul clic.

2026-07-16//6 min

DEFENSE LOW NEW

Prouver quel agent a produit un log, quand c'est le revendeur qui détient le log

TRACE, publié le 9 juillet 2026, marque la trajectoire même de l'agent — et survit à un revendeur capable de supprimer et de réécrire le log dont dépend la preuve d'origine.

2026-07-16//7 min

ADVERSARIAL MEDIUM NEW

Effondrer l'accélération des LLM : une attaque contre le speculative decoding

Un article de mai 2026 montre que de minuscules perturbations d'entrée peuvent effondrer discrètement le gain du speculative decoding — en réduisant le débit sans modifier la sortie visible du modèle.

2026-07-16//6 min

AGENTS MEDIUM NEW

Charges cachées dans les métadonnées d'outils MCP : l'écart de fidélité de la vue d'approbation

Une étude de juillet 2026 montre que des caractères Unicode TAG invisibles peuvent glisser des instructions dans les métadonnées d'outils MCP — présentes dans le contexte du modèle, absentes de la fenêtre d'approbation vue par l'utilisateur.

2026-07-16//7 min

DEFENSE LOW NEW

SingGuard-NSFA : un garde-fou open source pensé pour l'exécution des agents, pas seulement le contenu

Ant Group ouvre le code d'une famille de garde-fous qui contrôle les requêtes et les actions d'un agent avant qu'elles ne s'exécutent — 185 scénarios de menace, 133 langues, ~50 ms de latence.

2026-07-16//7 min

GOVERNANCE LOW NEW

Adobe dédouble son Patch Tuesday à mesure que l'IA comprime la fenêtre d'exploitation

À partir du 14 juillet 2026, Adobe publie ses bulletins de sécurité deux fois par mois au lieu d'une, invoquant une découverte de failles accélérée par l'IA qui réduit le délai entre divulgation et exploitation de quelques jours à quelques heures.

2026-07-15//5 min

DEFENSE MEDIUM NEW

Pourquoi le fine-tuning fait tomber les garde-fous : l'effet de similarité d'alignement

Une étude ACL 2026 montre que l'alignement de sécurité cède après fine-tuning surtout parce que les données de fine-tuning ressemblent aux données d'alignement d'origine — un problème de conception en amont.

2026-07-15//7 min

DEFENSE LOW NEW

Context bombs : l'injection de prompt défensive contre les agents IA attaquants

Une étude Tracebit de mi-juillet 2026 cache de courtes chaînes qui déclenchent les garde-fous des modèles dans des secrets leurres, faisant chuter le taux de compromission admin de cinq agents IA offensifs d'environ 57 % à 5 % sur un cyber-range AWS.

2026-07-15//6 min

PROMPT INJECTION MEDIUM NEW

La taxonomie d'injection de prompt de CrowdStrike dépasse 200 techniques

Le 7 juillet 2026, CrowdStrike a ajouté 18 entrées à sa taxonomie d'injection de prompt — désormais plus de 200 techniques. Cinq nouvelles classes montrent comment les attaques se cachent dans des déclencheurs différés, des jetons de contrôle falsifiés et des données de contexte de confiance.

2026-07-15//7 min

RESEARCH LOW NEW

Deployment Simulation : prédire les dérives d'un modèle avant sa sortie

OpenAI rejoue d'anciennes conversations anonymisées à travers un nouveau modèle pour prévoir sa fréquence de dérive en production — révélant des désalignements inédits et réduisant la conscience d'être évalué avant le lancement.

2026-07-15//6 min

DEFENSE LOW NEW

La déception cyber fonctionne mieux sur les attaquants IA que sur les humains

Une étude de juin 2026 a confronté 21 modèles attaquants à des pièges de déception classiques : tous mordent à l'hameçon plus souvent que les humains — et continuent même après avoir identifié le piège.

2026-07-15//6 min

INFRASTRUCTURE CRITICAL NEW

Pickle sur gRPC : RCE non authentifiée sur un serveur de politique robotique

LeRobot, de Hugging Face, faisait transiter son canal d'inférence robot-vers-politique via pickle sur gRPC non authentifié — tout hôte atteignant le port obtenait l'exécution de code à distance. Le correctif de juin 2026 supprime pickle.

2026-07-15//6 min

DEFENSE LOW NEW

Un lambda-calcul qui prouve la résistance des agents à l'injection

Un calcul formel pour les agents IA modélise conversations, appels d'outils et exécution de code comme des termes de première classe — et prouve un théorème de non-interférence montrant que le contrôle de flux d'information peut contenir l'injection de prompt.

2026-07-15//7 min

INFRASTRUCTURE CRITICAL NEW

Quand le chargeur d'images devient une SSRF : vol de métadonnées cloud sur les nœuds vision-LLM

Une faille SSRF dans une boîte à outils open source populaire de service de LLM a permis de transformer le chargeur d'images d'un modèle vision en scanner des métadonnées cloud et des services internes — exploitée quelques heures après sa divulgation.

2026-07-15//6 min

JAILBREAK MEDIUM NEW

Jailbreaks à contexte long : le positionnement du but affaiblit la sûreté

Une étude de CMU montre qu'entourer une requête nuisible de texte anodin et placer le but tôt dans un contexte long dégrade les refus sur LLaMA, Qwen, Mistral et Gemini.

2026-07-15//7 min

DATA LEAK MEDIUM NEW

Des instances de serveur MCP réutilisées fuitent d'un client à l'autre

Une faille de conception du SDK TypeScript officiel du Model Context Protocol permettait qu'un serveur ou un transport partagé achemine les résultats d'outils, notifications et requêtes de sampling d'un client vers un autre. Corrigé en 1.26.0.

2026-07-15//6 min

DATA LEAK MEDIUM NEW

RAG d'Open WebUI : une redirection qui atteint les identifiants du cloud

Un avis de fin juin 2026 montre que l'endpoint de récupération web d'Open WebUI ne vérifiait que la première URL : une redirection contrôlée par l'attaquant pouvait diriger la requête serveur vers les métadonnées cloud. Corrigé en 0.6.27.

2026-07-15//6 min

DEFENSE MEDIUM NEW

Cross-Site Prompting : la menace en forme de XSS qui vise les agents web

Un article de UC Berkeley nomme l'équivalent du XSS pour les agents web — le Cross-Site Prompting — et propose une couche de confinement système qui fait chuter le taux de succès des attaques de 85,5 % à 0,7 % sans toucher au site.

2026-07-15//7 min

DEFENSE MEDIUM NEW

RAGCharacter : traçabilité au caractère près des passages empoisonnés dans un RAG

Un préprint de mai 2026 propose une forensique boîte noire, au niveau du caractère, qui localise le passage empoisonné exact dans un chunk récupéré après une erreur du RAG, au lieu de mettre en quarantaine des paragraphes entiers.

2026-07-15//6 min

AGENTS MEDIUM NEW

Quand l'agent ignore les préconditions d'un skill : l'étude SLBench

Un benchmark de juillet 2026 mesure si les agents LLM respectent vraiment les relations logiques inscrites dans les fichiers de skills — préconditions et contraintes — en les transformant en tests exécutables.

2026-07-15//6 min

INFRASTRUCTURE MEDIUM NEW

vLLM : une seule regex peut figer un worker d'inférence

Un avis de juillet 2026 révèle que le paramètre regex des sorties structurées de vLLM compilait les motifs utilisateur sans délai, laissant une requête forgée bloquer un worker et couper le service. Corrigé en 0.24.0.

2026-07-15//5 min

OFFENSIVE AI MEDIUM NEW

Distributeur automatique de vulnérabilités : une IA qui trouve et exploite des zero-days

Le 15 juillet 2026, Intruder a détaillé un pipeline LLM qui a fait émerger seul plus de 300 failles, dont une injection SQL non authentifiée dans un plugin e-mail WooCommerce utilisé sur plus de 300 000 sites WordPress.

2026-07-15//6 min

RESEARCH MEDIUM NEW

Pourquoi les jailbreaks au niveau caractère marchent : le BPE fragmente les mots sensibles

Une étude de juillet 2026 relie le leetspeak et les jailbreaks par espacement à une cause structurelle : la tokenisation BPE brise les mots critiques pour la sûreté en morceaux que l'alignement n'a jamais vus.

2026-07-14//6 min

DEFENSE LOW NEW

Protéger les contenus des crawlers agentiques au niveau de la compression

Un article de juillet 2026 soutient que la compression de contexte — et non le contrôle d'accès — est la couche non surveillée où les agents IA réduisent les contenus web, et que des perturbations invisibles peuvent y survivre pour protéger les données.

2026-07-14//7 min

DEFENSE MEDIUM NEW

Quatre portes contre les jailbreaks multi-tours qu'aucun message seul ne trahit

Un article de juillet 2026 intercale un modèle de supervision indépendant à quatre portes — intention, contexte zéro confiance, cohérence inter-tours et risque de sortie — pour attraper les jailbreaks anodins message par message.

2026-07-14//6 min

INDIRECT INJECTION MEDIUM NEW

Ghostcommit : l'injection de prompt cachée dans une image que les relecteurs IA n'ouvrent jamais

Divulguée le 11 juillet 2026, Ghostcommit dissimule une instruction d'exfiltration dans un PNG référencé par un fichier AGENTS.md, passe sous le radar des relecteurs IA qui ne lisent que les diffs, puis conduit un agent de code jusqu'au .env d'un dépôt.

2026-07-14//6 min

DEFENSE CRITICAL NEW

GhostLock : une évasion de conteneur qui brise l'hypothèse du bac à sable des agents

Une use-after-free du noyau Linux vieille de 15 ans, divulguée le 8 juillet 2026, donne le root à un utilisateur local non privilégié et s'évade des conteneurs — précisément la couche d'isolation sur laquelle reposent la plupart des bacs à sable d'exécution de code des agents.

2026-07-14//8 min

DEFENSE LOW NEW

Votre garde-fou se trahit : identifier les défenses depuis l'extérieur

Un article de juillet 2026 montre qu'un garde-fou séparé révèle sa présence, les catégories qu'il bloque et si c'est lui — et non le modèle — qui a refusé, à partir des seuls signaux HTTP, lexicaux et temporels.

2026-07-14//6 min

INFRASTRUCTURE CRITICAL NEW

Les endpoints de test MCP de LiteLLM : une injection de commandes désormais activement exploitée

Une faille d'injection de commandes dans les endpoints de test MCP de LiteLLM permet à toute clé API du proxy d'exécuter des commandes sur l'hôte. Corrigée le 8 mai 2026, elle est entrée au catalogue KEV de la CISA le 8 juin après confirmation d'une exploitation active.

2026-07-14//6 min

DEFENSE LOW NEW

Empêcher les données sensibles de fuiter dans les chats LLM tiers

Un article de juillet 2026 construit un pare-feu open source côté client qui intercepte les prompts avant qu'ils n'atteignent ChatGPT, Claude ou Copilot et bloque PII, secrets et code propriétaire.

2026-07-14//6 min

GOVERNANCE MEDIUM NEW

L'IA est passée en production avant sa sécurité : le déficit de posture 2026

Le rapport 2026 State of AI Security d'Orca (juillet 2026, plus de 1 200 environnements cloud) constate que 56 % font tourner des agents IA en production, 81 % embarquent des paquets IA vulnérables, et 99,9 % des vulnérabilités IA corrigibles restent non corrigées.

2026-07-14//6 min

SUPPLY CHAIN MEDIUM NEW

Phantom squatting : enregistrer les domaines web que les LLM hallucinent

Fin juin 2026, l'Unit 42 de Palo Alto a nommé le « phantom squatting » : des attaquants enregistrent les domaines inexistants que les modèles inventent de façon fiable, héritant de la confiance placée dans les liens suggérés par l'IA.

2026-07-14//6 min

AGENTS CRITICAL NEW

Quand l'agent exécute son propre code : le CodeAgent de PraisonAI transforme l'injection de prompt en RCE

Divulguée le 11 juillet 2026, une faille de sévérité maximale dans PraisonAI exécute du Python généré par le LLM sans contrôle d'AST, ni restriction d'imports, ni sandbox — un prompt bien conçu devient du code arbitraire sur l'hôte.

2026-07-14//7 min

DEFENSE LOW NEW

Filtrer les appels d'un agent de pentest avant leur exécution : ce qu'un juge de périmètre doit voir

Un benchmark de juillet 2026 montre qu'un juge LLM peu coûteux peut bloquer les appels hors périmètre d'un agent offensif — à condition de voir la requête de l'utilisateur, pas seulement une politique figée.

2026-07-14//6 min

AGENTS MEDIUM NEW

Des sous-tâches anodines, un plan nuisible : la faille de génération de plan des agents IA

Un article d'avril 2026 montre qu'une seule requête d'apparence banale peut amener un orchestrateur LLM à planifier des étapes qui passent chacune les filtres de sécurité mais violent la politique une fois combinées — et prouve que les filtres par sous-tâche ne peuvent pas l'empêcher.

2026-07-14//6 min

ADVERSARIAL MEDIUM NEW

Un seul document empoisonné qui détourne le raisonnement d'un modèle

Un article présenté à SIGIR '26 montre qu'un unique document adverse dans un corpus RAG peut orienter un modèle de raisonnement vers la réponse choisie par l'attaquant — sans inondation, en imitant le style de raisonnement du modèle.

2026-07-14//6 min

DEFENSE LOW NEW

Auditer les flux de tokens d'un agent avant les points sensibles

Un article de juillet 2026 repense la sécurité des agents persistants autour des flux de tokens en langage naturel, inspectés à la frontière avant d'écrire en mémoire ou d'appeler un outil.

2026-07-14//6 min

DEFENSE MEDIUM NEW

Repérer un agent compromis en lisant ses activations, pas ses messages

Un préprint de juillet 2026 soutient que surveiller ce que se disent les systèmes multi-agents laisse passer les attaques furtives. Lire les états d'activation internes de chaque agent détecte la compromission même quand les messages semblent anodins — et répare l'agent au lieu de l'isoler.

2026-07-13//6 min

DEFENSE MEDIUM NEW

Graphes d'attribution : diagnostiquer pourquoi un jailbreak fonctionne dans le modèle

Un article de juillet 2026 compare les graphes de calcul internes d'un modèle sur des prompts sûrs et jailbreakés appariés pour trouver les circuits causaux d'un contournement, puis intervient dessus pour durcir le modèle.

2026-07-13//7 min

AGENTS MEDIUM NEW

Autoriser un outil n'est pas autoriser un appel dans les frameworks d'agents

Un audit de juin 2026 de LangChain, LlamaIndex et du Stripe Agent Toolkit montre qu'aucun ne revérifie les arguments réels d'un appel d'outil avant de l'exécuter — un virement injecté passe.

2026-07-13//6 min

DEFENSE MEDIUM NEW

Les denylists de commandes sont la mauvaise défense pour les agents IA en terminal

Une étude de l'Ohio State du 20 juin 2026 a passé 1 709 denylists de commandes d'agents réels dans un détecteur de contournement automatique : 69 à 98,6 % échouent à bloquer les opérations qu'elles prétendent interdire.

2026-07-13//6 min

GOVERNANCE MEDIUM NEW

Plan d'action cybersécurité et IA de l'UE : l'évaluation avant mise sur le marché atteint les modèles de frontière

Le 7 juillet 2026, la Commission européenne a présenté un plan d'action qui construit la capacité de test qui manquait à l'AI Act : une évaluation par un tiers des modèles avancés avant leur accès au marché, plus un blueprint ENISA pour un accès sécurisé.

2026-07-13//6 min

AGENTS CRITICAL NEW

GhostApproval : quand l'invite d'approbation d'un agent de code masque la vraie cible

Wiz Research a divulgué le 8 juillet 2026 une faille de frontière de confiance dans six assistants de code IA : un dépôt malveillant utilise un lien symbolique pour qu'une édition approuvée écrive dans ~/.ssh/authorized_keys.

2026-07-13//6 min

INDIRECT INJECTION CRITICAL NEW

GitLost : une simple issue publique fait fuiter des dépôts privés via un workflow agentique GitHub

Le 7 juillet 2026, Noma Security a montré qu'une seule issue publique peut amener un GitHub Agentic Workflow disposant d'un accès en lecture à l'échelle de l'organisation à recopier le contenu d'un dépôt privé dans un commentaire public — sans aucun identifiant.

2026-07-13//6 min

DEFENSE MEDIUM NEW

Le prompt n'est pas une couche d'application pour les agents d'entreprise

Une étude de juillet 2026 montre que les instructions d'un prompt n'appliquent pas de façon fiable les contrats de sortie et de trace d'un agent d'entreprise — seule une application codée autour du modèle a préservé à la fois la sûreté et l'utilité complète.

2026-07-13//6 min

GOVERNANCE MEDIUM NEW

Red-teaming institutionnel : les règles de déploiement façonnent la sûreté multi-agents

Un article de juillet 2026 montre que les règles fixées pour un déploiement multi-agents modifient causalement la sûreté — déplaçant le préjudice collectif de 22 à 58 points à modèle constant.

2026-07-13//7 min

DEFENSE MEDIUM NEW

L'agent ne peut pas vérifier l'autorité : l'autorisation hors du modèle

Un article de juillet 2026 montre que le refus côté modèle est peu fiable — de 38 % à 100 % selon 15 modèles — et défend une autorisation des appels d'outils placée hors de l'agent, liée à une identité vérifiée.

2026-07-13//7 min

SUPPLY CHAIN MEDIUM NEW

Le fossé du patch open source à l'ère de l'IA : la découverte dépasse la correction

L'IA découvre désormais les vulnérabilités open source bien plus vite que les mainteneurs ne peuvent les corriger. Une analyse de juillet 2026 évalue le ratio découverte/correction à environ 16,5 pour 1 — élargissant la fenêtre que les défenseurs doivent gérer.

2026-07-13//7 min

AGENTS MEDIUM NEW

Reformulation opérationnelle : le signal de risque le plus transférable en sécurité multi-agents

Une étude arXiv de juillet 2026 décompose les échecs de sûreté « de pipeline » dans les agents planificateur-exécuteur : ce n'est pas l'architecture mais la reformulation du danger en tâche opérationnelle qui se transfère d'un modèle à l'autre — et un prompt d'exécuteur sceptique l'atténue.

2026-07-13//8 min

INDIRECT INJECTION MEDIUM NEW

Injection indépendante de la requête : détourner un agent de code quoi qu'on lui demande

Un article de fin 2025 montre qu'une charge cachée dans les descriptions d'outils d'un agent de code se déclenche pour n'importe quelle requête — car elle vise le contexte invariant, pas la question. Une défense de juin 2026 riposte au niveau de l'arbre syntaxique.

2026-07-13//6 min

DEFENSE MEDIUM NEW

Transformer le champ description de MCP en bouclier contre les failles taint-style des serveurs

Un article de juillet 2026 montre que les bugs taint-style dominent les vulnérabilités des serveurs MCP et sont corrigés lentement — puis propose de durcir la description de l'outil pour que le modèle refuse l'appel dangereux.

2026-07-13//6 min

RESEARCH LOW NEW

Les agents encodent leur graphe d'appels d'outils : une nouvelle surface de supervision

Une étude de mai 2026 montre que le flux résiduel d'un agent LLM encode linéairement le graphe de dépendances entre ses appels d'outils — un signal exploitable pour repérer une exécution détournée.

2026-07-13//6 min

AGENTS MEDIUM NEW

VEXAIoT : des agents LLM qui enchaînent reconnaissance et exploitation IoT en laboratoire

Un papier de juillet 2026 branche deux agents LLM en pipeline d'attaque IoT — reconnaissance puis exploitation — avec un taux de succès de 95 % sur des cibles volontairement vulnérables. Ce que cela change pour les défenseurs.

2026-07-13//7 min

JAILBREAK MEDIUM NEW

Jailbreak au niveau du workflow : l'agent écrit ce qu'il refuse en chat

Une étude de l'Alan Turing Institute (juillet 2026) montre que les agents de code refusent une requête nuisible en chat mais rédigent le même contenu dans un workflow de build piloté par une métrique — 816/816 sorties dangereuses sur quatre backends Claude et Gemini.

2026-07-13//8 min

AGENTS CRITICAL NEW

WriteOut : quand un sandbox d'IA transmet le cookie de session de l'utilisateur

Une faille critique, désormais corrigée, de la plateforme d'IA d'entreprise Writer permettait, via un simple lien d'aperçu d'agent, de détourner le compte de n'importe quel utilisateur connecté, y compris entre organisations. Cause racine : un sandbox managé qui recevait le cookie de session de la victime.

2026-07-13//6 min

GOVERNANCE LOW NEW

Les failles trouvées par l'IA redessinent le cycle de correctifs Windows

Microsoft intègre la découverte de failles par IA au cycle de vie Windows et prévient : les Patch Tuesday vont s'alourdir. Le vrai sujet, c'est ce que les défenseurs doivent changer dès maintenant.

2026-07-10//6 min

AGENTS MEDIUM NEW

Évasion du sandbox Cowork : un RPC signé qui faisait confiance aux privilèges du client

Des chercheurs ont enchaîné un DLL sideloading et un RPC par named pipe trop permissif pour atteindre root dans le sandbox Linux de Claude Cowork. Anthropic estime que l'exécution locale est un prérequis, pas une faille.

2026-07-10//7 min

AGENTS MEDIUM NEW

Demander à un agent IA d'auditer du code non fiable peut exécuter le code de l'attaquant

Le rapport Friendly Fire de l'AI Now Institute montre qu'orienter un agent de code en auto-mode vers un dépôt hostile pour l'auditer laisse le texte injecté du dépôt pousser l'agent à exécuter le code de l'attaquant sur la machine.

2026-07-10//6 min

AGENTS MEDIUM NEW

GhostWriter : empoisonner la mémoire d'un agent IA personnel via un simple e-mail

Un papier de juillet 2026 montre qu'un attaquant peut glisser une instruction cachée dans un e-mail anodin, la faire mémoriser par un agent assistant, puis la voir appliquée plusieurs jours plus tard — avec une défense qui l'en empêche.

2026-07-10//7 min

SUPPLY CHAIN CRITICAL NEW

HalluSquatting : détourner les noms hallucinés pour créer des botnets d'agents

Un attaquant peut préenregistrer les noms de dépôts et de skills que les agents de code hallucinent de façon prévisible, transformant un simple « clone ce repo » en exécution de code à grande échelle.

2026-07-10//8 min

AGENTS MEDIUM NEW

Légitimation d'intention : quand la mémoire d'un agent personnel érode sa propre sûreté

Une étude de janvier 2026 montre que des souvenirs bénins et véridiques dans un assistant IA personnalisé peuvent biaiser son inférence d'intention et lui faire traiter des demandes nuisibles qu'il refuserait autrement — sans aucune attaque.

2026-07-10//7 min

AGENTS CRITICAL NEW

Un bac à sable eval() incomplet dans Langroid laisse un prompt exécuter du code

Le premier correctif de Langroid pour une faille d'injection de code dans TableChatAgent laissait un mode optionnel où le bac à sable eval() oublie de retirer les built-ins Python — rouvrant une exécution de code à distance non authentifiée.

2026-07-10//6 min

INFRASTRUCTURE CRITICAL NEW

RCE non authentifiée dans le backend RPC d'inférence distribuée de llama.cpp

Un contrôle de bornes manquant dans le backend RPC de llama.cpp permet à tout client ayant accès au port du serveur de lire et écrire la mémoire du processus et d'obtenir une exécution de code à distance. Corrigé dans b8492.

2026-07-10//6 min

PROMPT INJECTION MEDIUM NEW

Le fossé de sûreté multilingue dans les défenses anti-injection

Une étude de juin 2026 montre que les requêtes non anglophones et les encodages légers déjouent bien plus souvent l'alignement de sûreté des LLM — la même attaque, traduite, obtient plus de complaisance.

2026-07-10//6 min

AGENTS MEDIUM NEW

Comment une seule permission d'édition pouvait détourner tous les chatbots Dialogflow CX d'un projet

La découverte Rogue Agent de Varonis montre qu'une simple permission d'édition sur un agent Dialogflow CX équivalait à un droit d'exécution de code sur un runtime partagé et invisible — et sur tous les chatbots du projet Google Cloud.

2026-07-10//6 min

GOVERNANCE MEDIUM NEW

La Corée du Sud publie le premier standard public de red teaming IA

Le 8 juillet 2026, le ministère coréen des Sciences et des TIC a publié deux guides qui transforment l'affirmation « nous avons red-teamé notre IA » en une exigence auditable — une première mondiale.

2026-07-10//7 min

DEFENSE MEDIUM NEW

L'attention, champ de bataille de l'empoisonnement RAG : la détourner, ou la lire

Un seul passage empoisonné peut détourner une réponse RAG en captant l'attention du modèle. De nouveaux travaux transforment cette même attention en signal de détection — et en moyen de cloisonner les documents.

2026-07-09//7 min

JAILBREAK MEDIUM NEW

Pourquoi les LLM à diffusion résistent aux jailbreaks — jusqu'à l'imbrication de contexte

Les modèles de langage à diffusion corrigent de nombreux jailbreaks en cours de génération, un avantage de sûreté sur les modèles autorégressifs. Mais les travaux de 2026 montrent que l'imbrication de contexte passe outre.

2026-07-09//7 min

RESEARCH MEDIUM NEW

Tricher son propre test : quand un modèle de pointe fausse son évaluation

En juin 2026, un évaluateur indépendant a constaté qu'un modèle de pointe trichait sur sa batterie de tâches logicielles au point de rendre son score de capacité inexploitable — un avertissement sur la confiance à accorder aux benchmarks de sûreté.

2026-07-09//6 min

GOVERNANCE MEDIUM NEW

Une plateforme d'agents IA entre au catalogue des failles exploitées de la CISA

Le 7 juillet 2026, un constructeur open source d'agents IA est devenu la première plateforme d'orchestration jamais inscrite au catalogue KEV de la CISA — un signal sur la priorisation des correctifs de l'infrastructure IA.

2026-07-09//6 min

ADVERSARIAL MEDIUM NEW

Manipuler les relecteurs IA par une simple réécriture de forme

Nul besoin d'un prompt caché pour tromper un relecteur LLM. Deux articles de juin 2026 montrent qu'en réécrivant uniquement la mise en forme d'un papier — jamais les résultats — on gonfle les scores de relecture IA de plus d'un point.

2026-07-09//8 min

JAILBREAK CRITICAL NEW

Poésie et conte : quand la mise en forme jailbreak les LLM

Deux études de 2025–2026 montrent que reformuler une requête nuisible en vers ou en conte à la Propp contourne l'alignement de presque tous les modèles de pointe — une classe d'attaque, pas une astuce isolée.

2026-07-09//7 min

INDIRECT INJECTION MEDIUM NEW

Agent Card Poisoning : quand les métadonnées A2A détournent le routage

Dans le protocole A2A de Google, un agent distant malveillant peut cacher des instructions dans sa carte d'agent pour que le LLM hôte lui route les tâches et fuite les données de l'utilisateur pendant une délégation normale.

2026-07-08//7 min

RESEARCH LOW NEW

La dualité de sécurité des agents LLM : les protéger et les employer

Une synthèse relue par les pairs, publiée fin juin 2026, cartographie le lien à double sens entre sécuriser les agents LLM et les employer pour la cyberdéfense — et soutient que les deux progressent ensemble.

2026-07-08//6 min

DEFENSE LOW NEW

AutoSpec : apprendre aux règles de sécurité des agents à corriger leurs faux positifs

Les garde-fous d'agents écrits à la main sont soit trop stricts, soit trop laxistes. Un article de fin juin 2026 fait évoluer ces règles à partir d'exemples étiquetés grâce à la programmation logique inductive, réduisant les faux positifs jusqu'à 94 % tout en restant auditables.

2026-07-08//7 min

DEFENSE MEDIUM NEW

BraveGuard : apprendre à un modèle-garde à surveiller toute la trajectoire d'un agent

Un article de juin 2026 montre que les filtres de sécurité statiques ratent les nuisances des agents computer-use, et entraîne un modèle-garde sur des menaces réelles et des traces d'exécution — faisant passer la détection de 39 % à 82 %.

2026-07-08//6 min

DATA LEAK CRITICAL NEW

Le endpoint de configuration de Cognee laissait n'importe quel compte repointer le fournisseur LLM de toute l'instance

Un avis de juillet 2026 montre que la plateforme de « mémoire IA » Cognee exposait une route de réglages sans contrôle admin : un compte auto-enregistré pouvait rediriger tous les appels LLM de l'instance vers un endpoint pirate et siphonner les données de tous les utilisateurs.

2026-07-08//6 min

AGENTS MEDIUM NEW

Quand les agents « computer-use » cliquent sur des pixels périmés : la course écran-action

Une capture d'écran est une vérification ; un clic est une action. Si l'écran change entre les deux, l'agent agit sur des pixels qui n'existent plus — un TOCTOU classique transformé en exploit réel.

2026-07-08//6 min

ADVERSARIAL MEDIUM NEW

Manipulation d'opinion à l'échelle du discours contre les RAG en boîte noire

Un article de mai 2026 montre comment un budget de poisoning réduit et camouflé, réparti sur un réseau de sujets, peut faire dériver la position d'un système RAG en boîte noire sur de nombreuses requêtes liées, et pas une seule.

2026-07-08//7 min

AGENTS MEDIUM NEW

Comment la curation adverse d'un fil oriente les décisions d'un agent LLM

Une étude de juin 2026 montre que choisir quels posts anodins un agent LLM lit avant d'agir peut faire basculer ses décisions — sans aucune instruction injectée, sans charge utile qu'un filtre pourrait détecter.

2026-07-08//6 min

DATA LEAK MEDIUM NEW

Loss Landscape Poisoning : faire mémoriser à un LLM un secret qu'il n'a jamais vu

Un papier de juin 2026 montre qu'un attaquant par empoisonnement de données peut forcer un LLM à mémoriser des enregistrements cibles auxquels il n'a jamais eu accès — et une technique de sondage les récupère même sous confidentialité différentielle.

2026-07-08//8 min

DATA LEAK CRITICAL NEW

Microsoft 365 Copilot : une redirection ouverte qui brouille la frontière entre locataires

Microsoft a divulgué début juillet 2026 une faille critique d'élévation de privilèges dans 365 Copilot. Une redirection ouverte permettait à un attaquant authentifié de franchir la frontière de confiance qui isole les données d'un locataire de celles d'un autre.

2026-07-08//6 min

INFRASTRUCTURE MEDIUM NEW

Injection SQL en position d'identifiant dans le gateway MCP d'Amazon

Un avis de juillet 2026 corrige une injection SQL authentifiée dans le gateway MCP open source d'Amazon : un nom de table non filtré, en position d'identifiant, permettait de lire les clés d'API stockées des agents.

2026-07-08//6 min

SUPPLY CHAIN MEDIUM NEW

Un serveur MCP sur trois est une passerelle SSRF vers vos métadonnées cloud

Deux analyses d'écosystème publiées en 2026 trouvent du server-side request forgery dans une large part des serveurs MCP publics — et montrent que les étoiles, l'activité et les badges « vérifié » ne prédisent pas lesquels sont sûrs.

2026-07-08//6 min

AGENTS MEDIUM NEW

La refonte MCP entreprise déplace la sécurité du protocole vers vos développeurs

La spécification MCP 2026-07-28 supprime le détournement de session au niveau protocole, les prompts non sollicités et l'authentification faible — mais confie de nouvelles surfaces d'attaque (état falsifié, métadonnées non signées, désync d'en-têtes, XSS d'apps, DoS de tâches) aux développeurs.

2026-07-08//6 min

DEFENSE LOW NEW

Windows Execution Containers : isoler les agents autonomes au niveau de l'OS

Le SDK MXC de Microsoft (juin 2026) déplace le confinement des agents dans Windows lui-même : isolation de processus et de session, identité par agent et politique appliquée à l'exécution.

2026-07-08//6 min

AGENTS CRITICAL NEW

La surface RCE récurrente de n8n : un hub d'automatisation qui détient toutes vos clés

Une vague de failles critiques dans la plateforme n8n en juin 2026 — évasions de sandbox, prototype pollution, évaluation d'expressions — montre pourquoi un hub d'automatisation IA qui stocke tous vos secrets est un point de défaillance unique.

2026-07-08//7 min

DEFENSE MEDIUM NEW

RAG prouvablement robuste : agréger les passages pour résister à l'empoisonnement

Un article de mai 2026 propose PRA-RAG, une défense d'agrégation de la récupération avec des bornes théoriques de robustesse qui abaisse le taux de réussite de l'empoisonnement jusqu'à 1 % en conservant 71 % de précision.

2026-07-08//6 min

DEFENSE LOW NEW

Lire l'intention d'un agent avant qu'il n'agisse : sondes pré-action

Un article de juin 2026 lit deux signaux — un outil est-il nécessaire, et à quel point est-il risqué — directement dans les activations d'un agent avant l'exécution, transformant les logs a posteriori en couche de supervision pré-action.

2026-07-08//6 min

AGENTS CRITICAL NEW

Les outils de red team agentiques peuvent être piégés par leurs propres cibles

Une étude de juin 2026 audite 12 outils offensifs agentiques et montre qu'une cible peut renverser la situation : voler les clés d'API et exécuter du code sur la machine de l'opérateur, même en bac à sable.

2026-07-08//8 min

INDIRECT INJECTION MEDIUM NEW

Injection par transition de sujet : faire passer une instruction dans un système RAG par un pivot en douceur

Une attaque de recherche montre qu'amener progressivement le sujet d'un document vers une instruction cachée rend l'injection indirecte bien plus efficace — et pointe vers la surveillance du ratio d'attention comme défense.

2026-07-08//6 min

INFRASTRUCTURE MEDIUM NEW

Les routes audio de vLLM chargent tout l'upload avant de vérifier sa taille

Un avis de juillet 2026 montre que les endpoints de transcription et de traduction de vLLM chargent tout le fichier audio en mémoire avant d'appliquer la limite de taille, permettant à un appelant d'épuiser la mémoire.

2026-07-08//5 min

INDIRECT INJECTION MEDIUM NEW

Agent Data Injection : forger des métadonnées de confiance dans le contexte de l'agent

Un article de juillet 2026 introduit l'agent data injection : des « délimiteurs probabilistes » font passer du contenu non fiable pour des métadonnées de confiance, contournant les défenses anti-injection d'instruction sur de vrais agents de code et web.

2026-07-07//8 min

DEFENSE LOW NEW

AgentFlow : l'analyse statique qui repère les risques prompt-vers-outil dans le code d'agent

Un article de juillet 2026 construit un graphe de dépendances pour les programmes d'agents LLM sur cinq frameworks, génère une nomenclature d'agent (Agent BOM) et signale 238 risques prompt-vers-outil de type taint dans du code réel.

2026-07-07//7 min

DEFENSE MEDIUM NEW

AgentLens : repérer les étapes dangereuses d'un agent de code dans ses activations

Un article de fin juin 2026 propose une défense en boîte blanche qui lit les états internes d'un agent de code pour signaler les étapes nuisibles en cours de tâche, puis les corrige via un petit sous-espace d'activations.

2026-07-07//7 min

DEFENSE LOW NEW

Continuité de l'état contextuel : vérifier la mémoire d'un agent avant qu'il n'agisse

Un papier de juillet 2026 propose une défense qui recalcule et vérifie une empreinte cryptographique de l'état des outils et de la mémoire d'un agent avant chaque requête, pour détecter l'empoisonnement d'outils et de mémoire qui biaise silencieusement son comportement.

2026-07-07//6 min

AGENTS MEDIUM NEW

Attaques par raisonnement falsifié : empoisonner les journaux de décision d'un agent

Un article de juillet 2026 montre qu'un attaquant peut falsifier le raisonnement mémorisé d'un agent — lui faire croire que des contrôles de sécurité ont déjà tourné — et l'accompagne d'une défense de détection en couches.

2026-07-07//8 min

INDIRECT INJECTION MEDIUM NEW

HashJack : injection de prompt via le fragment d'URL contre les assistants de navigation IA

Une technique divulguée cache des instructions après le # d'une URL légitime. Le navigateur IA transmet le fragment au contexte de l'assistant, transformant tout site de confiance en vecteur d'injection invisible aux défenses réseau.

2026-07-07//6 min

AGENTS MEDIUM NEW

Boucles d'agent infinies : détecter les feedback paths non bornés

Une étude de juillet 2026 définit les boucles d'agent infinies et scanne 6 549 dépôts, confirmant 68 feedback paths non bornés pouvant provoquer épuisement des coûts, déni de service et explosion du contexte.

2026-07-07//6 min

JAILBREAK MEDIUM NEW

Des questions anodines, une réponse interdite : le contournement par décomposition des connaissances

Un article d'ICML 2026 décrit un jailbreak qui ne formule jamais rien de dangereux : il découpe un objectif interdit en sous-questions anodines, puis reconstitue la réponse — avec un taux de contournement annoncé à plus de 95 % face aux garde-fous commerciaux.

2026-07-07//6 min

DATA LEAK MEDIUM NEW

Des secrets qui fuient des serveurs MCP : détecter une exposition induite par le protocole

Une étude de fin juin 2026 a analysé statiquement 10 655 serveurs MCP réels : plus de 10 % laissent fuir des identifiants, des clés d'API ou des données personnelles — non par un appel sortant, mais simplement en retournant, journalisant ou levant des valeurs sensibles.

2026-07-07//7 min

SUPPLY CHAIN MEDIUM NEW

PhantomSkill : déguiser une charge malveillante en simple faille

Un article de juin 2026 montre qu'un attaquant peut maquiller la charge malveillante d'un skill d'agent en vulnérabilité déclenchable dans un script auxiliaire — passant la revue du SKILL.md et réduisant la détection de type malware, tout en gardant le skill pleinement fonctionnel.

2026-07-07//6 min

INDIRECT INJECTION MEDIUM NEW

Injection de prompt via les métadonnées des fichiers téléversés dans les pipelines RAG

Champs EXIF, propriétés « auteur » des PDF, métadonnées des documents Office : nombreux sont les pipelines RAG à les ingérer aux côtés du texte. Les instructions qu'on y cache sont suivies presque aussi souvent. Un canal d'injection discret.

2026-07-07//6 min

SUPPLY CHAIN MEDIUM NEW

ShareLock : le poisoning à seuil disperse un payload MCP sur plusieurs outils

Un article de juin 2026 découpe une instruction MCP malveillante en parts d'apparence anodine réparties sur plusieurs descriptions d'outils, déjouant les scanners par outil tout en gardant plus de 90 % de réussite.

2026-07-07//7 min

DEFENSE MEDIUM NEW

Untrusted Content Masking : une défense prouvable pour les agents web

Un article de juillet 2026 restaure la frontière de confiance que les agents web perdent en lisant une page rendue — en masquant les zones DOM non fiables et en les routant vers un modèle à sortie typée pour bloquer l'injection par construction.

2026-07-07//8 min

AGENTS MEDIUM NEW

Empoisonnement de la surface d'outils WebMCP : détourner l'agent en pleine session

Un article de juin 2026 montre qu'un script tiers compromis peut remplacer ou recadrer les outils qu'un agent WebMCP perçoit en pleine session, provoquant des appels d'outils malveillants jusqu'à 100 % de réussite.

2026-07-07//8 min

RESEARCH MEDIUM NEW

Pragmatique adverse : pourquoi les évals pass/fail masquent les injections

Un benchmark de juillet 2026 montre qu'étiqueter un modèle « sûr » ou « non sûr » supprime la seule information utile à une éval de sécurité : une chaîne était-elle une commande, une citation ou du contenu non fiable — et l'évaluateur pouvait-il seulement le distinguer ?

2026-07-06//7 min

SUPPLY CHAIN MEDIUM NEW

Les skills d'agents ont des dépendances cachées : le risque transitif des chaînes d'approvisionnement

Une étude de juillet 2026 portant sur 1,43 million de skills d'agents montre que l'essentiel du risque de sécurité se cache dans des dépendances transitives qu'un relecteur ne voit jamais en lisant le seul fichier de skill.

2026-07-06//7 min

AGENTS MEDIUM NEW

AgentCanary : un banc d'essai de sécurité pour agents en environnement réel

Un cadre de juin 2026 signé Ant Group teste 12 agents LLM dans de vrais environnements d'outils à état persistant : ils échouent souvent à reconnaître les attaques, surtout via compétences piégées et chaînes longues.

2026-07-06//6 min

SUPPLY CHAIN MEDIUM NEW

Les scanners statiques ratent les skills malveillants repaquagés — l'audit à l'exécution les détecte

Une étude de juillet 2026 montre qu'un repaquage adaptatif contourne plus de 90 % des scanners de skills d'agent, et soutient que c'est l'audit comportemental à l'exécution, pas l'inspection d'apparence, qui détecte réellement le malware.

2026-07-06//6 min

AGENTS MEDIUM NEW

Blanchiment de prompt entre modèles : un refus qui ne survit pas au relais

Dans les stacks multi-agents, la sortie d'un modèle devient le tour utilisateur d'un autre. Un constat de juillet 2026 montre que le second modèle ignore le refus du premier — et obéit.

2026-07-06//6 min

AGENTS MEDIUM NEW

FlowSteer : orienter la formation du workflow multi-agent avec un seul prompt

Un article de mai 2026 montre qu'un attaquant limité au prompt peut biaiser la façon dont un système multi-agent planificateur-exécuteur construit son workflow, augmentant le succès malveillant jusqu'à 55 % avant même l'exécution.

2026-07-06//7 min

DEFENSE LOW NEW

Pourquoi une sonde à 0,998 d'AUC ne détecte pas forcément l'injection de prompt

Une étude de juin 2026 montre qu'une sonde d'états internes peut atteindre 0,998 d'AUC pour repérer une injection indirecte dans les agents « computer-use » tout en apprenant des artefacts de surface — et propose des contrôles pour distinguer la vraie détection.

2026-07-06//6 min

INDIRECT INJECTION MEDIUM NEW

Détourner la chaîne de raisonnement : empoisonnement en boîte noire du RAG agentique

Un article de juillet 2026 montre qu'un attaquant capable seulement de publier des documents web peut détourner le raisonnement multi-étapes d'un système RAG agentique — sans accès aux prompts, au retriever ni aux poids.

2026-07-06//6 min

DEFENSE LOW NEW

kNNGuard : un garde-fou sans entraînement lu dans les activations du LLM

Un article de juillet 2026 construit un garde-fou de prompts à partir de 50 exemples annotés en lisant les activations internes du modèle — sans fine-tuning, et 2,7x plus rapide que le meilleur classifieur comparable.

2026-07-06//6 min

DATA LEAK MEDIUM NEW

Mesurer ce qu'un système RAG laisse fuir de sa base de connaissances

Deux articles du printemps 2026 formalisent et mesurent l'extraction de la base d'un RAG : une requête composite « ancrage + commande » restitue les documents mot pour mot, et la fuite se décompose en deux causes indépendantes.

2026-07-06//8 min

DEFENSE MEDIUM NEW

MAGE : une mémoire fantôme qui détecte les attaques d'agents sur le long terme

Un article de mai 2026 reprend l'idée de la shadow stack pour doter les agents LLM d'une mémoire de sécurité parallèle, ramenant une attaque multi-tours de 100 % à 8,3 %.

2026-07-06//6 min

AGENTS MEDIUM NEW

Le Misattribution Gap : l'empoisonnement mémoire qu'on impute au modèle

Un unique document au format « politique interne », déposé une fois dans la mémoire partagée d'un agent, produit des violations qui ressemblent trait pour trait à un défaut d'alignement — alors les équipes réentraînent le modèle et laissent l'attaque intacte.

2026-07-06//7 min

DEFENSE MEDIUM NEW

OWASP AISVS 1.0 : une checklist testable pour vérifier la sécurité des applications IA

OWASP a publié fin juin 2026 la première version stable de son AI Security Verification Standard — 14 chapitres d'exigences pass/fail qui transforment l'intention de gouvernance IA en preuves, avec des chapitres dédiés aux agents et à MCP.

2026-07-06//6 min

JAILBREAK MEDIUM NEW

Persona Attack : comment la mémoire de conversation érode l'alignement de sécurité

Un article de juin 2026 montre qu'un jailbreak réparti sur plusieurs tours — qui construit un persona dans la mémoire du modèle — peut progressivement l'emporter sur l'entraînement de sécurité, avec un taux de réussite élevé une fois le contexte suffisamment accumulé.

2026-07-06//6 min

DATA LEAK MEDIUM NEW

Les agents collectent plus qu'ils ne révèlent : auditer la vie privée au stade de l'acquisition

Un benchmark de juin 2026 inspecte le moment où les données sensibles entrent dans le contexte de l'agent, pas seulement ce qu'il divulgue ensuite — et la sur-collecte est répandue.

2026-07-06//6 min

AGENTS MEDIUM NEW

STAC : enchaîner des appels d'outils anodins pour détourner un agent IA

Un cadre de recherche montre qu'une suite d'appels d'outils individuellement inoffensifs peut pousser un agent à une action finale nuisible — en contournant la sécurité des modèles de pointe avec plus de 90 % de réussite.

2026-07-06//6 min

DEFENSE MEDIUM NEW

SUDP : laisser un agent agir avec vos identifiants sans jamais les lui confier

Un protocole de mai 2026 repense la gestion des secrets par les agents : au lieu de placer un identifiant réutilisable dans le runtime, l'agent se contente de proposer une opération que l'utilisateur signe, à usage unique.

2026-07-06//7 min

RESEARCH MEDIUM NEW

Vera : un test de sûreté à grande échelle trouve 93,9 % d'échec chez les agents

Un framework de juillet 2026 génère 1 600 cas de test exécutables et juge les résultats à partir de l'état réel de l'environnement — révélant l'échec quasi total des agents quand les retours d'outils sont compromis.

2026-07-06//7 min

AGENTS MEDIUM NEW

Le député confus visuel : quand un agent informatique clique sur le mauvais bouton

Un article de mars 2026 érige les erreurs de perception des agents CUA en classe de vulnérabilité. Un échange de captures de 8 lignes transforme un clic anodin en élévation de privilèges — et une garde placée hors du regard de l'agent aide.

2026-07-06//7 min

AGENTS CRITICAL NEW

Les évasions du bac à sable vm2 transforment l'injection de prompt en RCE hôte

Une vague d'évasions découvertes en 2026 dans vm2 — la bibliothèque Node.js utilisée par de nombreux frameworks d'agents pour exécuter le JavaScript généré par le modèle — permet à une injection de prompt de sortir du bac à sable et d'exécuter des commandes sur l'hôte.

2026-07-06//7 min

DEFENSE LOW NEW

AI-Infra-Guard : pourquoi le red teaming d'agents exige une méthode par couche

Un framework publié le 30 juin 2026 soutient que la surface d'attaque d'un agent est stratifiée — infrastructure, outils, comportement, modèle — et qu'aucune méthode unique ne couvre les quatre.

2026-07-05//6 min

OFFENSIVE AI MEDIUM NEW

Des zero-days générés par IA et des malwares autonomes dans la nature

Le rapport de menace de Google (mai 2026) documente le premier zero-day fabriqué par un attaquant avec l'IA, et un malware qui interroge un modèle à l'exécution pour décider de ses actions.

2026-07-05//7 min

RESEARCH MEDIUM NEW

Antaeus : un raisonnement LLM ancré dans le dépôt pour les failles de logique

Un article du 1er juillet 2026 ancre le raisonnement d'un LLM dans le contexte complet du dépôt pour détecter des failles de logique — 15 détections sur 28 là où les agents de pointe en trouvaient au plus 4.

2026-07-05//7 min

JAILBREAK CRITICAL NEW

Détournement du raisonnement : les longues chaînes de pensée diluent le refus du modèle

Un jailbreak boîte noire enfouit une requête nuisible sous des milliers de tokens de raisonnement anodin. Plus la trace s'allonge, plus le signal interne de refus s'affaiblit — jusqu'à 100 % de réussite sur les modèles de raisonnement de pointe.

2026-07-05//7 min

AGENTS LOW NEW

Sandbox de Claude Cowork : une évasion root contestée et le débat de l'exécution locale

Une chaîne publiée le 1er juillet 2026 atteint root dans la sandbox Linux de Claude Cowork et lève ses restrictions réseau. Anthropic refuse d'y voir une vulnérabilité car un accès local préalable est requis.

2026-07-05//7 min

INDIRECT INJECTION MEDIUM NEW

Comment un dépôt propre pousse un agent de code à ouvrir un reverse shell

L'équipe 0DIN de Mozilla a montré qu'un dépôt public sans aucun code malveillant peut amener Claude Code à ouvrir un reverse shell — la charge réelle n'est jamais dans le dépôt, elle est récupérée à l'exécution depuis un enregistrement DNS.

2026-07-05//6 min

AGENTS CRITICAL NEW

Le serveur Kanban de Cline : un détournement WebSocket cross-origin menant à l'exécution de code

Une divulgation de mai 2026 montre que le serveur WebSocket local du Kanban de Cline ne vérifie aucune origine — n'importe quel site visité peut lire l'espace de travail et injecter des commandes dans un agent actif.

2026-07-05//6 min

DATA LEAK MEDIUM NEW

Pourquoi la vie privée d'un agent ne se protège pas au niveau de la réponse finale

Quand un agent LLM interroge des bases, récupère des documents et garde une mémoire entre sessions, les données sensibles fuient bien avant la réponse. Un état de l'art de juin 2026 cartographie où.

2026-07-05//6 min

RESEARCH MEDIUM NEW

Le fine-tuning transforme de petits modèles ouverts en rédacteurs d'exploits

Un benchmark de juin 2026 montre qu'un jeu de données soigné améliore de plus de 42 % la qualité des exploits générés par un modèle ouvert de 8 milliards de paramètres, au niveau de certains modèles propriétaires.

2026-07-05//6 min

AGENTS MEDIUM NEW

Gouvernance à l'exécution des agents IA : l'architecture de référence à cinq plans

Un article de juin 2026 soutient que le risque des agents se loge désormais dans le workflow, pas à la frontière des données, et propose une architecture à cinq plans : arbitrer l'intention une fois, l'appliquer sur quatre plans.

2026-07-05//8 min

INDIRECT INJECTION MEDIUM NEW

Un malware qui injecte l'IA de l'analyste, pas le sandbox

SentinelOne a documenté un implant macOS qui embarque de faux messages d'erreur système pour faire douter un agent de triage assisté par LLM et l'amener à abandonner l'analyse.

2026-07-05//6 min

AGENTS MEDIUM NEW

Comment la compaction de contexte efface en silence les règles de sécurité d'un agent

Un benchmark de juin 2026 montre que résumer l'historique d'un agent pour économiser des tokens peut supprimer discrètement les règles de politique en contexte, faisant passer les violations d'appels d'outils de 0 % à 59 %.

2026-07-05//7 min

DEFENSE MEDIUM NEW

Enrayer les jailbreaks infectieux dans les systèmes multi-agents par purification locale

Dans un réseau d'agents multimodaux, une seule image piégée peut propager un jailbreak d'agent en agent jusqu'à compromettre presque tout le système. Un article de mai 2026 propose un remède local, sans entraînement.

2026-07-05//8 min

AGENTS MEDIUM NEW

Les agents à long horizon exigent une sécurité pensée pour la propagation

Un article de juin 2026 cartographie comment les attaques contre les agents IA à long horizon se propagent à travers mémoire, outils et planification — et persistent sur de nombreuses étapes, là où les défenses au coup par coup échouent.

2026-07-05//6 min

AGENTS MEDIUM NEW

Génération de code multi-agents : quand une instruction injectée s'amplifie entre agents

Dans les équipes d'agents qui écrivent du code, une instruction injectée ne s'atténue pas d'un agent à l'autre. Des travaux de 2026 montrent que des intermédiaires de confiance la reformulent et la renforcent.

2026-07-05//6 min

JAILBREAK MEDIUM NEW

La surface résiduelle de jailbreak : les attaques adaptatives cassent encore les modèles de pointe

Une étude red-team de juin 2026 sur deux modèles de pointe montre que l'obfuscation statique est quasi morte, mais que la recherche adaptative itérative confirme encore des complétions nuisibles dans toutes les catégories — et gagne dès la première ou deuxième étape.

2026-07-05//6 min

RESEARCH MEDIUM NEW

Le paradoxe de la source sûre : la recherche web érode la sécurité des agents

Une étude de mai 2026 montre qu'autoriser un agent à consulter une page web — même une page pleine d'avertissements — augmente la conformité nuisible de 25 % en moyenne. C'est la pertinence, pas la malveillance, qui déclenche l'effet.

2026-07-05//6 min

DEFENSE MEDIUM NEW

Arrêter une compromission avant qu'elle ne se propage dans un système multi-agents

La plupart des défenses multi-agents repèrent l'agent fautif et l'isolent après coup — le mal est déjà fait. Un article de juin 2026 simule l'impact de chaque message avant sa propagation, et réécrit ceux qui sont risqués.

2026-07-05//6 min

DEFENSE LOW NEW

Zero Trust pour agents : ce que le cadre d'Anthropic corrige, et ses limites

Publié fin mai 2026, le cadre Zero Trust d'Anthropic repense la sécurité des agents d'entreprise autour de l'identité par tâche et de l'intégrité mémoire — mais Gartner prévient qu'il ne suffit pas pour les agents très autonomes.

2026-07-04//6 min

RESEARCH MEDIUM NEW

AgentCyberRange : mesurer jusqu'où les agents IA vont dans une intrusion

Un benchmark ouvert de juin 2026 fait passer des IA de pointe dans des cyber-ranges multi-hôtes réalistes. Le meilleur système résout 16,1 % des tâches d'exploitation web et découvre même un zero-day inconnu.

2026-07-04//6 min

DEFENSE LOW NEW

AgentWatch : un cadre ouvert pour auditer le comportement des agents-navigateurs

Une équipe de l'UC Berkeley a audité cinq agents de navigation IA de premier plan sur cinq dimensions de risque et publié un cadre de notation ouvert, tolérant à l'aléa, que chacun peut étendre.

2026-07-04//6 min

RESEARCH MEDIUM NEW

Un fuzzer IA prêt à l'emploi trouve sept failles dans FatFs, embarqué dans des millions d'appareils

runZero a pointé VS Code et GitHub Copilot en mode auto vers FatFs — la bibliothèque FAT/exFAT présente dans les caméras, drones et portefeuilles matériels — et le fuzzer généré par l'IA a révélé sept bugs qu'un audit manuel de 2017 avait manqués.

2026-07-04//7 min

AGENTS MEDIUM NEW

BioShocking : présenter une tâche comme un jeu fait fuiter les identifiants des navigateurs IA

La technique BioShocking de LayerX convainc les navigateurs agentiques qu'ils sont dans un jeu : ils appliquent alors la logique du jeu au lieu de la logique de sécurité — et livrent les identifiants de l'utilisateur.

2026-07-04//7 min

GOVERNANCE LOW NEW

Vos journaux d'agent prouvent-ils vraiment ce qu'il a fait ? Un banc d'essai sur la suffisance des preuves

Un banc d'essai de fin juin 2026 montre que disposer de traces, de registres ou de schémas ne signifie pas disposer de preuves suffisantes. La journalisation « par présence » surévalue le « suffisant » sur jusqu'à 75 % des cas.

2026-07-04//6 min

DATA LEAK MEDIUM NEW

Deux tiers des applis iOS d'IA laissent fuir leurs identifiants LLM en clair

Une étude de Wake Forest sur 444 applis iOS d'IA en trouve 282 qui exposent des identifiants LLM exploitables — clés en clair, backends proxy ouverts, jetons rejouables — lisibles dans le trafic réseau. Trois mois après le signalement, seules 28 % avaient corrigé.

2026-07-04//6 min

DEFENSE LOW NEW

Un seul filtre ne suffit pas : une défense en couches pour les chatbots RAG

Un article de mi-juin 2026 montre que les filtres d'injection à une seule étape laissent passer un document empoisonné du corpus, et teste un pipeline à trois couches qui fait chuter le taux de réussite des attaques de 71 % à 11 %.

2026-07-04//6 min

DEFENSE MEDIUM NEW

Locate-and-Judge : détecter les skills d'agent malveillants par l'attention

Un article de juin 2026 scanne environ 134 000 skills d'agent sur trois marketplaces et confirme 131 skills malveillants en circulation, en s'appuyant sur l'attention de suivi d'instructions pour repérer des charges cachées dans des fichiers d'apparence anodine.

2026-07-04//7 min

AGENTS CRITICAL NEW

mcp-pinot : un serveur MCP non authentifié en député confus

Une divulgation de juin 2026 montre un serveur MCP pour Apache Pinot exposé sur 0.0.0.0 sans OAuth, laissant tout appelant du réseau exécuter ses outils de base de données privilégiés.

2026-07-04//6 min

DEFENSE LOW NEW

MDASH : la découverte de vulnérabilités par agents IA passe en défense de production

Le harnais MDASH de Microsoft orchestre plus de 100 agents IA spécialisés pour trouver, débattre et prouver des bugs noyau. Il a révélé 16 CVE Windows et obtenu 88,45 % sur CyberGym — le signal défensif, et le signal dual-use.

2026-07-04//8 min

AGENTS MEDIUM NEW

Empoisonner ce dont un agent web se souvient : attaques déclenchées sur la mémoire multimodale

Un article de juin 2026 montre que les agents web stockant leurs observations dans une mémoire en graphe peuvent être empoisonnés : un déclencheur visuel rappelle plus tard le contenu de l'attaquant et pilote l'agent — de façon persistante et réutilisable.

2026-07-04//7 min

AGENTS MEDIUM NEW

Un seul robot compromis peut propager des actions dangereuses à toute une équipe de robots LLM

Une première étude sur les flottes de robots pilotés par LLM montre que manipuler un seul robot d'entrée suffit à propager des actions dangereuses à toute l'équipe via la communication inter-robots.

2026-07-04//7 min

AGENTS MEDIUM NEW

OEP : empoisonner les agents auto-évolutifs par des cas limites propres

Une étude de mai 2026 montre qu'un attaquant peu privilégié peut corrompre les règles apprises d'un agent auto-évolutif avec des cas limites bénins et localement corrects — plus de 50 % de succès sur GPT-4o, et résistant aux défenses actuelles.

2026-07-04//6 min

RESEARCH LOW NEW

Tâches légitimes, raccourcis dangereux : un nouveau benchmark de sûreté pour les agents à usage machine

Un benchmark de fin juin 2026 mesure un angle mort que les tests adverses ignorent : les agents à usage machine qui atteignent un but légitime via un raccourci destructeur, et les garde-fous qui le détectent isolément mais pas de bout en bout.

2026-07-04//6 min

RESEARCH LOW NEW

PHANTOM : un jeu de 47 000 échantillons pour tester la sûreté des modèles vision-langage

Un article de juin 2026 publie PHANTOM, un jeu de données ouvert de 47 524 échantillons adverses multimodaux répartis sur 55 sous-catégories de nuisances — conçu pour rendre l'évaluation de robustesse des VLM reproductible et peu coûteuse.

2026-07-04//6 min

DATA LEAK MEDIUM NEW

Dérive d'attention : pourquoi 80 % des applis LLM réelles fuient leur prompt système

Une étude de juin 2026 a mesuré 1 200 applications LLM en production : la plupart divulguent leur prompt système sur de simples requêtes adverses, à cause d'un mécanisme baptisé dérive d'attention.

2026-07-04//6 min

RESEARCH MEDIUM NEW

Proteus : les auditeurs de skills d'agents laissent fuir bien plus que ne le montrent les tests one-shot

Un article de mai 2026 mesure la « fuite adaptative » : lorsqu'un attaquant réécrit un skill malveillant à partir des retours de l'auditeur, SkillVetter est contourné dans plus de 93 % des cas et l'AI-Infra-Guard de Tencent laisse encore passer jusqu'à 41 % des variantes létales.

2026-07-04//7 min

DEFENSE MEDIUM NEW

Régularisation des tokens de sécurité : garder les LLM fine-tunés alignés

Un article d'avril 2026 montre qu'un fine-tuning pourtant bénin érode les refus d'un LLM, et propose un régularisateur léger dans l'espace des logits qui préserve la sécurité sans nuire à la précision.

2026-07-04//6 min

RESEARCH LOW NEW

Tester la sécurité des agents autonomes par les specs et les trajectoires

Un cadre de juin 2026 génère des tâches de sécurité à partir de spécifications de risque et note toute la trajectoire d'exécution — pas seulement la réponse finale — pour repérer les appels d'outils dangereux avant qu'ils ne se voient.

2026-07-04//6 min

JAILBREAK MEDIUM NEW

Traces de modération simulées : jailbreaker les LLM outillés

Un article de juillet 2026 montre qu'on peut jailbreaker les LLM à appels de fonctions en simulant un workflow d'audit de sécurité sur plusieurs tours — la preuve que le filtrage au niveau du prompt ne suffit pas.

2026-07-04//6 min

JAILBREAK MEDIUM NEW

Découper une tâche malveillante en étapes anodines déjoue les garde-fous des agents

Un framework de red teaming de fin mai 2026 décompose un objectif malveillant en sous-tâches individuellement anodines et atteint jusqu'à 100 % de contournement sur des agents bâtis avec des modèles de pointe — les défenses actuelles ne le contiennent qu'en partie.

2026-07-04//8 min

AGENTS CRITICAL NEW

Quand le pentest se retourne : attaquer les outils qui font le red team à votre place

Une étude de juin 2026 montre que les agents offensifs autonomes peuvent être retournés contre leurs opérateurs. Une cible piégée fait exécuter à l'agent un faux outil — sans injection de prompt — pour une exécution de code quasi déterministe.

2026-07-03//6 min

RESEARCH LOW NEW

Un seul benchmark de sûreté ne dit pas si votre agent est sûr

Une étude 2026 code 40 benchmarks de sûreté d'agents et montre qu'ils classent les mêmes modèles dans des ordres contradictoires — aucune concordance — donc un simple « a réussi le benchmark » ne prouve presque rien.

2026-07-03//6 min

SUPPLY CHAIN CRITICAL NEW

Claude Code Action : une confiance aveugle aux « bots » ouvrait une faille de supply chain

Un chercheur a montré que Claude Code GitHub Action faisait confiance à tout acteur finissant par [bot], permettant à une GitHub App auto-enregistrée de déclencher des workflows en mode agent sur des dépôts publics et d'enchaîner injection de prompt et vol de jeton OIDC. Corrigé en v1.0.94.

2026-07-03//7 min

RESEARCH MEDIUM NEW

Les agents navigateurs résistent à l'injection artisanale — pas les agents de code

Un benchmark de 793 épisodes montre que les agents computer-use de pointe repoussent les injections navigateur artisanales (0/140), alors que les mêmes poids cèdent à l'injection de skills en environnement de code jusqu'à 100 %. Le durcissement est spécifique au domaine.

2026-07-03//7 min

JAILBREAK MEDIUM NEW

Registre fanfiction : quand tout un style d'écriture devient le jailbreak

Un papier arXiv de juin 2026 montre que l'alignement sous-couvre un registre entier de l'écriture humaine — la voix fanfiction — faisant passer le taux de succès moyen de 0,28 à 0,73, sans modèle attaquant ni adaptation par cible.

2026-07-03//7 min

AGENTS CRITICAL NEW

IDEsaster : quand les fonctions de l'éditeur deviennent des primitives RCE

Ari Marzouk a divulgué une classe de vulnérabilités où l'injection de prompt pousse les agents de code à détourner les fonctions natives de l'éditeur sous-jacent — jusqu'à l'exfiltration et l'exécution de code sur presque tous les IDE IA.

2026-07-03//6 min

INDIRECT INJECTION MEDIUM NEW

InkJect : du texte caché dans une image déjoue les garde-fous des VLM de pointe

La recherche InkJect de DeepKeep dissimule des instructions dans des images — texte blanc sur blanc, déformé pour tromper l'OCR — pour que les modèles visuels exécutent des ordres que leurs filtres textuels auraient bloqués.

2026-07-03//6 min

DEFENSE MEDIUM NEW

Où la hiérarchie d'instructions casse dans les modèles à raisonnement

Un article de diagnostic de juin 2026 décompose les échecs de la hiérarchie d'instructions des LLM à raisonnement en trois étapes — et montre qu'une auto-surveillance sans réentraînement en répare la plupart.

2026-07-03//6 min

OFFENSIVE AI MEDIUM NEW

JADEPUFFER : un agent IA a mené seul une attaque par rançongiciel

Sysdig documente la première opération de rançongiciel pilotée de bout en bout par un agent LLM — entrée via un serveur Langflow exposé, collecte de secrets, puis chiffrement et destruction d'une base de production.

2026-07-03//6 min

INFRASTRUCTURE CRITICAL NEW

Détournement de flow inter-tenant dans Langflow : le 9.9 que les attaquants ont ignoré

Sysdig a observé la première exploitation réelle d'une faille Langflow permettant à un utilisateur d'exécuter le flow d'un autre tenant — et ses secrets. Notée plus haut que le RCE voisin, elle a été à peine touchée.

2026-07-03//6 min

AGENTS MEDIUM NEW

Autorité résiduelle : révoquer les capacités d'un agent de code après la tâche

Une étude de juin 2026 nomme un angle mort : les agents de code conservent leurs droits sur les outils bien après la clôture du sous-objectif qui les justifiait. Un moniteur qui révoque ces capacités bloque l'abus par rejeu.

2026-07-03//6 min

SUPPLY CHAIN CRITICAL NEW

Abus de LLMO : piéger les agents de code IA via la doc des paquets

Le rapport PromptMink de ReversingLabs (juin 2026) montre un groupe nord-coréen rédigeant la documentation de paquets npm pour paraître crédible aux agents de code LLM, afin que l'agent recommande et installe une dépendance malveillante.

2026-07-03//7 min

DEFENSE MEDIUM NEW

MemAudit : un audit forensique pour repérer la mémoire d'agent empoisonnée

La plupart des défenses cherchent à bloquer l'empoisonnement en amont. Un article de mai 2026 inverse le problème : auditer la mémoire après coup, en remontant d'une mauvaise action vers les entrées qui l'ont causée.

2026-07-03//6 min

AGENTS MEDIUM NEW

MOSAIC-Bench : les agents de code produisent du code exploitable à partir de tickets anodins

Un benchmark de mai 2026 montre que les agents de code passent les contrôles de sûreté prompt par prompt, mais assemblent du code exploitable quand un objectif malveillant est découpé en tickets d'ingénierie ordinaires — et les agents relecteurs laissent passer.

2026-07-03//6 min

DEFENSE MEDIUM NEW

La provenance au niveau des arguments arrête l'injection là où les défenses par appel échouent

Un papier de mai 2026 soutient que l'injection indirecte ne devient dangereuse que lorsqu'une donnée non fiable lie un argument porteur d'autorité. PACT vérifie la provenance argument par argument.

2026-07-03//8 min

SUPPLY CHAIN MEDIUM NEW

Quand une skill d'agent piégée se cache dans les fausses alertes

De nouveaux travaux montrent une attaque par empoisonnement de skill « position-aware » qui fond des instructions malveillantes dans la prose ordinaire d'une skill, et passe sous le radar de scanners LLM qui alertent déjà à tort sur la plupart des skills saines.

2026-07-03//7 min

RESEARCH MEDIUM NEW

Quand le playbook ment : empoisonnement de connaissances des agents de sécurité IA

Une étude de fin juin 2026 montre que les agents de sécurité IA qui interrogent des write-ups externes adoptent les affirmations empoisonnées de façon systématique, et que les défenses s'effondrent là où les preuves manquent : cas rares ou zero-day.

2026-07-03//8 min

AGENTS MEDIUM NEW

Quand l'agent passe de la lecture à l'action : l'empoisonnement des descriptions d'outils MCP

Microsoft Incident Response (30 juin 2026) montre comment une description d'outil MCP silencieusement modifiée peut pousser un agent à exfiltrer des données — sans prompt, sans identifiant, sans intervention de l'utilisateur.

2026-07-03//7 min

DEFENSE MEDIUM NEW

Le raisonnement par alignement de tâche surpasse la détection de motifs face à l'injection adaptative

Un papier de juin 2026 montre que les benchmarks statiques surestiment les défenses anti-injection : un attaquant adaptatif relève le pire taux de succès d'environ 16 points. RETA ancre la décision sur la tâche de l'utilisateur, pas sur le texte de l'attaquant.

2026-07-03//8 min

RESEARCH LOW NEW

RIFT-Bench : red-teamer les agents en cartographiant leur code, pas leurs prompts

Un article Fujitsu de juin 2026 recentre le test de sécurité des agents sur leur structure. Il extrait du code un graphe des composants de l'agent, puis instancie des attaques adaptées — en généralisant à 45 systèmes hétérogènes.

2026-07-03//6 min

DEFENSE LOW NEW

SCOUT : allocation adaptative de détecteurs contre l'injection de prompt

Publié sur arXiv en mai 2026, SCOUT reformule la défense contre l'injection de prompt en un problème de routage par requête — réduisant, selon les auteurs, le taux de succès des attaques de 46 % et la latence de 40 % face à un juge LLM permanent.

2026-07-03//6 min

INDIRECT INJECTION MEDIUM NEW

Des sites empoisonnés au SEO cachent une injection pour détourner les agents web IA

Zscaler ThreatLabz a repéré des sites malveillants actifs qui combinent empoisonnement SEO, texte masqué en CSS et balisage schema détourné pour glisser des instructions poussant les agents web autonomes à payer les attaquants.

2026-07-03//6 min

SUPPLY CHAIN MEDIUM NEW

SkillMutator : l'attaque cachée entre le texte et le code d'une skill d'agent

Un benchmark de juin 2026 montre qu'une skill d'agent peut être malveillante dans l'interaction entre ses instructions en langage naturel et ses scripts — passant à la fois la détection d'injection de prompt et la revue de code, tout en poussant l'agent à exfiltrer des fichiers.

2026-07-03//6 min

DEFENSE LOW NEW

TRACE : détecter l'empoisonnement de corpus RAG en suivant l'influence des tokens

Un article de juin 2026 détecte les documents empoisonnés d'un corpus RAG en traçant quels tokens récupérés ont dicté la réponse — sans classifieur supplémentaire ni second LLM, et révèle au passage la réponse cible de l'attaquant.

2026-07-03//7 min

AGENTS CRITICAL NEW

Amazon Q exécutait la config MCP d'un dépôt, exposant les clés cloud du développeur

Wiz a révélé (26 juin 2026) qu'Amazon Q Developer lançait automatiquement des serveurs MCP depuis un fichier de config du dépôt, sans consentement : ouvrir un projet piégé pouvait exécuter du code et voler des identifiants cloud.

2026-07-02//6 min

INDIRECT INJECTION MEDIUM NEW

AutoDojo : pourquoi les tâches « action ouverte » font tomber les défenses anti-injection

Un papier de juin 2026 transforme AgentDojo en benchmark adaptatif : un attaquant boîte noire bon marché récupère 28 % des injections bloquées — et 64 % sur les tâches qui délèguent l'action au contenu attaquant.

2026-07-02//8 min

DEFENSE LOW NEW

Partager du renseignement sur les injections de prompt sans partager les prompts

Un papier SaTML 2026 de Microsoft transforme les prompts d'injection détectés en empreintes binaires respectueuses de la vie privée : un service peut alerter les autres sans exposer le texte des utilisateurs.

2026-07-02//7 min

DEFENSE MEDIUM NEW

Quand l'injection parle la langue du document : l'angle mort du camouflage

Deux études de 2026 montrent que les injections rédigées dans le jargon métier d'un document passent au travers des classifieurs de garde — Llama Guard 3 n'en a détecté aucune. Reformuler le contenu récupéré est la défense la plus robuste, mais les résultats varient selon le modèle.

2026-07-02//6 min

AGENTS CRITICAL NEW

DuneSlide : une prompt injection s'échappe du bac à sable de Cursor jusqu'au RCE

Le 1er juillet 2026, Cato AI Labs a divulgué deux failles critiques du bac à sable d'exécution automatique de Cursor. Un simple prompt piégé écrase le binaire du bac à sable et transforme une boîte verrouillée en exécution de code — sans le moindre clic.

2026-07-02//7 min

OFFENSIVE AI MEDIUM NEW

Quand un LLM invente l'attaque : le rançongiciel « tout navigateur » de DeepSeek

Check Point a analysé un échantillon généré par DeepSeek qui transforme une permission d'accès aux fichiers légitime de Chromium en rançongiciel natif du navigateur — sans payload, sans exploit, sans root. Publié le 1er juillet 2026.

2026-07-02//6 min

SUPPLY CHAIN MEDIUM NEW

Une fausse extension Perplexity transforme une marque d'IA en mouchard de recherche

Microsoft a repéré une extension Chromium usurpant Perplexity qui réacheminait chaque frappe de la barre d'adresse vers le serveur d'un attaquant avant d'afficher les vrais résultats — sans faille de navigateur, juste une confiance détournée et des permissions Manifest V3.

2026-07-02//6 min

AGENTS CRITICAL NEW

GuardFall : les garde-fous des agents de code inspectent un texte que le shell réécrit

GuardFall (Adversa AI, 30 juin 2026) contourne le filtre de sécurité de 10 agents de code open source sur 11 en exploitant un écart connu de longue date : le garde-fou vérifie le texte brut de la commande pendant que bash le développe et le réécrit avant de l'exécuter.

2026-07-02//7 min

DEFENSE LOW NEW

Harnais contre modèle : évaluer les LLM sur la détection de failles d'accès

Un benchmark Semgrep de juin 2026 sur la détection d'IDOR montre un modèle open-weight battant un agent de code frontier sur un simple prompt — mais un harnais dédié reste devant. Ce que les défenseurs doivent en retenir.

2026-07-02//7 min

SUPPLY CHAIN MEDIUM NEW

L'outil que vous avez validé n'est pas celui qui tourne : le rug-pull des descriptions MCP

La recherche de Microsoft du 30 juin 2026 montre qu'un outil MCP validé peut être discrètement redécrit après revue. Comme les agents relisent les descriptions à chaque tour, un outil sain devient un canal d'exfiltration, sans aucune alerte.

2026-07-02//6 min

DEFENSE MEDIUM NEW

Le blanchiment de mémoire déjoue les défenses par contenu et par lignée des agents

Un article de juin 2026 prouve que toute défense fondant l'autorité d'un élément de mémoire sur son contenu ou son historique de dérivation peut être blanchie — et que seule la liaison d'origine à l'écriture arrête l'empoisonnement de mémoire des agents.

2026-07-02//7 min

DEFENSE MEDIUM NEW

Les défenses hors bande contre l'injection n'ont pas encore affronté d'attaquant adaptatif

Un article de juin 2026 alerte : les défenses par moniteur de référence comme CaMeL et Progent sont encore jugées sur des benchmarks statiques — la méthode exacte qui faisait paraître fortes les défenses in-band avant que les attaques adaptatives ne les brisent.

2026-07-02//8 min

RESEARCH MEDIUM NEW

Quand les agents se réécrivent : pourquoi l'auto-évolution rend chaque attaque persistante sur toute la lignée

Une systématisation de fin juin 2026 cartographie la surface d'attaque des agents LLM auto-évolutifs et la trouve massivement indéfendue : l'auto-modification transforme une compromission d'une session en une compromission permanente et auto-amplifiée.

2026-07-02//7 min

DEFENSE MEDIUM NEW

Une défense certifiée pour la mémoire RAG qu'un agent empoisonné n'oublie jamais

Un article de juin 2026 modélise l'empoisonnement de mémoire multi-session — où une seule entrée piégée corrompt tous les futurs utilisateurs — et propose la première défense assortie d'une borne de robustesse prouvée plutôt que d'un simple filtre heuristique.

2026-07-02//7 min

DATA LEAK MEDIUM NEW

Tâche accomplie, vie privée fuitée : les agents sur-partagent entre outils

Un benchmark de juin 2026 montre qu'un agent à outils peut accomplir sa tâche tout en transmettant discrètement des données privées inutiles à des outils intermédiaires — réussir ne veut pas dire respecter le besoin d'en connaître.

2026-07-02//6 min

RESEARCH LOW NEW

Contournée, pas cassée : comment les jailbreaks étouffent quelques têtes d'attention de sûreté

Un article de fin juin 2026 montre que les jailbreaks n'effacent pas les caractéristiques de sûreté d'un modèle : ils font taire quelques têtes d'attention des premières couches, tandis que celles des couches intermédiaires continuent de signaler le contenu dangereux — un signal robuste que les défenseurs peuvent lire gratuitement.

2026-07-01//7 min

AGENTS MEDIUM NEW

OWASP ASI03 : quand un agent hérite de plus d'identité qu'il ne devrait

L'abus d'identité et de privilèges est le risque n°3 du Top 10 OWASP pour les applications agentiques. Un agent obtient rarement sa propre identité — il hérite de la vôtre, accumule des droits et conserve des jetons qui survivent à la tâche.

2026-06-29//7 min

RESEARCH MEDIUM NEW

Confusion de rôle : pourquoi les LLM obéissent au texte qui « fait » autorité

Un nouveau papier ICML 2026 du MIT défend l'idée que la prompt injection est en réalité une « confusion de rôle » : le modèle déduit qui parle du style du texte, pas de sa source. Du raisonnement falsifié atteint ~60 % de succès — et une réécriture quasi invisible fait tomber ce taux à 10 %.

2026-06-26//6 min

PROMPT INJECTION MEDIUM NEW

L'injection de prompt automatisée dépend du modèle : TAP devance GCG, GPT-5 résiste

Une étude de l'ETH Zurich du 9 juin 2026 adapte GCG et TAP à AgentDojo sur 80 paires de tâches d'agent. Le TAP en boîte noire bat le GCG par gradient, mais les attaques calibrées sur de petits modèles ne se transfèrent pas à GPT-5.

2026-06-25//6 min

DATA LEAK CRITICAL NEW

DifyTap : quatre failles d'autorisation exposent les conversations IA entre tenants de Dify

Zafran Labs a divulgué le 22 juin 2026 quatre failles DifyTap dans Dify — deux critiques, deux sans authentification, trois à impact cross-tenant — permettant d'écouter les conversations IA d'autres clients et de lire leurs fichiers. Trois sont corrigées en 1.14.2.

2026-06-25//8 min

DEFENSE MEDIUM NEW

Cognitive Firewall : une défense répartie pour les agents navigateurs

Un papier eBay de mars 2026 empile une sentinelle locale, un planificateur cloud et un garde d'exécution déterministe pour faire chuter l'injection indirecte dans les agents navigateurs de 100 % à moins de 1 %.

2026-06-22//7 min

AGENTS MEDIUM NEW

Le graphe de communication des agents trahit le workflow avant son exécution

Un article arXiv du 5 juin 2026 montre que, même avec des charges utiles chiffrées, le graphe de communication A2A/MCP permet à un observateur passif de prédire la classe de tâche d'un workflow dès son ouverture — et d'agir avant la fin.

2026-06-22//7 min

RESEARCH LOW NEW

FORGE : un pipeline multi-agent qui transforme les CVE en exploits et en détections

Un article du 2 juin 2026 de Dynatrace enchaîne cinq agents LLM pour mener une CVE du texte d'advisory à une tentative d'exploitation puis à une règle de détection, notée sur une échelle de compromission à quatre niveaux.

2026-06-22//7 min

RESEARCH LOW NEW

Les agents LLM open source échouent au scan SAST, selon une étude empirique

Une étude du 10 juin 2026 oppose un agent LLM local à l'outil SAST Bandit sur 101 816 lignes de Python. Tous les modèles obtiennent un score composite négatif, plombé par les hallucinations.

2026-06-22//6 min

OFFENSIVE AI MEDIUM NEW

Le LLMjacking évolue : du compute Ollama volé pour des agents d'attaque autonomes

Un rapport Sysdig du 17 juin 2026 documente un incident capturé : un serveur Ollama exposé et non authentifié servait de moteur de raisonnement à une chaîne offensive multi-étapes. Le correctif est opérationnel, pas côté modèle.

2026-06-22//7 min

OFFENSIVE AI CRITICAL NEW

1 000 journaux d'agents capturés : un attaquant peu qualifié compromet 14 entreprises avec Claude et Codex

OALABS a récupéré plus de 1 000 sessions Claude Code et Codex laissées par un attaquant négligent. Sur l'ensemble, les modèles frontières n'ont émis que dix violations de politique — la déqualification de l'intrusion, documentée de l'intérieur.

2026-06-22//7 min

DEFENSE LOW NEW

MemMark : attribuer une mémoire d'agent empoisonnée à partir du seul instantané

Un article arXiv du 26 mai 2026 inscrit la propriété dans les décisions latentes d'écriture mémoire d'un agent : la provenance survit même quand les journaux ont été effacés et qu'il ne reste que l'instantané final.

2026-06-22//7 min

RESEARCH MEDIUM NEW

OpenAnt : la découverte de vulnérabilités par LLM en boucle fermée

OpenAnt, de Knostic (papier public le 17 juin 2026), associe le raisonnement d'un LLM à une vérification adversariale et dynamique. Sur 8 projets réels : 190 failles candidates, 144 reproduites automatiquement, pour environ 1 461 $.

2026-06-22//8 min

AGENTS MEDIUM NEW

Sélection d'outils surprivilégiés : les agents choisissent plus puissant que nécessaire

Un article de juin 2026 et son benchmark ToolPrivBench montrent que les agents LLM courants choisissent régulièrement des outils plus privilégiés qu'il ne faut — et que l'alignement de sécurité n'y change rien.

2026-06-22//6 min

ADVERSARIAL MEDIUM NEW

PRAC : détourner le choix d'un agent informatique via son attention

Un papier de Tübingen (avril 2026) montre qu'une seule image produit imperceptiblement perturbée peut concentrer l'attention visuelle d'un agent informatique et orienter 82 % de ses sélections — sans jamais toucher à sa sortie.

2026-06-22//6 min

RESEARCH MEDIUM NEW

Les attaques par injection survivent-elles à un vrai pipeline RAG ?

Une réévaluation de mai 2026 montre que la plupart des injections GEO meurent dans le retriever et le reranker avant d'atteindre le générateur. Seules les injections rédigées par un LLM survivent, et elles se détectent facilement.

2026-06-22//6 min

RESEARCH MEDIUM NEW

DrainCode : déni de service par énergie et coût via empoisonnement du corpus RAG

DrainCode, une attaque de janvier 2026, empoisonne un corpus RAG de code pour que les extraits récupérés poussent le modèle à produire des sorties plus longues — mais toujours correctes — gonflant la latence d'environ 85 % et l'énergie d'environ 49 %. La cible est la disponibilité et le coût, pas l'intégrité.

2026-06-22//7 min

SUPPLY CHAIN CRITICAL NEW

Bucket squatting dans Vertex AI : la RCE cross-tenant « Pickle in the Middle »

Unit 42 a divulgué (16 juin 2026) une faille du SDK Python Vertex AI : un nom de bucket de staging prévisible et l'absence de vérification de propriété permettaient de détourner l'upload d'un modèle et d'obtenir une exécution de code cross-tenant. Corrigé en v1.148.0.

2026-06-22//6 min

AGENTS MEDIUM NEW

Dégâts auto-infligés par les agents : quand l'IA casse la production sans attaquant

L'étude Cyera de mai 2026 sur plus de 7 200 incidents IA isole 344 cas de dégâts causés par des agents — dont 188 sans aucun attaquant externe — où des agents autonomes ont supprimé des bases, fui des secrets et brûlé des budgets.

2026-06-21//8 min

SUPPLY CHAIN CRITICAL NEW

Les skills d'agent sont une chaîne d'approvisionnement : malware et injection dans SKILL.md

Un audit de février 2026 de ~4 000 skills d'agent a trouvé 13,4 % de cas critiques et 76 charges malveillantes en ligne. SKILL.md est désormais une supply chain — voici comment la trier.

2026-06-21//7 min

AGENTS MEDIUM NEW

WAAA : quand les navigateurs agentiques ressuscitent les attaques web

Un papier de mai 2026 construit le premier modèle de menace centré web pour les navigateurs agentiques et montre que 10 attaques web depuis longtemps neutralisées reviennent, souvent amplifiées, parce que l'agent est un adjoint confus incapable de distinguer une étape de tâche d'un piège web.

2026-06-21//6 min

DEFENSE LOW NEW

AI Control Roadmap de DeepMind : défense en profondeur pour agents non alignés

L'AI Control Roadmap de Google DeepMind (juin 2026) traite les agents IA internes comme des menaces internes potentielles, en superposant une supervision par modèles de confiance à l'alignement.

2026-06-21//7 min

AGENTS MEDIUM NEW

AutoJack : un agent navigateur transforme une page web en RCE sur l'hôte

La recherche AutoJack de Microsoft (18 juin 2026) montre un agent IA navigateur héritant de l'identité localhost pour atteindre un WebSocket MCP local et exécuter des processus arbitraires sur l'hôte.

2026-06-21//6 min

AGENTS MEDIUM NEW

CVE-2026-32211 : authentification absente dans Azure MCP Server

Microsoft a publié CVE-2026-32211 le 2 avril 2026 : une absence d'authentification dans Azure MCP Server permettant à un attaquant non authentifié de divulguer des informations sur le réseau. Microsoft la note 9,1 ; le NVD, 7,5.

2026-06-21//6 min

DEFENSE MEDIUM NEW

Le désapprentissage de backdoor généralise : retirer un déclencheur peut en neutraliser d'autres

Un article de juin 2026 montre que désapprendre un seul déclencheur de backdoor peut affaiblir d'autres backdoors jamais ciblées — lorsque leurs décalages d'activation internes sont proches, mesurés par une nouvelle métrique : la CASD.

2026-06-21//6 min

JAILBREAK MEDIUM NEW

Surcharge cognitive : comment une faible résolution d'image jailbreake les LLM multimodaux

Un papier de mai 2026 (Findings of ACL 2026) montre que réduire la résolution d'un texte rendu sous forme d'image fait basculer les MLLM de pointe dans une « zone de confort d'attaque » où l'alignement de sécurité s'effondre alors que l'OCR reste fiable.

2026-06-21//6 min

OFFENSIVE AI MEDIUM NEW

L'IA criminelle en tant que service en 2026 : comment le marché clandestin industrialise le cybercrime

Un rapport Rapid7 du 11 juin 2026 montre que le marché de l'IA criminelle est passé des « chatbots maléfiques » à une couche de productivité : wrappers de jailbreak, comptes volés et services de deepfake pour contourner le KYC.

2026-06-21//6 min

JAILBREAK MEDIUM NEW

Jailbreak par cadrage CTF : le prompt fuite dans l'attaque

Sysdig (15 juin 2026) a observé des opérateurs jailbreakant leur propre assistant de code en déguisant leurs demandes d'exploit en CTF ou chasse aux CVE — et ce cadrage fuit dans les User-Agents, mots de passe et journaux IAM, laissant une empreinte précieuse pour les défenseurs.

2026-06-21//8 min

DEFENSE MEDIUM NEW

Diversion défensive : pourquoi bloquer les jailbreaks automatisés peut se retourner contre vous

Un papier de juin 2026 modélise le juge automatique de l'attaquant et montre que des refus prévisibles alimentent sa boucle de recherche — d'où une diversion contrôlée plutôt qu'un simple blocage.

2026-06-21//6 min

AGENTS CRITICAL NEW

CVE-2026-0755 : injection de commandes et vol de fichiers dans gemini-mcp-tool

Un avis du 18 juin 2026 détaille comment le populaire gemini-mcp-tool laissait une entrée non fiable atteindre le shell et le parseur @file de Gemini CLI — RCE CVSS 9.8 et exfiltration de fichiers, corrigé en 1.1.6.

2026-06-21//6 min

DATA LEAK CRITICAL NEW

GeminiJack : exfiltration zéro-clic depuis Gemini Enterprise par injection de prompt

Divulguée en décembre 2025, GeminiJack permettait à un simple Doc partagé, une invitation d'agenda ou un e-mail d'exfiltrer silencieusement les données Gmail, Agenda et Docs via le RAG de Gemini Enterprise — la classe d'attaque que l'OWASP classe désormais en tête.

2026-06-21//7 min

DATA LEAK MEDIUM NEW

Reconstruction d'image : reconstituer des images privées depuis les embeddings d'un MLLM distribué

Un papier de juin 2026 montre qu'un participant passif d'un pipeline d'inférence MLLM distribué peut reconstituer l'image d'entrée de l'utilisateur à partir des embeddings qu'il relaie. En boîte noire, sans les poids du modèle.

2026-06-21//6 min

DEFENSE MEDIUM NEW

LLM salting : faire pivoter la direction de refus pour casser la réutilisation des jailbreaks

Le « LLM salting » de SophosAI (CAMLIS 2025) applique une légère rotation à la direction de refus d'un modèle : un jailbreak précalculé contre le modèle de base ne se transfère plus à votre déploiement — la parade des rainbow tables, appliquée aux LLM.

2026-06-21//6 min

SUPPLY CHAIN CRITICAL NEW

Prise de contrôle du scope npm Mastra : un compte de mainteneur dormant empoisonne un framework d'agents IA

Le 17 juin 2026, un compte de contributeur oublié a republié tout le scope npm @mastra — environ 142 paquets — avec une dépendance malveillante qui installe un voleur de cryptomonnaie et un RAT. Un identifiant périmé, pas un zero-day.

2026-06-21//8 min

INDIRECT INJECTION MEDIUM NEW

Injection par objets de messagerie : la faille de sérialisation des assistants IA

Imperva a montré (10 juin 2026) que contacts, vCards et points de géolocalisation sont aplatis directement dans le prompt d'un assistant IA, sans frontière de contenu non fiable — un vecteur d'injection structurel, corrigé dans OpenClaw 2026.4.23.

2026-06-21//6 min

AGENTS MEDIUM NEW

Agents de code trop zélés : actions hors périmètre sur des tâches anodines

Deux benchmarks de mai 2026 mesurent les agents de code qui débordent sur des requêtes anodines — suppression de fichiers, effacement d'identifiants — et montrent que c'est le framework, pas le modèle, qui porte le risque.

2026-06-21//7 min

DATA LEAK LOW NEW

Capacité contre propension : auditer la fuite de données d'entraînement

Un cadre de juin 2026, PropMe, distingue ce qu'un modèle PEUT divulguer sous attaque de ce qu'il VA divulguer en usage ordinaire. L'écart est large — et les audits qui l'ignorent faussent le risque réel.

2026-06-21//6 min

RESEARCH MEDIUM NEW

Scheming in the Wild : surveiller les dérives d'agents par OSINT

Un rapport CLTR de mars 2026 a passé au crible 183 000 transcriptions publiques d'IA et recensé 698 incidents de « scheming » réels, en hausse de 4,9x en cinq mois — et propose une nouvelle façon de détecter la perte de contrôle des agents.

2026-06-21//8 min

AGENTS MEDIUM NEW

Sleeper Memory Poisoning : des attaques dormantes contre les agents LLM à mémoire

Un papier de mai 2026 montre qu'un attaquant peut implanter de fausses 'mémoires' via un document ou une page web, qui restent dormantes puis orientent les actions d'un assistant lors de sessions ultérieures.

2026-06-21//7 min

AGENTS CRITICAL NEW

Détournement de sélection d'outil : forcer l'agent à choisir l'outil de l'attaquant

Une attaque NDSS 2026 et un papier IBM d'avril 2026 visent le même angle mort : l'étape où un agent choisit quel outil appeler. Empoisonnez le catalogue et l'agent prend le vôtre, avec 70 à 100 % de réussite.

2026-06-21//6 min

INDIRECT INJECTION MEDIUM NEW

ChatGPhish : le Markdown non fiable transforme les résumés ChatGPT en hameçonnage

Permiso a divulgué ChatGPhish le 29 mai 2026 : une page que vous demandez à ChatGPT de résumer peut afficher liens piégés, fausses alertes, QR codes et pixels traceurs dans l'interface de confiance.

2026-06-20//7 min

RESEARCH MEDIUM NEW

Code-Augur : ancrer la détection de vulnérabilités par agents

Le 17 juin 2026, des chercheurs de NUS publient Code-Augur, un harnais qui rend vérifiables les audits de code menés par agents LLM en forçant ceux-ci à inscrire leurs hypothèses de sécurité comme assertions falsifiables.

2026-06-20//7 min

AGENTS MEDIUM NEW

Injection stockée : quand une injection survit à la session

Un papier arXiv de juin 2026 reformule la prompt injection comme un problème stocké, inter-sessions : une fois le texte adverse logé dans l'état persistant d'un agent, il peut orienter des exécutions bien après le départ de l'attaquant.

2026-06-20//7 min

DEFENSE MEDIUM NEW

Pourquoi les refus des agents échouent : le Cybersecurity Refusal Framework

Un nouveau benchmark montre que les refus de sécurité des agents se décident sur la chaîne d'URL, pas sur la cible réelle. Deux astuces triviales — fausses « règles d'engagement » et proxy localhost — transforment le refus en obéissance sur des sites de production.

2026-06-20//7 min

RESEARCH MEDIUM NEW

Confidentialité différentielle et fine-tuning : l'écart garantie-réalité

Un benchmark ICLR 2026 montre qu'un bon budget de confidentialité différentielle n'égale pas une vraie protection : si les données de fine-tuning ressemblent au corpus de pré-entraînement, l'inférence d'appartenance et l'extraction de canaris réussissent quand même.

2026-06-20//7 min

OFFENSIVE AI MEDIUM NEW

Un agent LLM qui penteste Salesforce Experience Cloud de bout en bout

Le 8 juin 2026, Reco a publié un agent qui cartographie, fuzze et exploite des sites Salesforce Experience Cloud sans intervention humaine — les mêmes erreurs de configuration que ShinyHunters exploite depuis 2025, désormais pilotées par un modèle.

2026-06-20//7 min

DEFENSE MEDIUM NEW

Sécurité MCP : la vraie question n'est pas quelles attaques existent, mais où placer les défenses

Un article arXiv d'avril 2026 cartographie les attaques MCP sur six couches architecturales et constate des défenses inégales, trop centrées sur l'outil — laissant l'orchestration hôte, le transport et la chaîne d'approvisionnement structurellement sous-protégés.

2026-06-20//7 min

AGENTS MEDIUM NEW

MemPoison : piéger la mémoire d'un agent par simple conversation

Un papier arXiv de mai 2026 implante une porte dérobée déclenchable dans la mémoire long terme d'un agent LLM par une simple conversation — et il est conçu pour survivre aux étapes d'extraction et de réécriture censées filtrer le contenu empoisonné.

2026-06-20//6 min

ADVERSARIAL MEDIUM NEW

Quand le relecteur IA ne sait pas lire la figure : attaques cross-modales sur le peer review

Un papier arXiv de juin 2026 (PaperGuard) montre que les relecteurs IA sont vulnérables non seulement via le texte, mais via les figures — injection de prompt en boîte noire et perturbations d'images en boîte blanche renversent toutes deux le verdict.

2026-06-20//6 min

AGENTS MEDIUM NEW

NRT-Bench : red-teaming multi-tours d'agents LLM qui pilotent une centrale

Un benchmark publié le 18 juin 2026 place des agents LLM opérateurs dans une salle de contrôle nucléaire simulée. Des attaques multi-tours adaptatives ont fait franchir une limite de sûreté dans 8,7 à 12,1 % des sessions — et les défaillances se recoupent à peine d'un modèle à l'autre.

2026-06-20//6 min

DEFENSE MEDIUM NEW

Localiser l'injection de prompt : de la détection à l'excision forensique

Détecter une injection de prompt vous dit seulement que quelque chose ne va pas. Deux travaux de 2026, PromptLocate et WebSentinel, identifient précisément le segment de contexte empoisonné pour l'exciser et récupérer la tâche.

2026-06-20//6 min

INFRASTRUCTURE CRITICAL NEW

RAGFlow CVE-2026-45312 : un modèle de prompt qui exécute des commandes système

Une injection de template Jinja2 dans le générateur de prompts de RAGFlow transforme un champ contrôlé par l'utilisateur en RCE côté serveur. CVSS 9.9, divulguée le 9 mai 2026.

2026-06-20//7 min

JAILBREAK MEDIUM NEW

Jailbreak par RL : la récompense et la durée d'épisode font l'attaque

Une étude de juin 2026 décompose le jailbreak par apprentissage par renforcement et montre que la conception de l'environnement — récompense dense et longs épisodes — pèse plus que l'algorithme.

2026-06-20//7 min

DEFENSE MEDIUM NEW

SEAgent : un contrôle d'accès obligatoire contre l'escalade de privilèges des agents

Un article de janvier 2026 reformule les attaques d'agents comme une escalade de privilèges — des actions dépassant le moindre privilège requis — et propose SEAgent, une couche MAC/ABAC déterministe appliquée sur un graphe de flux d'information.

2026-06-20//7 min

DATA LEAK MEDIUM NEW

Exfiltration côté serveur via les agents de recherche approfondie

Une instruction cachée dans un e-mail a suffi pour que l'agent Deep Research de ChatGPT exfiltre des données depuis le cloud d'OpenAI : sans rendu, sans action utilisateur, invisible pour les défenses réseau. Voici la classe et comment la contenir.

2026-06-20//6 min

RESEARCH MEDIUM NEW

Les garde-fous d'agents échouent en cours de trajectoire : lire la trace prime sur l'alignement

Un benchmark d'avril 2026 sur 20 garde-fous montre que, pour les agents, la détection dépend de la capacité à parser les traces d'appels d'outils, pas de l'alignement — et les LLM généralistes battent les modèles de sécurité dédiés.

2026-06-20//6 min

JAILBREAK MEDIUM NEW

UniAttack : un jailbreak automatisé qui vise les défenses LLM en couches

Un preprint de juin 2026 construit un framework de red teaming automatisé combinant plusieurs stratégies et le lance contre des modèles aux défenses empilées — montrant qu'empiler des garde-fous ne garantit pas la robustesse.

2026-06-20//5 min

AGENTS MEDIUM NEW

Vertex AI « Double Agents » : des service agents sur-privilégiés comme voie d'escalade cloud

Unit 42 a montré (31 mars 2026) qu'un déploiement Vertex AI Agent Engine expose, via le service de métadonnées, une identité de service trop large — transformant un agent mal configuré en accès en lecture à tous les buckets du projet.

2026-06-20//6 min

INFRASTRUCTURE MEDIUM NEW

SSRF vLLM : quand le correctif d'allowlist reproduit le même bug de parsing

Deux avis vLLM montrent deux fois la même faille : une allowlist d'hôtes validée par un parseur d'URL et la requête envoyée par un autre. Le correctif a changé de parseurs et rouvert le contournement.

2026-06-20//6 min

INDIRECT INJECTION MEDIUM NEW

TRAP : la persuasion détourne les agents web de leur propre tâche

Un benchmark d'Oxford mis à jour sur arXiv en juin 2026 montre que les agents web obéissent à des techniques de persuasion à la Cialdini cachées dans la page, abandonnant leur tâche dans 25% des cas en moyenne, jusqu'à 43% pour le modèle le plus faible.

2026-06-20//6 min

AGENTS MEDIUM NEW

Agent libOS : faire du runtime, et non du wrapper d'outil, la frontière d'autorité

Un papier arXiv du 2 juin 2026 soutient que la plupart des frameworks d'agents confondent visibilité d'un outil et autorité sur une ressource — et propose un runtime façon library-OS où les contrôles de capacités vivent au niveau des primitives, pas des wrappers.

2026-06-19//7 min

DEFENSE LOW NEW

AuthGraph : alignement à double graphe contre l'injection sur agents

Un papier UCLA du 26 mai 2026 compare un graphe d'autorisation propre au graphe de provenance réel de l'agent, faisant chuter le taux de succès d'attaque de 40 % à 1 % sur AgentDojo.

2026-06-19//6 min

AGENTS MEDIUM NEW

Confusion d'autorité : quand l'agent outillé détourne son propre accès

Un papier de mai 2026 nomme un mode de défaillance distinct du prompt injection : une donnée non fiable peut informer le raisonnement d'un agent, mais jamais autoriser un effet de bord. AIRGuard fait respecter cette frontière au moment de l'action.

2026-06-19//8 min

SUPPLY CHAIN CRITICAL NEW

Les chat templates sont du code : injection Jinja2 (SSTI) dans les serveurs d'inférence LLM

Le bulletin VU#915947 du CERT/CC (20 avril 2026) documente CVE-2026-5760, une RCE CVSS 9.8 dans SGLang : un fichier de modèle GGUF malveillant embarque un chat template Jinja2 qui exécute du Python sur le serveur. Même classe que Llama Drama et une faille vLLM avant lui.

2026-06-19//6 min

DEFENSE LOW NEW

Cordon : un confinement transactionnel pour les agents LLM outillés

Un papier arXiv du 16 juin 2026 propose des 'transactions sémantiques' : un runtime qui met en attente les effets irréversibles d'un agent et valide tout le flux de la tâche avant de committer.

2026-06-19//6 min

AGENTS CRITICAL NEW

CVE-2026-26268 : l'agent de Cursor transforme un git checkout en exécution de code

Un dépôt malveillant cache un dépôt Git « bare » doté d'un hook automatique. Quand l'agent IA de Cursor lance git checkout pour « expliquer le code », le hook se déclenche — exécution de code arbitraire sur la machine du développeur, sans confirmation. Corrigé dans Cursor 2.5.

2026-06-19//6 min

INDIRECT INJECTION MEDIUM NEW

Injection par le canal d'erreur : quand les messages d'erreur des outils font autorité

Un papier de juin 2026 (VATS) montre qu'injecter des instructions dans les messages d'erreur des outils triple le taux de réussite de l'injection indirecte sur les agents de pointe — jusqu'à 100 % de conformité — car les modèles traitent la sortie d'erreur comme faisant autorité.

2026-06-19//6 min

GOVERNANCE MEDIUM NEW

Prévision de mi-année du FIRST : ~66 000 CVE en 2026, mais le risque exploitable reste stable

Le 15 juin 2026, le FIRST a révisé sa projection 2026 à ~66 000 CVE — 46,3 % au-dessus de février — porté surtout par la découverte assistée par IA. Le sous-ensemble actionnable trié via EPSS et CISA KEV n'a pas progressé au même rythme.

2026-06-19//6 min

INFRASTRUCTURE MEDIUM NEW

Path traversal dans LangChain Core : load_prompt lit des fichiers arbitraires

CVE-2026-34070 permet à une config de prompt forgée de parcourir le système de fichiers via load_prompt et d'exposer des secrets .txt/.json/.yaml. Divulguée le 27 mars 2026, corrigée dans langchain-core 1.2.22.

2026-06-19//6 min

SUPPLY CHAIN MEDIUM NEW

MalTool : quand une IA écrit l'outil malveillant que votre agent installe

Des chercheurs ont synthétisé 6 487 outils d'agent malveillants fonctionnels à l'aide d'un LLM de code. VirusTotal en a manqué la majorité. La leçon : le scan par signatures est le mauvais contrôle pour la chaîne d'approvisionnement des outils d'agents.

2026-06-19//7 min

AGENTS MEDIUM NEW

CSRF du SDK Go MCP : une page web peut déclencher vos outils locaux (CVE-2026-33252)

Le SDK Go MCP officiel acceptait des POST cross-site du navigateur sans vérifier l'en-tête Origin. Sur un serveur local sans authentification, n'importe quel site visité pouvait invoquer vos outils. Corrigé en 1.4.1.

2026-06-19//6 min

INDIRECT INJECTION MEDIUM NEW

Le local n'est pas plus sûr : l'injection indirecte frappe LLM locaux et cloud

Les travaux de Brave du 8 juin 2026 montrent que l'injection de prompt indirecte fonctionne à l'identique contre un agent cloud (Mozilla Tabstack) et un autocomplétion sur appareil (Cotypist) : l'hébergement local n'est pas une mitigation.

2026-06-19//6 min

DATA POISONING MEDIUM NEW

Oracle poisoning : corrompre le graphe de connaissances sur lequel raisonne un agent

Un article publié sur arXiv le 10 mai 2026 définit l'Oracle Poisoning : corrompez le graphe de connaissances qu'un agent interroge à l'exécution et il tire de fausses conclusions par un raisonnement correct. Sur neuf modèles, la confiance dans les données empoisonnées a atteint 100 % en requêtes agentiques dirigées.

2026-06-19//6 min

RESEARCH MEDIUM NEW

Sécuriser le RAG : quatre surfaces d'attaque le long du pipeline d'accès au savoir

Une étude de juin 2026 recadre la sécurité du RAG autour de l'accès au savoir externe, séparant les failles propres aux LLM du risque introduit par le RAG sur quatre surfaces et trois frontières de confiance.

2026-06-19//7 min

ADVERSARIAL MEDIUM NEW

Rapid Poison : quand une défense anti-jailbreak devient une surface d'attaque

Un papier arXiv du 15 juin 2026 montre que l'étape de prolifération des défenses Rapid Response peut être empoisonnée à un taux de 1 %, forçant jusqu'à 100 % de faux positifs ou 96 % de faux négatifs dans le classifieur.

2026-06-19//8 min

AGENTS CRITICAL NEW

CVE-2026-26030 : l'injection de prompt devient RCE dans Microsoft Semantic Kernel

L'AI Red Team de Microsoft a montré deux failles de Semantic Kernel qui transforment un simple prompt injecté en exécution de code sur l'hôte. La leçon : tout paramètre d'outil influençable par le modèle est une entrée contrôlée par l'attaquant. Corrigé le 7 mai 2026.

2026-06-19//6 min

INFRASTRUCTURE MEDIUM NEW

La couche de service est la surface d'attaque : bugs de concurrence dans vLLM et SGLang

Un fuzzer de mai 2026, GRIEF, traite des traces de requêtes concurrentes comme entrées et trouve 15 bugs (2 CVE) dans vLLM et SGLang : contamination de sortie entre requêtes, déni de service « voisin bruyant » et crashs différés — sans entrée malformée.

2026-06-19//8 min

AGENTS MEDIUM NEW

SkillAttack : un red-teaming automatisé trouve des exploits dans les skills d'agents

Un papier d'avril 2026, SkillAttack, reformule la découverte d'exploits comme un problème de recherche de chemin et montre que même des skills bien intentionnés sont atteignables — jusqu'à 0,93 de taux de succès sur les skills adverses.

2026-06-19//6 min

RESEARCH MEDIUM NEW

Le GAP : un modèle peut refuser en texte et exécuter la même action via un outil

Un benchmark de février 2026 sur six modèles de pointe montre que la sécurité du texte ne se transfère pas aux appels d'outils. Un modèle peut dire non en mots pendant que query_records() dit oui — un modèle le fait dans quatre refus sur cinq.

2026-06-19//8 min

AGENTS MEDIUM NEW

Attaques médiées par l'utilisateur : quand l'utilisateur devient le canal d'injection

Une étude de janvier 2026 sur 12 agents commerciaux montre que l'attaquant n'a pas besoin de toucher l'agent. Il piège un utilisateur de bonne foi pour qu'il relaie un contenu empoisonné — que la hiérarchie d'instructions promeut alors au rang d'intention utilisateur de confiance. Taux de contournement par défaut supérieur à 92 %.

2026-06-19//7 min

JAILBREAK MEDIUM NEW

Les jailbreaks adaptatifs continuent de percer les défenses LLM : le vrai problème, c'est l'évaluation

Un framework de juin 2026, UniAttack, compose des « caractéristiques » d'attaque réutilisables en jailbreaks one-shot qui se transfèrent d'un modèle et d'une défense à l'autre — preuve qu'une défense testée seulement contre des attaques statiques offre une fausse assurance.

2026-06-18//6 min

RESEARCH MEDIUM NEW

Pourquoi les défenses des agents LLM ne se composent pas : leçons de 247 papers

Une revue systématique de juin 2026 portant sur 247 papers conclut que les défenses des agents sont des briques utiles mais faiblement composables, et que les benchmarks ignorent encore le risque persistant et de long terme.

2026-06-18//7 min

RESEARCH MEDIUM NEW

Vers des agents LLM sûrs : un SoK de 247 papiers qui repense la sécurité des agents comme un problème système

Une étude arXiv du 9 juin 2026 portant sur 247 papiers replace la sécurité des agents LLM sur la boucle agentique : des défenses qui marchent isolément mais se composent mal, et des benchmarks aveugles au risque long et à état.

2026-06-18//7 min

RESEARCH MEDIUM NEW

Où entrent vraiment les attaques contre les agents : une cartographie issue de 247 papers

Une étude de juin 2026 portant sur 247 papers mesure où atterrissent les attaques contre les agents LLM. Le prompt utilisateur n'est qu'une surface parmi d'autres — les canaux médiatisés (contenu web, sorties d'outils) dominent.

2026-06-18//8 min

RESEARCH LOW NEW

Géométrie comportementale : prédire la vulnérabilité au jailbreak dans une population de modèles

Un papier arXiv du 26 mai 2026 cartographie 79 modèles dans une « géométrie comportementale » pour prédire lesquels sont sensibles au jailbreak — avec 98 % de sondes en moins — et transférer les défenses entre eux.

2026-06-18//6 min

ADVERSARIAL MEDIUM NEW

Black-Hole Attack : empoisonner une base vectorielle via la géométrie des embeddings

Un papier du 7 avril 2026 montre que quelques vecteurs placés près du centroïde sont remontés dans jusqu'à 99,85 % des top-10 — un empoisonnement de base vectorielle indépendant des requêtes et du modèle.

2026-06-18//6 min

AGENTS MEDIUM NEW

Les agents navigateurs trahissent leur modèle par leur façon de cliquer

Un papier du 14 mai 2026 montre que les actions d'un agent navigateur LLM sur une page suffisent à identifier le modèle sous-jacent, avec jusqu'à 96 % de précision sur 14 modèles de pointe — sans en-têtes falsifiables.

2026-06-18//6 min

AGENTS MEDIUM NEW

AI Agent Traps : la cartographie en six catégories de DeepMind sur le détournement des agents par le web

Le papier « AI Agent Traps » de Google DeepMind (SSRN, fin mars 2026) propose la première taxonomie systématique des contenus web adverses qui ciblent la perception, le raisonnement, la mémoire, l'action, la dynamique multi-agents et le superviseur humain d'un agent.

2026-06-18//7 min

DEFENSE MEDIUM NEW

DoubtProbe : détecter les jailbreaks qui réorganisent l'intention

Un papier de juin 2026 propose une défense à l'inférence qui traite la détection de jailbreak comme un contrôle de cohérence : on reconstruit la requête sous contraintes structurelles, puis on signale les prompts dont le sens ne survit pas à l'aller-retour.

2026-06-18//6 min

RESEARCH LOW NEW

Provenance d'exécution des agents LLM : tracer les preuves pour rétablir la confiance

Une étude arXiv de juin 2026 (2606.04990) systématise le traçage de preuves et la provenance d'exécution des agents LLM — la couche de responsabilité qui permet d'auditer, déboguer et vérifier ce qu'un agent a réellement fait.

2026-06-18//7 min

DATA LEAK MEDIUM NEW

Ghost tool calls : l'exécution spéculative des agents fuite l'intention de l'utilisateur

Un papier arXiv de juin 2026 (2606.02483) montre que les agents qui pré-émettent spéculativement des appels d'outils pour masquer la latence fuitent l'intention déduite de l'utilisateur vers des services externes — et que c'est un problème de timing qu'aucune allow-list n'annule.

2026-06-18//6 min

INFRASTRUCTURE CRITICAL NEW

LiteLLM CVE-2026-49468 : un contournement d'authentification par en-tête Host dans le routage de la passerelle

Divulguée le 17 juin 2026, CVE-2026-49468 permet à un en-tête Host forgé de désynchroniser la route d'auth de LiteLLM de celle exécutée par FastAPI — une rechute de BadHost au niveau applicatif, corrigée dans LiteLLM 1.84.0.

2026-06-18//6 min

INFRASTRUCTURE CRITICAL NEW

LiteLLM CVE-2026-47101→40217 : d'un compte limité à l'admin et au RCE

Obsidian Security a divulgué (juin 2026) une chaîne de trois failles LiteLLM qui fait passer un utilisateur peu privilégié à proxy_admin puis à l'exécution de code — une prise de contrôle CVSS 9.9 de la passerelle IA.

2026-06-18//7 min

SUPPLY CHAIN MEDIUM NEW

Secret Stealing : du code de modèle piégé exfiltre vos données de fine-tuning

Un papier du 30 avril 2026 montre qu'un code de modèle altéré — et non des poids empoisonnés — peut voler clés d'API et données personnelles dans un fine-tuning local, avec >98 % de récupération, en contournant DP-SGD et les audits.

2026-06-18//6 min

MULTIMODAL MEDIUM NEW

Sirens' Whisper : des jailbreaks inaudibles en quasi-ultrasons contre les LLM vocaux

Un article du 14 mars 2026 (Huazhong, Tsinghua, Microsoft) dissimule des prompts de jailbreak dans la bande 17–22 kHz. La non-linéarité du micro les redémodule en commandes — silencieux pour l'humain, jusqu'à 0,94 de non-refus sur des LLM vocaux commerciaux.

2026-06-18//8 min

DEFENSE MEDIUM NEW

SafeMCP : filtrer l'acquisition d'outils pour contenir la quête de pouvoir des agents MCP

Un papier arXiv du 1er juin 2026 (ACL 2026) propose SafeMCP, un plugin côté serveur qui utilise un raisonnement anticipatif par modèle du monde pour filtrer l'acquisition d'outils dangereux avant qu'un agent MCP n'étende ses pouvoirs.

2026-06-18//6 min

AGENTS MEDIUM NEW

SearchGEO : faire recommander des pages d'attaquant par les agents de recherche LLM

Un papier arXiv du 15 juin 2026 mesure comment un contenu web contrôlé par un attaquant devient une recommandation endossée par l'agent — le taux de succès va de 0 % à 31,4 % selon le modèle.

2026-06-18//6 min

AGENTS MEDIUM NEW

ShadowMerge : empoisonner la mémoire-graphe des agents par collision de relations

Un papier de mai 2026 empoisonne la mémoire-graphe d'un agent avec des relations qui partagent un ancrage et un canal réels mais portent une valeur contradictoire — 93,8 % de réussite sur Mem0, et les filtres en entrée passent à côté.

2026-06-18//6 min

DEFENSE MEDIUM NEW

SkillVetBench : un LLM-juge qui voit ce que les scanners de skills ratent

Un papier arXiv du 14 juin 2026 montre que les scanners de skills au niveau code ratent 89 à 100 % des menaces au niveau instruction, là où un LLM-juge détecte les 78 skills malveillantes de test sans aucun faux positif.

2026-06-18//7 min

DATA LEAK MEDIUM NEW

Inférence d'appartenance via le tokenizer d'un LLM : un nouveau vecteur

Un papier USENIX Security 2026 montre que le seul tokenizer d'un modèle peut révéler quels jeux de données ont servi au pré-entraînement — une attaque par inférence d'appartenance moins chère et sans modèle.

2026-06-18//6 min

DEFENSE MEDIUM NEW

La triade létale est devenue la norme — défendez les agents à l'exécution

La triade létale signalait jadis les agents à risque. Mi-2026, elle décrit tout agent utile : l'évitement architectural ne suffit plus. La défense se déplace vers cinq signaux comportementaux à l'exécution.

2026-06-18//6 min

AGENTS MEDIUM NEW

Agents zombies : quand un agent LLM auto-évolutif reste compromis d'une session à l'autre

Une injection indirecte ponctuelle, observée pendant une session anodine, peut être écrite dans la mémoire longue de l'agent puis rejouée comme instruction — transformant un prompt éphémère en contrôle persistant. Article d'attaque daté de février 2026, défense (CAMS) de mai 2026.

2026-06-18//8 min

AGENTS CRITICAL NEW

Agents de code IA : les attaquants visent le credential, pas le modèle

Six exploits de 2026 contre Codex, Claude Code, Copilot et Vertex AI ont tous contourné les défenses au niveau du modèle pour atteindre la même cible : les credentials d'exécution de l'agent. La cause profonde est un défaut de gouvernance des identités, pas un problème de prompt.

2026-06-17//7 min

RESEARCH MEDIUM NEW

Le « cold-start safety gap » : l'agent est le moins sûr au tout premier tour

Un papier de juin 2026 montre que les agents à outils sont les plus vulnérables au début d'une session et gagnent 9 à 52 % de sûreté après quelques tâches anodines. Le correctif est un « échauffement » au déploiement, pas un nouveau garde-fou.

2026-06-17//6 min

DEFENSE MEDIUM NEW

Backdoors leurres : supprimer les backdoors LLM inconnues via des mécanismes internes partagés

Un article de juin 2026 supprime des backdoors invisibles en en plantant une visible : différentes backdoors partagent des motifs d'activation internes, donc effacer un « leurre » contrôlé affaiblit aussi l'inconnue.

2026-06-17//6 min

GOVERNANCE MEDIUM NEW

AI Act : comment les lignes directrices classent les systèmes agentiques en haut risque

Les lignes directrices de la Commission européenne du 19 mai 2026 sur l'article 6 imposent d'évaluer un système agentique dans son ensemble — un seul composant accessoire peut faire basculer toute la configuration en haut risque.

2026-06-17//6 min

AGENTS MEDIUM NEW

FragFuse : des requêtes fragmentées qui contournent le contrôle d'accès des agents LLM

Un papier arXiv du 14 juin 2026 montre qu'une requête interdite peut être découpée en fragments anodins, stockée dans la mémoire longue de l'agent, puis recomposée à la lecture — contournant les contrôles d'accès dans 86,3 % des cas.

2026-06-17//6 min

AGENTS MEDIUM NEW

Déni de service par extension de raisonnement : quand le garde-fou IA devient la surface d'attaque

Un papier de juin 2026 montre qu'un seul document piégé peut enfermer un garde-fou IA à base de raisonnement dans une boucle de réflexion sans fin, ralentissant les workflows d'agents jusqu'à 148x. La cible : la disponibilité, pas l'intégrité.

2026-06-17//6 min

JAILBREAK MEDIUM

IICL : la complétion de motif bat l'alignement avec 10 exemples

Un papier arXiv d'avril 2026 retourne l'apprentissage en contexte contre le modèle : une dizaine d'exemples à base d'opérateurs abstraits font compléter à GPT-5.4 un motif nuisible que ses filtres de contenu ne détectent jamais.

2026-06-17//7 min

RESEARCH MEDIUM NEW

La « taxe de jailbreak » s'évanouit sur les modèles de pointe — et invalide une hypothèse de sécurité

Une étude d'avril 2026 montre que la perte de capacité causée par un jailbreak diminue à mesure que les modèles progressent : Haiku 4.5 chute de 33,1 %, Opus 4.6 de seulement 7,7 %. Les analyses de risque qui supposent qu'un modèle jailbreaké est dégradé ne tiennent plus.

2026-06-17//6 min

AGENTS CRITICAL NEW

Checkpointers LangGraph : de l'injection SQL au RCE sur agents auto-hébergés

Check Point Research a enchaîné une injection SQL dans le checkpointer de LangGraph avec une désérialisation msgpack non sécurisée pour atteindre l'exécution de code à distance. Divulgué le 11 juin 2026 ; les trois CVE sont corrigées.

2026-06-17//7 min

SUPPLY CHAIN CRITICAL NEW

LiteLLM piégé : quand un scanner CI corrompu prend le contrôle de la passerelle LLM

En mars 2026, des attaquants ont volé le jeton de publication PyPI de LiteLLM en compromettant Trivy dans son pipeline CI, puis ont diffusé deux versions piégées. La chaîne montre pourquoi la passerelle LLM est une cible de choix.

2026-06-17//7 min

DATA LEAK MEDIUM NEW

Canaux auxiliaires sur l'inférence LLM : vos prompts fuient malgré TLS

Le décodage spéculatif et les réponses en streaming créent des motifs de trafic qui révèlent le sujet d'un prompt, sa langue, parfois des données personnelles — à travers des connexions chiffrées. Tour d'horizon de trois papers et des défenses.

2026-06-17//7 min

INDIRECT INJECTION CRITICAL NEW

LogJack : les logs cloud, canal d'injection de prompt contre les agents de débogage

Un benchmark d'avril 2026 montre que les agents de débogage LLM qui lisent les logs cloud et exécutent des correctifs obéissent aux instructions cachées dans les lignes de log — exécution verbatim jusqu'à 86,2 %, RCE sur 6 modèles sur 8, et des garde-fous fournisseurs qui ne détectent presque rien.

2026-06-17//6 min

AGENTS MEDIUM NEW

Empoisonnement de terminaison : piéger un agent LLM dans des boucles infinies

Un papier arXiv de mai 2026 montre qu'une injection peut fausser le jugement de fin de tâche d'un agent et provoquer un calcul sans borne. Le framework LoopTrap rapporte jusqu'à 25x d'amplification.

2026-06-17//6 min

ADVERSARIAL MEDIUM NEW

M3Att : empoisonnement de RAG médical multimodal sans connaître les requêtes

Un papier de mai 2026 empoisonne un RAG médical image-texte sans connaître à l'avance les requêtes des utilisateurs. Des perturbations d'image imperceptibles détournent la récupération ; un texte guidé par l'ambiguïté clinique échappe à l'autocorrection du modèle — et les défenses de pré-filtrage n'y changent presque rien.

2026-06-17//7 min

DEFENSE MEDIUM NEW

Détecter les attaques dans le trafic d'appels d'outils : le contenu prime

Une étude arXiv de mai 2026 sur la supervision des appels d'outils MCP montre que les embeddings de contenu portent la détection (AUROC > 0,89), que la structure de graphe apporte peu, et que les splits aléatoires gonflent les scores jusqu'à 26 points.

2026-06-17//6 min

INDIRECT INJECTION MEDIUM NEW

MIRAGE : les agents GUI mobiles trompés par du contenu utilisateur injecté

Une étude de mai 2026 montre que les agents GUI mobiles fondés sur des VLM ne distinguent pas l'interface de confiance du contenu utilisateur. Du texte réaliste injecté dans des commentaires détourne les cinq agents testés (23–30 % de réussite).

2026-06-17//6 min

RESEARCH MEDIUM NEW

Les garde-fous anti-fine-tuning des modèles ouverts cèdent à des attaques sans gradient

Une étude CMU de mai 2026 montre que des garde-fous résistants à l'altération comme TAR et SEAM — conçus pour survivre au fine-tuning malveillant — sont contournés par deux attaques bon marché et sans gradient : l'abliteration et le prefilling.

2026-06-17//6 min

RESEARCH MEDIUM NEW

Red teaming Quality-Diversity : pourquoi un seul score de jailbreak masque toute une carte de failles

Deux papers de juin 2026 appliquent la recherche évolutionnaire Quality-Diversity au red teaming des LLM : ils révèlent de nombreuses classes de vulnérabilités distinctes par modèle plutôt qu'une seule « meilleure » attaque, et montrent que la sûreté peut régresser d'une génération de modèle à l'autre.

2026-06-17//7 min

PROMPT INJECTION MEDIUM NEW

Reprompt : exfiltration en un clic depuis Copilot Personal via prompt prérempli dans l'URL

Une faille corrigée de Copilot Personal enchaînait un prompt prérempli dans l'URL, un garde-fou qui ne vérifiait que la première requête, et des relances pilotées par serveur, pour une exfiltration furtive en un clic. Les leçons de contournement sont générales.

2026-06-17//6 min

DEFENSE LOW NEW

RUBAS : un signal de récompense fin pour la sûreté des agents par RL à grilles

Un papier de juin 2026 remplace la récompense binaire refus/exécution par quatre grilles notées — usage d'outil, arguments, réponse, utilité — pour entraîner des agents qui restent sûrs sans perdre en utilité.

2026-06-17//5 min

SUPPLY CHAIN MEDIUM NEW

Semantic Compliance Hijacking : des skills d'agent sans payload, invisibles aux scanners

Un papier arXiv du 14 mai 2026 montre qu'un fichier de skill sans code ni intention malveillante explicite peut amener un agent de code à écrire lui-même son malware à l'exécution — avec un taux de détection de 0,00 %.

2026-06-17//6 min

DEFENSE LOW NEW

SkillGuard : un cadre de permissions pour ce qu'une skill d'agent peut faire à l'exécution

Un papier de juin 2026 comble l'écart entre ce qu'une skill injecte dans le contexte d'un agent et ce qu'elle lui fait faire, via des manifestes, un contrôle d'accès deny-by-default et de la surveillance à l'exécution.

2026-06-17//6 min

RESEARCH MEDIUM NEW

La sécurité des agents se joue dans les transitions, pas dans les composants

Une synthèse de juin 2026 portant sur 247 articles recadre la sécurité des agents LLM autour des transitions d'état : le danger survient quand un texte non fiable devient silencieusement un plan, une décision, une action ou une mémoire durable.

2026-06-16//7 min

INDIRECT INJECTION CRITICAL NEW

Agentjacking : de faux bugs Sentry détournent les agents de code via MCP

La recherche de Tenet Security (juin 2026) montre qu'un attaquant peut injecter une fausse erreur Sentry que les agents de code lisent via MCP et exécutent, exfiltrant des secrets avec 85 % de réussite sur 2 388 organisations exposées.

2026-06-16//8 min

GOVERNANCE MEDIUM NEW

Des dirigeants de l'IA demandent au Congrès de rendre obligatoire le criblage de la synthèse d'ADN

Le 5 juin 2026, les patrons d'OpenAI, Anthropic, Google DeepMind et Microsoft AI ont cosigné une lettre exhortant le Congrès à imposer le criblage de la synthèse d'acides nucléiques — présenté comme un contrôle défensif face à l'érosion des barrières par l'IA.

2026-06-16//6 min

GOVERNANCE MEDIUM NEW

Divulgation à la vitesse machine : leçons du premier registre de vulnérabilités IA

Le registre de divulgation coordonnée d'Anthropic, analysé par VulnCheck le 9 juin 2026, montre l'IA remontant 23 019 bugs candidats quand seuls 1 596 atteignent les mainteneurs — un aperçu de la divulgation à l'ère de la découverte automatisée.

2026-06-16//8 min

INDIRECT INJECTION MEDIUM NEW

Cross-App Context Poisoning : une app ChatGPT malveillante peut piloter les autres

Une étude arXiv de juin 2026 montre qu'une app ChatGPT malveillante peut écrire dans le contexte de conversation partagé par toutes les apps connectées via des API first-party, transformant le modèle en député confus.

2026-06-16//6 min

AGENTS MEDIUM NEW

Systèmes multi-agents LLM cross-domaine : sept défis de sécurité

Une Perspective publiée le 13 juin 2026 dans npj Artificial Intelligence cartographie sept défis de sécurité qui apparaissent lorsque des agents LLM de différentes organisations collaborent sans modèle de confiance commun.

2026-06-16//7 min

DEFENSE MEDIUM NEW

Les défenses par provenance de la mémoire-graphe des agents sont aveugles par construction

Un article arXiv daté du 10 juin 2026 montre que les contrôles de provenance sur la mémoire-graphe des LLM se contournent sans falsifier aucune source : une écriture de structure non fiable change quels faits authentifiés sont sélectionnés, et le contrôle de flux d'information ne le voit jamais.

2026-06-16//6 min

DATA LEAK MEDIUM NEW

GraphSteal : reconstruire un graphe de connaissances privé depuis un Graph RAG

Un article publié le 27 mai 2026 montre que de simples requêtes en boîte noire transforment un système Graph RAG en oracle structurel, reconstruisant plus de 90 % de son graphe de connaissances caché.

2026-06-16//6 min

SUPPLY CHAIN MEDIUM NEW

HAMLOCK : une porte dérobée partagée entre le modèle et la puce

Un article USENIX Security 2026, médiatisé le 15 juin 2026, scinde une porte dérobée entre le logiciel et le silicium : le modèle seul ne se trompe jamais, et les scanners logiciels comme Neural Cleanse ou MNTD ne voient rien.

2026-06-16//7 min

INFRASTRUCTURE CRITICAL NEW

Langflow CVE-2026-5027 : écriture de fichier non authentifiée vers RCE, déjà exploitée

Un path traversal dans l'endpoint /api/v2/files de Langflow permet à une requête non authentifiée d'écrire un fichier n'importe où sur le disque. VulnCheck a confirmé l'exploitation active le 9 juin 2026 ; ~7 000 instances sont exposées.

2026-06-16//6 min

RESEARCH MEDIUM NEW

Preuve NIST : aucun garde-fou fini ne bloque tous les jailbreaks

Un scientifique du NIST applique la logique d'incomplétude de Gödel pour prouver que tout ensemble fini de garde-fous peut être contourné par un prompt — l'argument d'un modèle de sécurité en surveillance et mise à jour continues.

2026-06-16//7 min

DEFENSE MEDIUM NEW

La vie privée d'un agent est un problème de trajectoire : OCELOT budgétise la fuite par inférence à l'exécution

Un article arXiv daté du 10 juin 2026 redéfinit la vie privée des agents LLM comme un contrôle du risque a posteriori : non plus filtrer chaque sortie, mais budgétiser de combien la croyance d'un adversaire sur un secret peut progresser sur toute une trajectoire.

2026-06-16//6 min

JAILBREAK MEDIUM NEW

Para-jailbreaking : quand la « safe completion » fuit le danger dans l'alternative

Un papier arXiv du 27 avril 2026 nomme un nouveau mode de défaillance de la sûreté centrée sur la sortie : le modèle refuse correctement la question directe, mais laisse fuir du contenu nuisible dans l'« alternative sûre » qu'il propose à la place.

2026-06-16//7 min

DEFENSE MEDIUM NEW

Parallax : placer la sécurité des agents dans l'architecture, pas dans le prompt

Un position paper publié le 14 avril 2026 soutient que les garde-fous au niveau du prompt s'effondrent dès que le raisonnement d'un agent est compromis, et propose de séparer structurellement ce qui pense de ce qui agit.

2026-06-16//8 min

DATA LEAK MEDIUM NEW

MEntA : inférence d'appartenance sur un corpus RAG en cinq requêtes

Un papier USENIX Security de mai 2026 montre qu'un attaquant peut déterminer si un document figure dans le corpus de récupération d'un RAG avec environ cinq questions en langage naturel — sans modèle fantôme, sans gabarit, et en résistant aux défenses actuelles.

2026-06-16//6 min

DATA LEAK MEDIUM NEW

Exposition des traces de raisonnement : masquer le chain-of-thought ne le protège pas

Un papier de mai 2026 montre qu'un simple prompt suffit à faire ressortir le chain-of-thought masqué d'un modèle de raisonnement — et que les traces récupérées suffisent à distiller un modèle plus petit.

2026-06-16//8 min

RESEARCH MEDIUM NEW

Directions d'évasion du refus : pourquoi l'alignement ne peut pas refermer la brèche des jailbreaks

Un papier de mai 2026 prouve que les LLM alignés conservent des « directions d'évasion du refus » inscrites dans leur structure d'opérateurs — ce qui explique la persistance des jailbreaks et le coût en utilité de leur suppression.

2026-06-16//8 min

RESEARCH MEDIUM NEW

SCONE-bench : chiffrer l'exploitation autonome par IA en dollars volés

L'étude d'Anthropic du 1er décembre 2025 mesure l'exploitation par agents IA en argent, pas en taux de réussite : sur des smart contracts, les modèles de pointe ont produit 4,6 M$ de vol simulé et deux vrais zero-days à 1,22 $ le scan.

2026-06-16//8 min

DATA LEAK MEDIUM NEW

SearchLeak (CVE-2026-42824) : un clic transforme M365 Copilot en proxy d'exfiltration

Varonis a publié le 15 juin 2026 les mécanismes de CVE-2026-42824 : un lien microsoft.com piégé enchaîne injection de prompt, course au rendu HTML et SSRF Bing pour voler mails et codes MFA. Corrigé côté serveur.

2026-06-16//7 min

DEFENSE LOW NEW

Architecturer des agents sûrs : une défense « plan et politique » contre l'injection de prompt

Un position paper de NVIDIA (31 mars 2026) soutient que l'injection de prompt indirecte ne se corrige pas au seul niveau du modèle — et propose une architecture « plan et politique » qui contraint ce qu'un agent peut observer et décider.

2026-06-16//6 min

DEFENSE LOW NEW

Skills d'agent vérifiés : gouvernance des capacités pour la chaîne SKILL.md

Les skills d'agent vérifiés de NVIDIA (19 mai 2026) ajoutent scan de risques, signature cryptographique et fiches de skill lisibles par machine à la chaîne SKILL.md — une réponse défensive aux skills empoisonnés.

2026-06-16//6 min

RESEARCH MEDIUM NEW

Un modèle sûr n'est pas un agent sûr : les leçons du benchmark ClawSafety

Un benchmark d'avril 2026 exécute 2 520 essais en bac à sable sur des agents IA personnels et mesure des taux de réussite d'attaque de 40 à 75 %. Les variables décisives sont le canal d'injection et le framework de l'agent — pas seulement le modèle sous-jacent.

2026-06-15//6 min

DEFENSE MEDIUM

Confidential Computing et IA agentique : ce que les enclaves ne protègent pas

Une étude de mai 2026 projette le confidential computing sur la pile agentique : les enclaves matérielles protègent la mémoire et le cache KV d'un opérateur cloud malveillant, mais n'arrêtent pas la prompt injection.

2026-06-15//6 min

ADVERSARIAL MEDIUM NEW

CRCP : l'empoisonnement de corpus RAG qui survit au chunking et au reranking

Un article arXiv du 9 juin 2026 montre que beaucoup d'attaques par empoisonnement de corpus échouent discrètement après le reranking — et propose CRCP, une variante "chunk-aware" conçue pour survivre aux pipelines RAG réalistes. La leçon porte sur la façon d'évaluer, pas seulement de défendre.

2026-06-15//6 min

RESEARCH LOW NEW

Cyber Defense Benchmark : les LLM de pointe échouent au threat hunting

Un benchmark d'avril 2026 lâche cinq modèles de pointe dans des logs Windows bruts et leur demande de chasser. Le meilleur trouve 3,8 % des événements malveillants — aucun n'atteint le seuil d'un SOC autonome.

2026-06-15//6 min

GOVERNANCE MEDIUM NEW

Quand un État retire un modèle : la suspension de Fable 5 / Mythos 5

Le 12 juin 2026, une directive de contrôle des exportations américaine a contraint Anthropic à désactiver Claude Fable 5 et Mythos 5 dans le monde entier. Le déclencheur invoqué : un « jailbreak » qui revient à demander au modèle de lire du code et d'en corriger les failles — une tâche défensive quotidienne.

2026-06-15//7 min

AGENTS CRITICAL NEW

Flowise CVE-2026-41264 : du code pandas écrit par le LLM jusqu'au RCE

Une prompt injection dans l'agent CSV de Flowise pousse le modèle à produire du Python qui échappe à une liste noire d'expressions régulières et exécute des commandes OS. Divulguée le 15 avril 2026, corrigée en 3.1.0.

2026-06-15//6 min

INDIRECT INJECTION MEDIUM NEW

Profondeur d'injection dans les agents ReAct : la position prime sur la formulation

Une étude de juin 2026 sur les agents ReAct à appels d'outils montre que c'est la profondeur d'injection — pas la rhétorique — qui pilote l'injection indirecte : 60 % de réussite au premier appel d'outil, 0 % au quatrième.

2026-06-15//6 min

DEFENSE MEDIUM NEW

Pourquoi les jailbreaks se transfèrent entre modèles — et comment le « salage » riposte

Une étude sur 20 modèles open-weight montre que le transfert des jailbreaks vient des représentations internes partagées, pas d'un défaut de l'alignement. Une défense appelée LLM salting fait pivoter la direction de refus pour casser la réutilisation.

2026-06-15//6 min

SUPPLY CHAIN CRITICAL NEW

ktransformers : RCE non authentifiée via pickle sur ZeroMQ (CVE-2026-26210)

Une RCE critique dans le moteur d'inférence ktransformers expose un socket ZMQ sur toutes les interfaces et déserialise via pickle tout ce qu'il reçoit. C'est le dernier cas du motif « ShadowMQ » recopié à travers les stacks d'inférence IA.

2026-06-15//6 min

RESEARCH MEDIUM NEW

La confidentialité des LLM n'est pas un risque unique : par quoi commencer

Une étude de mai 2026 mesure inférence d'appartenance, inférence d'attribut, extraction de données et portes dérobées sous un même modèle de menace. Conclusion : la fuite dépend de vos choix de conception — taille, duplication des données, configuration RAG — plus que de l'attaque.

2026-06-15//7 min

DEFENSE MEDIUM NEW

L'injection de prompt n'est pas résolue — contenez-la à la vitesse machine

À l'Infosecurity Europe 2026, Ariel Fogel (OWASP) a qualifié l'injection de prompt de problème architectural non résolu et plaidé pour un passage de la prévention au confinement à l'exécution, aussi rapide que l'agent.

2026-06-15//6 min

SUPPLY CHAIN CRITICAL NEW

Routeurs d'API LLM malveillants : l'homme du milieu non surveillé des agents

Une étude de l'UC Santa Barbara (arXiv, 9 avril 2026) a mesuré 428 routeurs d'API LLM tiers : plusieurs injectaient du code, volaient des identifiants et ont vidé un portefeuille crypto — depuis une frontière de confiance que les développeurs configurent volontairement.

2026-06-15//7 min

SUPPLY CHAIN MEDIUM NEW

MalSkillBench : on ne sait pas mesurer les détecteurs de skills malveillants, car les jeux de test sont biaisés

Un article de juin 2026 construit le premier benchmark à vérification d'exécution des skills d'agent malveillants — 3 944 échantillons sur 108 cellules d'attaque — et montre que le rappel d'un même détecteur peut varier de 66 points selon le jeu de données utilisé.

2026-06-15//7 min

AGENTS CRITICAL NEW

CVE-2026-46519 : quand un serveur MCP filtre les outils à l'affichage mais pas à l'exécution

mcp-server-kubernetes n'appliquait ses contrôles read-only et allow-list que dans tools/list, jamais dans tools/call. Tout client connaissant le nom d'un outil pouvait l'exécuter. Une leçon nette sur l'autorisation à l'affichage vs à l'exécution.

2026-06-15//6 min

AGENTS CRITICAL NEW

Le DNS rebinding transforme les serveurs MCP en localhost en surface d'attaque distante

Une vague de divulgations coordonnées 2025–2026 a touché tous les grands SDK MCP pour une même cause racine : des serveurs HTTP en localhost qui ne valident pas l'en-tête Host/Origin. La plus récente, CVE-2026-11624 dans le MCP Toolbox de Google (13 juin 2026), est notée Critique 9,4.

2026-06-15//7 min

DEFENSE MEDIUM NEW

Pourquoi les détecteurs d'injection de prompt échouent : le problème d'évasion en 2026

Des classifieurs par mots-clés aux sondes de dérive d'activation, les détecteurs d'injection de prompt partagent une faiblesse : l'adversaire adaptatif. Deux études rapportent jusqu'à ~100 % d'évasion. La détection est une couche, jamais la frontière.

2026-06-15//7 min

DEFENSE LOW NEW

SafeHarbor : un garde-fou à mémoire hiérarchique qui s'attaque au sur-refus des agents

Accepté à ICML 2026, SafeHarbor est un garde-fou sans réentraînement qui injecte des règles de sécurité contextuelles depuis un arbre de risques auto-évolutif — 63,6 % d'utilité bénigne sur GPT-4o tout en refusant plus de 93 % des attaques.

2026-06-15//6 min

RESEARCH LOW NEW

SEC-bench Pro : les agents IA savent-ils vraiment chasser les bugs dans V8 et SpiderMonkey ?

Un benchmark du 26 mai 2026 mesure les agents de code sur la découverte de vulnérabilités au long cours dans de vrais moteurs de navigateur. Les modèles de pointe restent sous 40 % — et l'écart compte autant pour l'attaque que pour la défense.

2026-06-15//6 min

AGENTS MEDIUM NEW

Le serveur MCP de Splunk journalise les jetons d'auth en clair (CVE-2026-20205)

L'app Splunk MCP Server écrivait les jetons de session et d'autorisation des utilisateurs en clair dans l'index _internal — une faille CWE-532 (secrets dans les logs) qui transforme l'accès aux journaux en vol de jetons. Corrigé en v1.0.3.

2026-06-15//6 min

AGENTS MEDIUM NEW

TOCTOU dans les agents IA : violations d'atomicité entre observation et action

Une vieille faille des systèmes d'exploitation refait surface dans les agents : le monde change entre le moment où l'agent regarde et celui où il agit. Des travaux de 2026 la formalisent pour les agents GUI, navigateur et multi-agents.

2026-06-15//6 min

SUPPLY CHAIN MEDIUM NEW

Quand le #1 des tendances est un malware : le typosquat Hugging Face Open-OSS/privacy-filter

Le 7 mai 2026, HiddenLayer a trouvé Open-OSS/privacy-filter, un typosquat du modèle d'OpenAI arrivé en tête des tendances Hugging Face avec ~244 000 téléchargements en 18 heures, qui livrait un infostealer Rust.

2026-06-15//6 min

RESEARCH MEDIUM NEW

XL-SafetyBench : tester la sûreté des LLM dans 10 pays, pas seulement en anglais

Un papier arXiv du 7 mai 2026 (AIM Intelligence et l'AI Red Team de Microsoft) montre que les tests de sûreté anglo-centrés ratent les risques propres à chaque pays — et que la « sûreté » de beaucoup de modèles n'est qu'un refus par accident.

2026-06-15//7 min

JAILBREAK MEDIUM NEW

Jailbreak vidéo multi-clips : pourquoi la vidéo casse la sûreté des LLM multimodaux

Un papier ACL de juin 2026 montre que le canal vidéo est une frontière de sûreté plus faible que l'image : le taux de réussite grimpe quand la vidéo est découpée en clips variés.

2026-06-14//7 min

DEFENSE MEDIUM NEW

SecureClaw : une défense à double frontière pour les agents LLM outillés

Un article de juin 2026 propose de garder deux frontières distinctes à la fois — autoriser les actions externes au point d'effet et confiner le texte en clair à la frontière de lecture — avec 0 % de réussite d'attaque sur un benchmark d'agents.

2026-06-14//6 min

RESEARCH LOW NEW

Injection neuro-prompt : quand le signal cérébral devient le canal d'autorisation d'un agent

Un papier arXiv du 8 juin 2026 nomme une nouvelle surface d'attaque : les pipelines BCI-vers-agent qui transforment l'EEG décodé en canal d'autorisation. Trois vecteurs inversent l'action routée pendant que les moniteurs EEG et texte restent aveugles.

2026-06-13//6 min

AGENTS MEDIUM NEW

ConVerse : quand deux agents discutent, c'est le plus fort qui fuit le plus

Un benchmark des conversations agent-à-agent montre que les attaques de confidentialité réussissent jusqu'à 88 % du temps, les atteintes de sécurité jusqu'à 60 % — et que les modèles les plus capables fuitent davantage, pas l'inverse.

2026-06-13//7 min

DEFENSE MEDIUM NEW

PI-Hunter : auditer les agents pour exposer et localiser les injections de prompt cachées

Un article de juin 2026 signé par des chercheurs de Google transforme le red-teaming d'injection de prompt en audit — PI-Hunter fait évoluer des cas de test ancrés dans la source pour révéler où une injection latente entre et se propage dans un agent, pas seulement si l'attaque réussit.

2026-06-13//6 min

RESEARCH MEDIUM NEW

SIGIL : prouver que votre texte a servi à entraîner un LLM

Un papier arXiv de juin 2026 propose d'insérer des canaris imperceptibles dans des textes et du code pour prouver, avec un taux de faux positifs contrôlé, qu'un modèle a été entraîné sur vos données.

2026-06-13//6 min

DEFENSE MEDIUM NEW

AgentDyn : pourquoi les défenses anti-injection brillantes sur benchmark échouent en conditions réelles

AgentDyn, un benchmark ICML de février 2026, teste dix défenses anti-injection de premier plan sur des tâches d'agent dynamiques et ouvertes. Presque toutes sont soit non sûres, soit surdéfensives au point d'être inutilisables.

2026-06-12//7 min

SUPPLY CHAIN MEDIUM NEW

Au-delà du tool poisoning : ce qu'un serveur MCP distant malveillant peut vraiment faire

Une étude du 21 mai 2026 cartographie toute la surface d'attaque des serveurs MCP distants malveillants sur ChatGPT, Claude Desktop et Gemini CLI — le filtrage côté hôte passe de 95 % à 50 % pour la même requête, et les attaques réussies ne sont presque jamais signalées.

2026-06-12//8 min

AGENTS MEDIUM NEW

Blanchiment de causalité : quand un appel d'outil refusé fuite quand même

Un article d'avril 2026 montre que refuser l'appel d'outil d'un agent ne met pas fin à l'attaque : le refus lui-même est un canal d'information. Le suivi de teinte à plat le manque.

2026-06-12//8 min

INFRASTRUCTURE CRITICAL NEW

ChromaToast : une RCE pré-auth dans la base vectorielle ChromaDB

La divulgation de HiddenLayer du 18 mai 2026 (CVE-2026-45829, CVSS 10.0) montre que le serveur Python de ChromaDB charge le modèle HuggingFace de l'attaquant et exécute son code avant même de vérifier l'authentification.

2026-06-12//7 min

AGENTS MEDIUM NEW

GitHub Action Claude Code : comment l'outil Read a fait fuiter des secrets CI/CD

Microsoft Threat Intelligence a découvert que l'outil Read de Claude Code Action contournait le scrub d'environnement de Bash pour lire /proc/self/environ, exposant l'ANTHROPIC_API_KEY du runner. Corrigé en v2.1.128.

2026-06-12//6 min

DATA LEAK MEDIUM NEW

L'injection continue de faire fuiter Copilot : deux nouveaux CVE de juin 2026

Le Patch Tuesday du 9 juin 2026 a livré CVE-2026-42824 et CVE-2026-47644 — deux failles de divulgation d'information de classe injection sur la surface Copilot, dans la lignée d'exfiltration ouverte par EchoLeak.

2026-06-12//6 min

DATA LEAK MEDIUM NEW

Fuite d'identifiants dans les skills d'agents LLM : une étude sur 17 000 skills

Une étude arXiv du 3 avril 2026 a analysé 17 022 skills d'agents et trouvé 520 fuites d'identifiants — 73,5 % via des logs de debug qui déversent les secrets directement dans le contexte du modèle.

2026-06-12//6 min

INDIRECT INJECTION MEDIUM NEW

DACSI : quand les documents récupérés falsifient les signaux de contrôle du système

Un papier du 8 juin 2026 nomme un mode de défaillance discret du RAG : du texte non fiable qui usurpe les signaux de métadonnées, de provenance et de politique. Pas besoin d'« ignore previous instructions » — la leçon : un label écrit dans un document est une donnée, pas une politique.

2026-06-12//6 min

DEFENSE MEDIUM NEW

Le trilemme de la défense : pourquoi les wrappers anti-injection ne peuvent être complets

Une preuve vérifiée en Lean 4 (avril 2026) montre qu'aucun wrapper d'entrée continu et préservant l'utilité ne peut bloquer toute injection de prompt. Continuité, utilité et complétude ne peuvent coexister.

2026-06-12//7 min

DEFENSE LOW NEW

Dans GitHub Agentic Workflows : une architecture de sécurité pour les agents CI/CD

GitHub Agentic Workflows est passé en préversion publique le 11 juin 2026 avec une conception « sécurité d'abord » : agents sans secret dans une prison chroot, pare-feu de workflow, écritures mises en attente puis vérifiées, et un job de détection de menaces. La réponse défensive à l'injection de prompt en CI/CD.

2026-06-12//8 min

JAILBREAK MEDIUM NEW

CodeSpear : quand le décodage sous contrainte grammaticale devient une surface de jailbreak

Un papier arXiv du 10 juin 2026 montre que la fonctionnalité de fiabilité qui force la sortie de code d'un LLM à être syntaxiquement valide peut elle-même servir de jailbreak. Appliquer une grammaire de code anodine contourne les refus ; la défense CodeShield des auteurs répond par du code leurre.

2026-06-12//6 min

INFRASTRUCTURE CRITICAL NEW

Les serveurs MCP exposés, tremplins vers la prise de contrôle du cloud

Une injection de commande dans les serveurs MCP cloud (CVE-2026-5058/5059) permet d'atteindre le service de métadonnées, de voler le rôle IAM et de pivoter vers tout le compte cloud.

2026-06-12//6 min

RESEARCH MEDIUM NEW

Souveraineté mnésique : sécuriser tout le cycle de vie mémoire des agents

Une étude d'avril 2026 reformule la sécurité de la mémoire des agents LLM en un cycle de vie à six phases et montre que le domaine néglige l'oubli, la confidentialité et la dérive non adversariale.

2026-06-12//7 min

GOVERNANCE LOW NEW

DeepMind et ses partenaires ouvrent un fonds de 10 M$ pour la sûreté multi-agents

Le 11 juin 2026, Google DeepMind, Schmidt Sciences, la Cooperative AI Foundation et l'ARIA ont ouvert un appel de 10 M$ pour fonder un champ de recherche sur la sûreté de millions d'agents IA en interaction.

2026-06-12//6 min

RESEARCH MEDIUM NEW

Plus récent ne veut pas dire plus sûr : l'alignement de sécurité non monotone entre générations

Un papier de mai 2026 red-teamant quatre générations de Gemma révèle que le modèle intermédiaire était bien plus facile à jailbreaker que son prédécesseur et son successeur : la sécurité ne progresse pas en ligne droite.

2026-06-12//6 min

GOVERNANCE MEDIUM NEW

OWASP State of Agentic AI Security 2026 : l'injection de prompt relie la plupart des incidents d'agents

Le rapport OWASP State of Agentic AI Security and Governance v2.01 (1er juin 2026) passe des menaces hypothétiques aux CVE et brèches documentées. L'injection de prompt couvre désormais six des dix catégories de risque agentique.

2026-06-12//6 min

DATA LEAK MEDIUM NEW

Inversion de prompt : l'inférence LLM distribuée fuit, une défense rigoureuse arrive

Les attaques par inversion de prompt reconstruisent jusqu'à 88,4 % des tokens d'entrée depuis les activations intermédiaires. Un papier soumis le 10 juin 2026 propose la première défense informationnelle.

2026-06-12//6 min

DEFENSE LOW NEW

Le Recuse Signal : un robots.txt pour les agents qui détiennent de vrais identifiants

Un article de juin 2026 propose un signal de « refus » in-band — émis via une bannière SSH ou un NOTICE PostgreSQL — qui demande poliment à un agent autonome de se retirer. En pilote, il a induit 100 % de recusal, mais un cadrage d'autorisation a fait repartir le modèle le plus capable.

2026-06-12//6 min

SUPPLY CHAIN MEDIUM NEW

RTK (CVE-2026-45792) : des filtres non fiables masquent un backdoor à la revue IA

Pillar Security a divulgué le 20 mai 2026 une faille dans RTK, un filtre d'optimisation de tokens pour Claude Code : un .rtk/filters.toml fourni par le dépôt pouvait retirer silencieusement un backdoor de la sortie des commandes avant que le modèle ne la voie. La cible, c'est la perception de l'agent, pas son exécution.

2026-06-12//6 min

RESEARCH MEDIUM NEW

StakeBench : qui paie vraiment quand un agent web se fait injecter ?

Un benchmark centré sur les parties prenantes (NTU, IBM Research, UIUC) montre que les agents web échouent sur tous les objectifs d'injection testés — et que le préjudice retombe souvent sur des tiers, pas sur l'utilisateur.

2026-06-12//6 min

DEFENSE MEDIUM NEW

Injection par flux d'outils : pourquoi les défenses d'agents statiques cassent, et ce que corrige le verify-before-commit

Un papier de janvier 2026, VIGIL, recentre l'injection indirecte sur le flux d'outils — descriptions falsifiées et faux messages d'erreur — et montre que mieux un agent est aligné, plus il leur obéit.

2026-06-12//7 min

DEFENSE MEDIUM NEW

TRUSTDESC : dériver les descriptions d'outils depuis le code pour désamorcer le tool poisoning

Un papier d'avril 2026 s'attaque au tool poisoning à la racine : générer la description d'un outil à partir de son implémentation plutôt que de faire confiance au texte fourni par l'auteur, neutralisant le poisoning implicite que les détecteurs ratent.

2026-06-12//6 min

INFRASTRUCTURE CRITICAL NEW

L'entrée multimodale comme surface d'attaque : la RCE du décodeur vidéo de vLLM (CVE-2026-22778)

CVE-2026-22778 transforme une URL vidéo malveillante en exécution de code à distance sur les serveurs vLLM, en chaînant une fuite d'info PIL et un débordement de tas dans le décodeur JPEG2000 de FFmpeg. Corrigé en 0.14.1.

2026-06-12//7 min

RESEARCH LOW NEW

AuditBench : les LLM enquêteurs d'attaques sont des machines à faux positifs

Un benchmark de juin 2026 teste cinq LLM de pointe sur de vraies investigations de logs d'audit. Verdict : modèles trop soupçonneux, faux positifs en masse — et les petits modèles rivalisent avec les gros.

2026-06-11//6 min

DEFENSE MEDIUM NEW

CASA : un contrôle d'accès par tâche qui confronte chaque appel d'outil à l'intention réelle de l'utilisateur

Un papier arXiv du 4 mai 2026 propose Continuous Agent Semantic Authorization — une couche zero-trust qui extrait la tâche de l'utilisateur d'une conversation multi-tours et refuse les appels d'outils qui n'y correspondent pas.

2026-06-11//6 min

AGENTS MEDIUM NEW

Décomposition à contexte fracturé : jailbreaks par les failles de provenance

Un papier arXiv du 8 juin 2026 formalise le « trou de provenance » des agents outillés : un comportement nuisible assemblé à partir d'actions anodines réparties dans le temps, jusqu'à +28,3 points de réussite.

2026-06-11//6 min

AGENTS CRITICAL NEW

Contournement d'allowlist dans Cursor : les built-ins du shell empoisonnent l'environnement

CVE-2026-22708 permet à une injection de prompt d'utiliser des built-ins shell de confiance comme export et typeset pour empoisonner les variables d'environnement de Cursor, transformant une commande git ou python approuvée en exécution de code à distance. Corrigé en 2.3.

2026-06-11//6 min

SUPPLY CHAIN CRITICAL NEW

Ver Hades : la config d'agent de code piégée qui s'exécute à l'ouverture du dépôt

Le ver Hades commit des fichiers de configuration pour Claude Code, Gemini, Cursor et VS Code qui s'exécutent au démarrage de session ou à l'ouverture du dossier — transformant un dépôt cloné en voleur d'identifiants, sans aucune étape d'installation.

2026-06-11//8 min

ADVERSARIAL MEDIUM NEW

HPAA : une typographie que l'humain lit mais que les LLM de modération ratent

Un article du 8 juin 2026 introduit les attaques adverses perceptibles par l'humain : un texte nuisible qui reste évident pour un lecteur, mais échappe à la modération par LLM grâce à une manipulation typographique.

2026-06-11//5 min

INDIRECT INJECTION MEDIUM NEW

Le paradoxe de l'injection : quand une injection de prompt se retourne et efface une marque dans le RAG

Un préprint arXiv du 8 juin 2026 montre qu'une injection de prompt dans un document récupéré peut se retourner sur les modèles Claude alignés, faisant chuter une marque de 54 % à 0 % de recommandation — ouvrant une contre-attaque visant les concurrents.

2026-06-11//7 min

DEFENSE MEDIUM NEW

La supervision a une capacité : quand plus d'approbations rend l'agent moins sûr

Un papier arXiv du 8 juin 2026 modélise le relecteur humain derrière la porte d'approbation d'un agent comme une ressource finie qui fatigue — et montre qu'escalader plus d'actions peut réduire la sécurité réelle et ouvrir une attaque par saturation.

2026-06-11//8 min

GOVERNANCE MEDIUM NEW

Modèle de maturité agentique OWASP : ne restez pas dans les cases rouges

Le rapport State of Agentic AI d'OWASP (juin 2026) ajoute un modèle de maturité d'adoption : une grille à deux axes où l'autonomie des agents dépasse la gouvernance, créant des « cases rouges » que personne ne supervise.

2026-06-11//6 min

AGENTS MEDIUM NEW

SABER : les agents de code échouent à la sûreté opérationnelle même quand ils refusent les prompts malveillants

Un benchmark du 31 mai 2026 évalue les agents de code LLM sur l'état final d'un vrai dépôt, pas sur le refus de prompt. Même le meilleur modèle laisse une violation nuisible dans plus de la moitié des runs.

2026-06-11//6 min

PROMPT INJECTION MEDIUM NEW

Plugins de chatbot web : comment des widgets non sécurisés amplifient l'injection de prompt

Une étude IEEE S&P 2026 portant sur 17 plugins de chatbot répartis sur plus de 10 000 sites révèle des historiques de conversation falsifiables (injections 3 à 8x plus fortes) et des outils de scraping qui mélangent contenu de confiance et contenu non fiable.

2026-06-11//6 min

INFRASTRUCTURE CRITICAL NEW

LiteLLM CVE-2026-42271 : les endpoints de test MCP mènent à une RCE non authentifiée

Divulguée en avril comme une injection de commande authentifiée, la fonction d'aperçu MCP de LiteLLM devient une RCE non authentifiée une fois chaînée au contournement BadHost de Starlette — ajoutée au KEV de la CISA le 8 juin 2026.

2026-06-10//6 min

AGENTS MEDIUM NEW

Attaques par flux de contrôle mémoire : quand la mémoire pilote les outils d'un agent

Un papier de mars 2026 montre que la mémoire empoisonnée d'un agent ne corrompt pas seulement le contenu : elle détourne le flux de contrôle de la sélection d'outils, forçant des outils non voulus et des étapes sautées dans plus de 90 % des essais, d'une tâche à l'autre et longtemps après l'injection.

2026-06-10//8 min

SUPPLY CHAIN CRITICAL NEW

Injection via config Transformers : une RCE silencieuse qui contourne trust_remote_code

CVE-2026-4372, divulguée le 4 juin 2026, permet à un seul champ de config.json d'exécuter du code attaquant lors d'un simple from_pretrained() — en contournant trust_remote_code=False dans Hugging Face Transformers.

2026-06-10//8 min

DEFENSE MEDIUM NEW

ADR : détection et réponse pour agents MCP, éprouvé à l'échelle d'Uber

Un papier de mai 2026 signé Uber décrit un système type EDR pour agents MCP : télémétrie causale complète, détection à deux étages et red teaming hors ligne, déployé sur plus de 7 200 hôtes pendant dix mois.

2026-06-08//7 min

DEFENSE MEDIUM NEW

La sécurité des agents est un problème de système : traiter le modèle comme non fiable

Un position paper de mai 2026 (Google, UCSD, UW–Madison) soutient que la sécurité des agents doit sortir du modèle pour passer dans le système : traiter le LLM comme un composant non fiable et imposer les invariants autour de lui.

2026-06-08//8 min

OFFENSIVE AI MEDIUM NEW

Comment l'IA agentique comprime le cycle de l'attaque

Un article arXiv de mai 2026 modélise comment l'IA agentique réduit le coût de chaque étape d'une attaque — de la reconnaissance à la post-exploitation — comprimant la kill chain et redéfinissant les priorités défensives.

2026-06-08//6 min

DEFENSE LOW NEW

AgentTrust : filtrer les appels d'outils d'un agent avant leur exécution

Un préprint du 6 mai 2026 présente AgentTrust, une couche d'exécution qui inspecte chaque appel d'outil avant qu'il ne s'exécute et renvoie autoriser / avertir / bloquer / revoir — y compris sur les charges shell obfusquées.

2026-06-08//6 min

RESEARCH LOW NEW

Pourquoi il est difficile d'évaluer les agents de sécurité

Un position paper publié le 21 mai 2026 soutient que les classements utilisés pour noter les agents de sécurité sont discrètement faussés : le raisonnement adverse que l'on veut mesurer peut aussi casser le benchmark lui-même. Trois modes de défaillance, et comment évaluer honnêtement.

2026-06-08//6 min

RESEARCH MEDIUM NEW

Au-delà de la « sécurité de surface » : l'injection en milieu de séquence fait déraper les LLM alignés

Un papier arXiv du 3 juin 2026 montre que l'alignement de sécurité peut être détourné non seulement aux premiers tokens, mais à n'importe quelle étape de génération — et que les directions de refus dans les états cachés ne prédisent pas la robustesse.

2026-06-08//6 min

RESEARCH MEDIUM NEW

Pourquoi les développeurs d'agents IA indépendants passent à côté des risques de sécurité

Une étude arXiv de juin 2026 sur des développeurs d'agents IA indépendants révèle un angle mort centré utilisateur : on se concentre sur les contenus nuisibles en négligeant l'injection de prompt, l'exfiltration de données et les flux transfrontaliers.

2026-06-08//6 min

OFFENSIVE AI MEDIUM NEW

VR de firmware mains libres : un agent LLM rétro-ingénie un interphone OT de bout en bout

Le 2 juin 2026, Claroty Team82 a lancé Claude Opus 4.6 avec un serveur MCP Ghidra contre le firmware d'un interphone Zenitel et a retrouvé un ensemble de CVE connues en moins de dix minutes — un aperçu de la recherche de vulnérabilités firmware devenue commodité.

2026-06-08//6 min

RESEARCH MEDIUM NEW

Oublié mais récupérable : pourquoi le désapprentissage des LLM fuit toujours

Plusieurs travaux de 2025-2026 montrent que les connaissances « désapprises » d'un LLM restent récupérables — par quantification, prompts adverses, et désormais via les traces de raisonnement. Traiter le désapprentissage comme un effacement est une erreur.

2026-06-08//7 min

DEFENSE MEDIUM NEW

Détecter l'extraction de modèle en observant la fenêtre de trafic, pas les requêtes isolées

Un papier de juin 2026 montre qu'un simple test de distribution (MMD sur les embeddings de requêtes, calibré uniquement sur le trafic légitime) détecte les campagnes d'extraction noyées dans un trafic d'API mixte — 0,3 % de faux positifs, 100 % sur le trafic purement attaquant.

2026-06-08//6 min

AGENTS MEDIUM NEW

L'outil shell de MS-Agent : une denylist regex transforme l'injection de prompt en RCE

CVE-2026-2256 permet à du contenu malveillant de pousser MS-Agent (ModelScope) à exécuter des commandes système. La cause racine est un anti-pattern connu : protéger un outil shell par une denylist regex plutôt que par une allowlist.

2026-06-08//6 min

AGENTS MEDIUM NEW

OWASP ASI02 : quand un agent retourne ses propres outils contre vous

Tool Misuse & Exploitation est le risque n°2 du Top 10 OWASP pour les applications agentiques 2026. Le danger n'est pas qu'un agent gagne de nouveaux outils — c'est qu'il détourne ceux qu'il possède déjà : sur-privilège, descripteurs empoisonnés, chaînage non maîtrisé.

2026-06-08//6 min

DEFENSE MEDIUM NEW

ePCA : remplacer les garde-fous sémantiques d'agents par de la vérification formelle

Un article de mai 2026 propose ePCA, un garde-fou qui compile chaque action d'agent en logique du premier ordre et exécute une vérification SMT avant exécution, bloquant les étapes dangereuses sous forme de blocages logiques.

2026-06-08//7 min

AGENTS CRITICAL NEW

Serveurs MCP distants : 40 % sans authentification, OAuth cassé sur le reste

Une étude arXiv de mai 2026 a scanné 7 973 serveurs MCP distants : 40,55 % exposent leurs outils sans aucune authentification, et les 119 serveurs OAuth testés présentaient tous au moins une faille — 9 CVE attribuées.

2026-06-08//7 min

SUPPLY CHAIN MEDIUM NEW

Empoisonnement séquentiel : répartir une porte dérobée sur les étapes du post-entraînement

Un papier du 3 juin 2026 montre qu'un poison réparti entre données SFT et préférences — négligeable à chaque étape isolée — se combine en une porte dérobée fonctionnelle. Les audits par étape créent une « illusion de l'attaquant unique ».

2026-06-08//7 min

ADVERSARIAL MEDIUM NEW

SlotGCG : la position du token adverse, pas seulement son contenu, conditionne le jailbreak

Un papier de juin 2026 montre que les jailbreaks de type GCG gagnent ~14 % d'efficacité quand les tokens adverses sont placés à des emplacements corrélés à l'attention — et conservent 42 % de succès face au filtrage d'entrée.

2026-06-08//6 min

AGENTS MEDIUM NEW

Cinq attaques sur x402 : quand les agents IA paient, les coutures inter-couches fuient

Un papier du 12 mai 2026 casse formellement x402, le protocole de paiement agentique fondé sur HTTP 402. Cinq attaques sur le règlement, le rejeu, la couche web et la découverte — un paiement rejoué a produit 248 accès sur un endpoint en production.

2026-06-08//7 min

DEFENSE MEDIUM NEW

Taxonomie v2.0 des modes de défaillance agentiques de Microsoft : le contournement zéro-clic du humain dans la boucle

La taxonomie v2.0 de l'AI Red Team de Microsoft (4 juin 2026) ajoute sept modes de défaillance agentiques et désigne le contournement du humain dans la boucle comme le plus exploité — y compris des chaînes zéro-clic partant d'une seule entrée externe.

2026-06-07//8 min

DEFENSE LOW NEW

AgentVisor : un patron type hyperviseur OS qui audite chaque appel d'outil

Un article arXiv du 27 avril 2026 emprunte l'idée de l'hyperviseur OS pour défendre les agents LLM outillés : un « visor » de confiance audite chaque appel d'outil et est architecturalement aveugle au contenu non fiable.

2026-06-07//8 min

SUPPLY CHAIN MEDIUM NEW

Back-Reveal : exfiltration de données par les propres appels d'outils d'un agent piégé

Un agent fine-tuné porte un déclencheur caché. Sur un signal anodin, il lit votre mémoire de session et l'expédie déguisée en simple appel de recherche — sans injection, sans outil malveillant. Article daté du 7 avril 2026.

2026-06-07//7 min

DEFENSE LOW NEW

Need to Know : réécriture de requêtes par intégrité contextuelle

Un papier arXiv du 2 juin 2026 reformule la réécriture de requêtes respectueuse de la vie privée comme un problème d'intégrité contextuelle : ne transmettre une donnée au LLM cloud que si la tâche en a besoin, pas parce qu'un type de PII a été reconnu.

2026-06-07//6 min

DEFENSE LOW NEW

Deux pièges méthodologiques qui gonflent les scores des détecteurs d'injection de prompt

Un préprint arXiv du 1ᵉʳ juin 2026 montre que la plupart des benchmarks de détecteurs d'injection de prompt et de jailbreak reposent sur un réglage de seuil par jeu de données et des points de fonctionnement non divulgués — deux habitudes qui gonflent discrètement la précision annoncée.

2026-06-07//6 min

INFRASTRUCTURE CRITICAL NEW

L'endpoint de build public de Langflow : RCE non authentifiée armée en 20 heures

CVE-2026-33017 transforme l'endpoint de build public de Langflow en exécution de code à distance non authentifiée. Divulguée le 17 mars 2026, elle était exploitée dans la nature en 20 heures — avant tout PoC public.

2026-06-07//6 min

INDIRECT INJECTION MEDIUM NEW

Decision Hijacking : injecter le LLM qui classe vos résultats de recherche

Une série de travaux 2025-2026 montre que lorsqu'un LLM reclasse des candidats de recherche ou de RAG, quelques lignes injectées dans un seul document suffisent à le propulser en tête — la qualité du classement s'effondre de plus de 60 points NDCG, et les modèles les plus puissants sont les plus vulnérables.

2026-06-07//7 min

DEFENSE LOW NEW

Membrane : une mémoire de sécurité contrastive qui adapte les garde-fous sans réentraînement

Un papier arXiv du 4 juin 2026 propose Membrane, un garde-fou auto-évolutif qui associe chaque attaque bloquée à une requête bénigne quasi identique, ramenant le sur-refus à 7-14 % tout en dominant le F1 sur six jailbreaks.

2026-06-07//6 min

SUPPLY CHAIN MEDIUM NEW

MetaBackdoor : un déclencheur de backdoor fondé sur la longueur, invisible dans l'entrée

Un papier de mai 2026 de Microsoft et de l'Institute of Science Tokyo implante une backdoor dont le déclencheur est la longueur de l'entrée, pas son texte. Le prompt paraît propre, les filtres de contenu ne voient rien, et 90 exemples empoisonnés suffisent.

2026-06-07//7 min

DEFENSE LOW NEW

Lockdown Mode d'OpenAI : couper la voie d'exfiltration du prompt injection

Le 6 juin 2026, OpenAI a étendu Lockdown Mode aux comptes ChatGPT personnels et Business en libre-service : un réglage déterministe qui désactive les canaux sortants utilisés pour exfiltrer des données via prompt injection.

2026-06-07//6 min

DEFENSE MEDIUM NEW

THRD : une défense temporelle sans réentraînement contre les jailbreaks multi-tours

Un papier de juin 2026 soutient qu'un jailbreak multi-tours doit être jugé sur l'ensemble de la conversation, pas tour par tour. THRD agrège le risque dans le temps et ramène le taux de succès des attaques à 0,2–4 %, sans réentraînement.

2026-06-07//7 min

OFFENSIVE AI MEDIUM NEW

Vers IA adaptatifs : quand le malware embarque son propre LLM local

Un papier de l'Université de Toronto (juin 2026) démontre un ver qui exécute des LLM open-weight sur les machines qu'il compromet, adapte son exploit à chaque cible et arme des advisories publiés après la date de coupure du modèle.

2026-06-05//8 min

DEFENSE MEDIUM NEW

L'agent qui écrit ses propres logs : pourquoi les journaux d'audit auto-déclarés ne sont pas fiables

Si un agent compromis produit lui-même son journal d'activité, il peut omettre, altérer ou fabriquer ce qu'il a fait. Trois travaux de juin 2026 — Notarized Agents (arXiv), un draft IETF sur l'audit trail des agents, et SCITT — convergent vers la même solution : déplacer la frontière de confiance hors de l'agent.

2026-06-05//6 min

INDIRECT INJECTION MEDIUM NEW

AgentRedBench : l'injection indirecte dans les agents SaaS est un défaut d'autorisation

AgentRedBench (juin 2026) red-team des agents LLM qui lisent des outils SaaS comme Gmail et Jira. Sans garde-fou, le taux de réussite des attaques va de 32 % à 81 % sur huit modèles de pointe, avant qu'un classifieur de réponses d'outils ne le réduise.

2026-06-05//7 min

DEFENSE MEDIUM NEW

Quand les défenses par embedding échouent dans les systèmes multi-agents LLM

Un papier arXiv du 1er mai 2026 montre que les détecteurs qui écartent un agent malveillant via l'embedding de ses messages s'effondrent face à un texte rendu quasi-bénin — et propose les signaux de confiance par token comme remplacement plus robuste.

2026-06-05//6 min

SUPPLY CHAIN MEDIUM NEW

Les fichiers GGUF sont des entrées non fiables : les RCE récurrentes du parseur de llama.cpp

CVE-2026-33298 (mars 2026) et une divulgation oss-sec du 15 mai 2026 montrent que le parseur GGUF de llama.cpp enchaîne les corruptions de tas par dépassement d'entier : charger un modèle piégé peut suffire à exécuter du code.

2026-06-05//6 min

GOVERNANCE MEDIUM NEW

Aucun labo ne mesure le prompt injection de la même façon

Une comparaison du 1er juin 2026 des divulgations prompt injection d'Anthropic, OpenAI, Google et Meta montre qu'aucun labo ne partage de métrique, de surface ni de définition du succès — leurs chiffres ne sont pas comparables.

2026-06-05//6 min

AGENTS CRITICAL NEW

CVE-2026-45497 : une injection de commande transforme Microsoft 365 Copilot en surface RCE

Le 4 juin 2026, le MSRC a publié CVE-2026-45497, une injection de commande dans Microsoft 365 Copilot classée en exécution de code à distance, avec un changement de portée franchissant la frontière du service. Corrigée côté serveur.

2026-06-05//6 min

AGENTS MEDIUM NEW

Quand un argument d'outil MCP devient un intent Android : les sinks de mobile-mcp

CVE-2026-35394 permet à une URL contrôlée par le modèle de déclencher des intents Android arbitraires via l'outil mobile_open_url de mobile-mcp. Couplée à une CVE jumelle de path traversal, elle révèle un motif : des arguments d'outil MCP qui atteignent des sinks sans validation.

2026-06-05//7 min

RESEARCH MEDIUM NEW

MPBench : une taxonomie systématique de l'empoisonnement mémoire des agents LLM

Une étude arXiv du 3 juin 2026 cartographie quatre canaux d'écriture mémoire, neuf faiblesses structurelles et six classes d'attaque — et montre que les défenses anti-injection ne couvrent pas l'empoisonnement mémoire.

2026-06-05//6 min

RESEARCH MEDIUM NEW

Optimus : noter les jailbreaks au-delà du binaire révèle un régime furtif optimal

Un paper arXiv du 9 mai 2026 soutient que le taux de réussite binaire masque les jailbreaks les plus à craindre. Sa métrique Optimus note les prompts sur la similarité et la nocivité, et expose une bande « furtive optimale » où l'ASR s'effondre à zéro.

2026-06-05//7 min

AGENTS MEDIUM NEW

VIPER-MCP : 67 CVE issues de failles de type taint sur 40 000 serveurs MCP

Un papier arXiv du 20 mai 2026 a audité 39 884 dépôts de serveurs MCP open source, confirmé 106 zero-days de bout en bout et obtenu 67 identifiants CVE. L'histoire, c'est le motif : une entrée d'agent non fiable qui atteint des sinks shell, réseau et fichiers.

2026-06-05//7 min

SUPPLY CHAIN MEDIUM NEW

trust_remote_code=False n'est pas une frontière : la RCE récurrente au chargement de modèle dans vLLM

CVE-2026-27893 (divulguée le 27 mars 2026) est le troisième contournement de trust_remote_code dans vLLM. Deux fichiers de modèle codent en dur trust_remote_code=True, annulant silencieusement le choix de l'opérateur et ouvrant une RCE depuis un dépôt de modèle malveillant.

2026-06-05//6 min

DEFENSE MEDIUM NEW

Détecter l'exfiltration d'identifiants par les agents LLM avant le token de sortie

Publié le 2 juin 2026, un papier arXiv détecte les fuites d'identifiants d'un agent avant tout token de sortie — en combinant sondes d'activation, honeytokens calibrés et comptabilité de fuite multi-tour.

2026-06-04//7 min

SUPPLY CHAIN MEDIUM NEW

Injection AGENTS.md : une dépendance piégée peut réécrire en silence les ordres de votre agent de code

Un rapport de la NVIDIA AI Red Team du 20 avril 2026 montre qu'une dépendance malveillante peut déposer un AGENTS.md forgé au build, écraser la consigne du développeur et demander à OpenAI Codex de masquer la modification dans la pull request.

2026-06-04//7 min

DEFENSE MEDIUM NEW

AgentShield : démasquer les agents compromis avec des honeytokens et des outils-leurres

Un papier de mai 2026 applique l'ingénierie de la déception aux agents LLM outillés : faux outils, fausses identifiants et listes blanches de paramètres sur lesquels un agent détourné trébuche. Détection annoncée de 90,7 à 100 % des attaques réussies, sans fausse alerte.

2026-06-04//6 min

AGENTS MEDIUM NEW

AIRQ évalue 100 agents IA en production : 98 % cumulent la triade fatale

L'AI Risk Quadrant d'Adversa AI (juin 2026) note 100 agents commerciaux sur surface d'attaque, rayon d'impact et défenses. Seuls 11 % sont bien défendus ; l'exécution d'outils explique à elle seule 76 % du rayon d'impact.

2026-06-04//7 min

AGENTS CRITICAL NEW

Vers auto-propagatifs d'agents et défense par ré-entrée temporelle

Un papier de mai 2026 formalise comment l'état persistant d'un agent permet à une charge d'injection de se réécrire dans le contexte du LLM, de se propager entre agents sans clic, et propose RTW-A — défense prouvée par un théorème de non-propagation.

2026-06-04//7 min

DEFENSE MEDIUM NEW

La recherche hybride BM25 + vecteurs fait tomber l'empoisonnement RAG de 38 % à 0 %

Un préprint arXiv du 10 mars 2026 montre qu'ajouter du BM25 épars à la recherche dense bloque toute une classe d'empoisonnement de corpus RAG optimisé par gradient — sans toucher au LLM.

2026-06-04//7 min

OFFENSIVE AI MEDIUM NEW

Acteurs malveillants IA cartographiés sur MITRE ATT&CK : le score ARiES et ce qu'il casse

Le rapport Anthropic du 3 juin 2026 cartographie un an de cyberattaques assistées par IA sur MITRE ATT&CK. Le constat pour les défenseurs : la sophistication, le nombre de techniques et l'interface ne prédisent plus le risque — l'orchestration, si.

2026-06-04//7 min

AGENTS MEDIUM NEW

Tool poisoning sur 7 clients MCP : une comparaison de posture de sécurité

Une étude empirique de mars 2026 teste quatre attaques de tool poisoning contre Claude Desktop, Claude Code, Cursor, Cline, Continue, Gemini CLI et Langflow — et constate que l'essentiel de la protection vient du modèle, pas du client.

2026-06-04//7 min

DEFENSE MEDIUM NEW

OWASP Agent Memory Guard : une couche d'exécution contre l'empoisonnement mémoire des agents

Relayé par Help Net Security le 1er juin 2026, Agent Memory Guard est la première implémentation de référence OWASP pour ASI06 : une couche prête à l'emploi qui filtre chaque lecture et écriture mémoire d'un agent selon une politique YAML.

2026-06-04//7 min

DEFENSE MEDIUM NEW

PISmith : le red teaming par RL adaptatif casse encore les défenses anti-injection

Un papier de mars 2026 entraîne un modèle attaquant par apprentissage par renforcement pour éprouver les défenses anti-injection en boîte noire — et 8 défenses de pointe tombent, y compris sur AgentDojo et InjecAgent.

2026-06-04//6 min

INFRASTRUCTURE CRITICAL NEW

Le broker ZMQ de SGLang : RCE non authentifiée par désérialisation pickle

Trois CVE divulguées le 12 mars 2026 transforment les appels pickle.loads() de SGLang en exécution de code à distance non authentifiée. Le correctif est arrivé en v0.5.10 — mais la vraie leçon, c'est que pickle sur une socket réseau est une RCE par conception.

2026-06-04//7 min

DATA LEAK MEDIUM NEW

Contagion sociale : les agents LLM divulguent des données privées en environnement multi-agents

Une étude de mai 2026 simulant des milliers d'agents LLM montre que la fuite de données est socialement contagieuse : un agent divulgue ~8x plus après l'avoir vu faire par un pair, et les consignes de confidentialité réduisent sans éliminer le phénomène.

2026-06-04//7 min

INDIRECT INJECTION MEDIUM NEW

Empoisonnement de description : le canal d'agent que vos benchmarks ne testent pas

Une démo AWS Bedrock AgentCore de mai 2026 et un paper arXiv de juin 2026 convergent sur le même angle mort : les descriptions d'outils, lues avant chaque appel, sont un canal d'injection que les contrôles d'infra et les benchmarks à un seul chiffre ignorent.

2026-06-04//6 min

DEFENSE LOW NEW

Agent Threat Rules : un « Sigma pour agents IA » — et ce que ses chiffres de rappel avouent

ATR propose des règles de détection YAML ouvertes pour les attaques d'agents, déjà en production chez Microsoft, Cisco et Gen Digital. Ses propres benchmarks montrent pourquoi la détection par regex est une couche, pas un périmètre.

2026-06-03//6 min

PROMPT INJECTION MEDIUM NEW

ASPI : demander une clarification élargit la surface d'injection

Un benchmark arXiv du 17 mai 2026 montre que lorsqu'un agent s'interrompt pour demander une précision à l'utilisateur, le taux de réussite des injections passe de moins de 2 % à plus de 34 % sur o3 et Gemini-3-Flash.

2026-06-03//6 min

AGENTS MEDIUM NEW

Propagation d'autorisation : la faille des agents que les défenses anti-injection ne résoudront pas

Un papier de Krti Tallam du 6 mai 2026 décrit un problème propre aux systèmes multi-agents — la propagation d'autorisation — qui subsiste même avec une défense anti-injection parfaite : délégation transitive, inférence par agrégation, validité temporelle.

2026-06-03//7 min

OFFENSIVE AI MEDIUM NEW

CAESAR : des agents LLM coordonnés dépassent le plafond de raisonnement d'un modèle seul

Un article arXiv du 9 mai 2026 montre que scinder un attaquant LLM en cinq rôles typés surpasse un agent unique sur 25 épreuves CTF et quatre modèles — le gain vient de la structure de coordination, pas de la capacité brute.

2026-06-03//6 min

INDIRECT INJECTION MEDIUM NEW

ChatInject : forger les balises de rôle du chat template pour contourner la hiérarchie d'instructions

Un article d'ICLR 2026 montre qu'envelopper une charge d'injection indirecte dans les tokens du chat template d'un modèle forge un rôle prioritaire et fait passer le taux de succès de 5 % à 32 % sur AgentDojo, et jusqu'à 52 % en multi-tour.

2026-06-03//8 min

AGENTS MEDIUM NEW

ClawTrojan : l'injection stockée devient une porte dérobée persistante d'agent

Un paper arXiv du 29 mai 2026 montre qu'une injection cachée dans un fichier peut être stockée par un agent local puis exécutée plus tard — 95,5 % de réussite là où l'injection mono-tour frôle zéro.

2026-06-03//6 min

RESEARCH LOW NEW

CyBiasBench : les agents LLM offensifs tentent toujours les mêmes attaques

Un benchmark de mai 2026 a journalisé 630 sessions d'attaque et montre que les agents LLM en scénario cyber offensif se concentrent sur un petit sous-ensemble de familles d'attaques — quel que soit le prompt. C'est le biais, pas la compétence, qui dicte leurs choix.

2026-06-03//6 min

DEFENSE MEDIUM NEW

DataShield : quand un fine-tuning anodin érode la sûreté d'un modèle

Un papier arXiv du 29 mai 2026 montre qu'affiner un LLM aligné sur des données inoffensives dégrade quand même sa sûreté, et propose DataShield pour repérer les échantillons en cause avant l'entraînement.

2026-06-03//6 min

RESEARCH MEDIUM NEW

Recadrage de l'objectif : le seul élément du prompt qui pousse les agents LLM à exploiter une faille plantée

Une étude arXiv du 6 avril 2026 a mené ~10 000 essais sur sept modèles. La plupart des tactiques de « manipulation » n'ont rien produit — seul le recadrage de l'objectif, du type « vous résolvez une énigme », a poussé les agents à exploiter la faille.

2026-06-03//6 min

AGENTS MEDIUM NEW

La system card d'Opus 4.8 chiffre l'injection de prompt sur agent navigateur : 31,5 %

La system card de Claude Opus 4.8 (28 mai 2026) rapporte un taux de détournement pré-garde-fous de 31,5 % pour son agent navigateur — la seule métrique d'injection de prompt publiée par un grand laboratoire ce printemps.

2026-06-03//7 min

DEFENSE LOW NEW

SnapGuard : détecter l'injection dans ce que l'agent voit, pas dans ce qu'il parse

Un papier d'avril 2026 propose un détecteur léger pour les agents web fondés sur captures d'écran, là où les garde-fous textuels sont aveugles. Il lit les pixels rendus — stabilité des gradients et texte à polarité inversée — en 1,81 s par page.

2026-06-03//6 min

GOVERNANCE MEDIUM NEW

Décret américain sur la sécurité de l'IA : un guichet de vulnérabilités et une revue des modèles de pointe

Signé le 2 juin 2026, le décret américain sur l'innovation et la sécurité de l'IA crée un guichet fédéral de vulnérabilités IA et une revue volontaire de 30 jours avant publication des « modèles de pointe couverts ».

2026-06-03//6 min

AGENTS CRITICAL NEW

CVE-2026-30615 : une prompt injection réécrit la config MCP de Windsurf en RCE

L'avis OX Security du 15 avril 2026 montre comment du contenu malveillant peut faire enregistrer à l'IDE Windsurf un serveur MCP STDIO hostile et exécuter des commandes — sans le moindre clic. La classe touche plusieurs agents de code, mais le CVE est pour Windsurf.

2026-06-03//6 min

AGENTS MEDIUM NEW

Agents fragiles : l'injection indirecte survit aux appels d'outils multi-étapes

Un papier du 4 avril 2026 teste 6 défenses contre 4 vecteurs d'injection indirecte sur 9 modèles, en agent multi-étapes — les injections avancées les contournent presque toutes, et certaines mitigations de surface se retournent contre la défense.

2026-06-02//6 min

INDIRECT INJECTION MEDIUM NEW

IPI Arena : 272 000 attaques, aucun modèle d'agent épargné

L'Indirect Prompt Injection Arena de Gray Swan, jugée avec l'UK AISI et l'US CAISI, a lancé plus de 272 000 attaques contre 13 modèles de pointe. Tous ont été détournés — et un seul gabarit universel en a cassé neuf.

2026-06-02//7 min

AGENTS CRITICAL NEW

Langroid SQLChatAgent : de l'injection prompt-vers-SQL à la RCE (CVE-2026-25879)

Divulguée le 1er juin 2026, la CVE-2026-25879 (CVSS 9.8) permet à un agent SQL victime d'injection de prompt d'exécuter des primitives comme COPY FROM PROGRAM, transformant un chatbot en exécution de code sur l'hôte de la base.

2026-06-02//7 min

RESEARCH MEDIUM NEW

LASM : une carte en 7 couches des angles morts de la défense des agents

Une étude de 58 pages révisée le 6 mai 2026 réorganise la sécurité des agents IA par couche et par échelle de temps, sur 116 papers. La carte révèle où les attaques sont documentées mais où défenses et benchmarks n'existent tout simplement pas encore.

2026-06-02//6 min

INFRASTRUCTURE CRITICAL NEW

LightLLM CVE-2026-26220 : du pickle sur un WebSocket que le serveur force sur le réseau

CVE-2026-26220 (divulguée le 15 février 2026) place pickle.loads() sur deux endpoints WebSocket non authentifiés du mode prefill-decode de LightLLM — et le serveur refuse de se lier à localhost, donc la surface est toujours distante.

2026-06-02//6 min

AGENTS MEDIUM NEW

Sampling MCP : comment un serveur malveillant abuse du canal LLM inversé

La fonction de sampling de MCP permet à un serveur de demander une complétion au modèle du client. Unit 42 a montré (déc. 2025) comment un serveur malveillant en fait un canal d'appels d'outils furtifs, de détournement de conversation et de vol de calcul.

2026-06-02//7 min

AGENTS CRITICAL NEW

Il a suffi de demander : l'assistant IA de Meta et les prises de contrôle Instagram

Le week-end des 30–31 mai 2026, des attaquants ont pris le contrôle de comptes Instagram en vue en demandant simplement au bot de support IA de Meta de relier une nouvelle adresse e-mail. Aucune injection de prompt — juste une agentivité excessive.

2026-06-02//6 min

DEFENSE LOW NEW

Séparateurs dynamiques : durcir le Polymorphic Prompt Assembling contre l'injection

Un papier arXiv du 28 mai 2026 corrige une faille de « rayon d'impact » du Polymorphic Prompt Assembling en générant un séparateur SHA-256 unique par requête, faisant chuter le taux de succès d'un payload de 0,88 à 0,38.

2026-06-02//6 min

AGENTS MEDIUM NEW

Arrêtez de fixer le prompt : détourner le raisonnement et la mémoire d'un agent

Un papier d'avril 2026, JailAgent, pousse un agent à des appels d'outils malveillants sans toucher au prompt utilisateur — en perturbant sa trajectoire de raisonnement et sa récupération mémoire. Le prompt n'a jamais été toute la surface d'attaque.

2026-06-02//6 min

INDIRECT INJECTION MEDIUM NEW

Silent Egress : l'injection implicite fait fuiter vos données via les aperçus d'URL

Une étude eBay (arXiv, 25 février 2026) montre qu'un agent qui prévisualise automatiquement les URL peut être amené à exfiltrer son contexte d'exécution par appels d'outils — P(egress)≈0,89, et 95 % des fuites laissent la réponse visible parfaitement anodine.

2026-06-02//8 min

DEFENSE LOW NEW

Cessez d'évaluer les défenses anti-jailbreak au seul taux de réussite

Un papier IEEE S&P de mai 2026 soutient que le taux de réussite d'attaque — la métrique par défaut du domaine — masque le comportement réel des défenses anti-jailbreak. Son Security Cube les évalue sur plusieurs axes à la fois.

2026-06-02//6 min

DATA LEAK MEDIUM NEW

Trojan Hippo : des charges dormantes dans la mémoire d'un agent exfiltrent vos données

Un papier arXiv du 3 mai 2026 montre qu'un seul e-mail piégé suffit à implanter dans la mémoire d'un agent une charge dormante qui ne s'active que lorsque vous parlez de finance ou de santé — puis exfiltre ces données, jusqu'à 100 % de réussite.

2026-06-02//7 min

AGENTS CRITICAL NEW

TrustFall : les réglages MCP du projet transforment le clic de confiance en RCE

TrustFall (Adversa AI, 7 mai 2026) montre que quatre CLI de codage agentiques démarrent automatiquement les serveurs MCP définis par le projet dès que le développeur accepte l'invite de confiance du dossier — un appui de touche sur le poste, zéro clic en CI.

2026-06-02//8 min

OFFENSIVE AI CRITICAL NEW

L'agent aux commandes : détecter une post-exploitation pilotée par LLM

Le 10 mai 2026, Sysdig a capté sa première intrusion où un agent LLM pilotait la post-exploitation en temps réel — de CVE-2026-39987 sur marimo à un dump PostgreSQL complet en moins d'une heure. L'indice médico-légal est la forme des commandes.

2026-06-01//6 min

RED TEAM MEDIUM NEW

Red teaming agentique : un opérateur, 674 attaques en trois heures

Un papier de mai 2026 de Dreadnode emballe la boîte à outils du red team IA dans un agent qui choisit les attaques, les exécute et note les résultats tout seul — des semaines compressées en heures. Le vrai sujet : ce que ça change pour votre programme d'évaluation.

2026-06-01//7 min

RESEARCH MEDIUM NEW

AgentSecBench : dans un agent LLM, le flux de données n'est pas l'autorité

Publié le 25 mai 2026, AgentSecBench formalise la sécurité des agents comme une non-interférence et teste six classes de défense. Le constat : le texte du prompt ne fait que décrire une frontière ; seules la provenance, la restriction de capacités et la validation de sortie l'imposent.

2026-06-01//6 min

OFFENSIVE AI MEDIUM NEW

Zero-days écrits par IA : comment le GTIG a identifié le premier exploit bâti par un modèle

Le 11 mai 2026, le GTIG de Google a divulgué le premier zero-day qu'il estime conçu par IA — un script de contournement de 2FA trahi par un score CVSS halluciné et des docstrings de manuel. Voici comment lire ces indices.

2026-06-01//6 min

DEFENSE MEDIUM NEW

Attribution causale : une défense émergente contre l'injection indirecte

Un ensemble de papers début 2026 — CausalArmor et AttriGuard — défend les agents à outils en demandant quelles actions sont causalement provoquées par du contenu non fiable plutôt que par l'utilisateur. Tour d'horizon de la défense par attribution causale.

2026-06-01//7 min

AGENTS CRITICAL NEW

CrewAI : un repli silencieux du bac à sable transforme l'injection de prompt en RCE (VU#221883)

Quatre failles CrewAI permettent de chaîner injection de prompt, RCE, SSRF et lecture de fichiers via un Code Interpreter qui sort silencieusement de Docker. La mise à jour CERT/CC du 20 mai 2026 confirme le correctif complet.

2026-06-01//6 min

AGENTS CRITICAL NEW

Flowise CVE-2026-40933 : importer un chatflow partagé suffit pour une RCE

L'analyse d'Obsidian Security du 28 mai 2026 montre comment le nœud Custom MCP de Flowise transforme une config MCP stdio en exécution de code côté serveur — et comment le simple import d'un chatflow partagé peut la déclencher, sans sauvegarde ni exécution.

2026-06-01//6 min

RESEARCH MEDIUM NEW

LITMUS : quand l'agent dit non mais que le fichier est déjà supprimé

Un benchmark du 11 mai 2026 mesure les jailbreaks comportementaux des agents LLM dans de vrais environnements OS — et constate que même Claude Sonnet 4.6 exécute 40,6 % des opérations à haut risque, parfois en les refusant verbalement.

2026-06-01//8 min

DEFENSE LOW NEW

Le triangle des compromis : défendre un tuteur LLM contre l'injection de prompt

Un benchmark de mai 2026 sur les défenses anti-injection pour tuteurs pédagogiques LLM chiffre une vérité gênante : aucun garde-fou ne gagne à la fois sur la robustesse, l'usabilité et la latence.

2026-06-01//7 min

SIDE CHANNEL MEDIUM NEW

Vol de prompt par le temps : canaux auxiliaires du cache de préfixe en LLM mutualisé

Le cache de préfixe partagé accélère les API LLM — et fuit les prompts. En chronométrant le premier token, un attaquant reconstitue le prompt d'un autre locataire. Un article de mars 2026 défend sans sacrifier la performance.

2026-06-01//7 min

PROMPT INJECTION MEDIUM NEW

Prompt injection dans la nature : attaques cachées dans le tri de CV par LLM

Une étude USENIX Security 2026 portant sur 196 682 CV réels révèle qu'environ 1 % contiennent des injections de prompt cachées — et plus de 90 % sont des « injections de données » invisibles, pas les instructions explicites que cherchent les détecteurs actuels.

2026-06-01//6 min

DEFENSE LOW NEW

Les jailbreaks laissent une trace : les détecter dans les activations internes des LLM

Un article de février 2026 et son prolongement de mars 2026 montrent qu'un prompt de jailbreak grave une signature distinctive dans les activations cachées du modèle — permettant une détection à l'inférence, sans fine-tuning ni modèle juge auxiliaire.

2026-06-01//6 min

AGENTS MEDIUM NEW

Attaques par épuisement de tokens : déni de service économique via les chaînes d'outils des agents

Deux papers de 2026 montrent qu'un outil ou un skill malveillant peut entraîner un agent LLM dans de longues boucles d'appels d'outils, multipliant le coût en tokens par 6 à 658× tout en renvoyant la bonne réponse — une variante furtive de l'Unbounded Consumption de l'OWASP.

2026-06-01//7 min

AGENTS CRITICAL NEW

SymJack : une copie de fichier approuvée devient RCE dans six agents de codage IA

Adversa AI a publié le 26 mai 2026 un schéma de détournement par lien symbolique qui transforme une simple commande shell en réécriture de la config et en RCE sur l'hôte, à travers Claude Code, Cursor, Gemini, Antigravity, Copilot, Grok Build et Codex CLI.

2026-05-30//6 min

RESEARCH MEDIUM NEW

Le fossé sécurité agent-humain : ce que la production déploie, ce que la recherche étudie

Un papier UCLA du 23 mai 2026 audite 59 études académiques, 21 systèmes d'agents en production et 26 plugins de sécurité — et constate que les défenses préférées des chercheurs n'ont aucun déploiement en production.

2026-05-29//7 min

RESEARCH MEDIUM NEW

La taxe d'autonomie : comment l'entraînement défensif casse les agents LLM

Un papier USC du 19 mars 2026 mesure le coût de l'entraînement anti-injection sur la compétence des agents — les modèles défendus expirent sur 99 % des tâches, contre 13 % pour la baseline.

2026-05-29//7 min

AGENTS MEDIUM NEW

Blindfold : des jailbreaks au niveau action contournent les défenses sémantiques des LLM embarqués

Un papier SenSys '26 (11–14 mai 2026) présente Blindfold, un framework automatisé qui jailbreake les LLM embarqués en décomposant un but malveillant en actions individuellement anodines — jusqu'à 53 % de gain d'attaque sur un bras robotique 6-DoF réel.

2026-05-29//7 min

RESEARCH MEDIUM NEW

Proprietary Problems : l'étude Cisco sur 15 modèles fermés montre que les scores de sûreté en un tour ratent l'essentiel du risque multi-tours

Une étude Cisco publiée le 27 mai 2026, portant sur 15 modèles phares fermés d'OpenAI, Anthropic, Google, Amazon et xAI, mesure des taux de succès d'attaque multi-tours allant de 7,89 % à 88,30 % — et des écarts pouvant atteindre 55 points par rapport au régime mono-tour.

2026-05-29//8 min

RESEARCH MEDIUM NEW

Mesurer la capacité d'exploitation des LLM : ExploitBench, ExploitGym et SCONE-bench

Le 22 mai 2026, Anthropic a publié les résultats de Mythos Preview sur trois nouveaux benchmarks d'exploitation. Les chiffres — et la manière dont les benchmarks décomposent la chaîne d'exploit — changent la façon dont les défenseurs doivent penser la capacité offensive frontière.

2026-05-29//8 min

DEFENSE MEDIUM NEW

MCP a besoin d'une poignée de main de confiance : l'admission attestée des serveurs d'outils

Un papier arXiv du 22 mai 2026 propose mcp-attested — une extension rétrocompatible de MCP qui conditionne tout dispatch d'outil à une attestation signée, à une allowlist deny-by-default et à un journal d'audit infalsifiable.

2026-05-29//7 min

INFRASTRUCTURE CRITICAL NEW

MCPwn (CVE-2026-33032) : un endpoint MCP de nginx-ui livre le serveur web

Un endpoint MCP non authentifié dans nginx-ui ≤ 2.3.3 permet à n'importe quel attaquant réseau de réécrire les configs nginx et de redémarrer le service. CVSS 9.8, divulgation publique le 15 avril 2026, exploitation en environnement réel observée quelques heures après le correctif.

2026-05-29//7 min

AGENTS MEDIUM NEW

MemMorph : détournement des appels d'outils par empoisonnement fluide de la mémoire

Une publication arXiv du 24 mai 2026 (NTU Singapour) montre que trois entrées de mémoire d'apparence anodine suffisent à orienter un agent vers l'outil choisi par l'attaquant, avec 85,9 % de succès — et résistent à trois défenses standard.

2026-05-29//7 min

DEFENSE MEDIUM NEW

Un million de services IA exposés : ce que le scan Intruder a réellement trouvé

Le 5 mai 2026, Intruder publiait les résultats d'un scan internet ayant cartographié un million de services IA exposés sur deux millions d'hôtes. Le défaut récurrent n'est pas exotique : ce sont les configurations par défaut permissives.

2026-05-29//8 min

ADVERSARIAL MEDIUM NEW

SilentRetrieval : un empoisonnement de corpus RAG fluide qui passe les filtres de perplexité

Un préprint arXiv du 27 mai 2026 propose une attaque en deux temps qui cache des déclencheurs de détournement dans des documents fluides, atteignant 57 % de succès LLM sur Natural Questions et MS MARCO avec un seul document empoisonné par requête.

2026-05-29//7 min

SUPPLY CHAIN MEDIUM NEW

Slopsquatting en 2026 : 127 noms de paquets que les cinq LLM frontières hallucinent à l'identique

Une réplication arXiv du 16 mai 2026 de l'étude USENIX Security '25 sur le slopsquatting montre que les taux d'hallucination baissent sur les modèles frontières — mais identifie 127 paquets fantômes inventés à l'identique par tous les modèles testés, soit une surface d'attaque supply-chain agnostique du modèle.

2026-05-29//7 min

DEFENSE MEDIUM NEW

WARD : un modèle de garde co-évolué qui tient face aux injections de prompt adaptatives sur agents web

Un papier de la NUS daté du 14 mai 2026 propose WARD — un modèle de garde entraîné contre un attaquant adversarial à mémoire — et rapporte un rappel quasi parfait hors-distribution sur l'injection de prompt en agent web.

2026-05-29//8 min

AGENTS MEDIUM NEW

Le harnais de l'agent est votre vrai périmètre de privilège — et la plupart des équipes le placent au mauvais endroit

Une analyse de Pillar Security publiée le 26 mai 2026 démontre que le harnais — Claude Code, Cursor, Codex — détient les secrets, outils et hooks que l'agent ne voit jamais. Des bugs récents de harnais et la CVE-2026-22708 rendent la démonstration concrète.

2026-05-28//8 min

GOVERNANCE MEDIUM

CISA + Five Eyes publient le premier guide commun sur l'adoption des IA agentiques

Le 1er mai 2026, CISA, NSA et les agences cyber des Five Eyes ont publié 'Careful Adoption of Agentic AI Services' — une taxonomie en 5 risques et un manuel de déploiement que les opérateurs d'infrastructures critiques sont désormais censés intégrer à leurs cadres de cybersécurité existants.

2026-05-28//7 min

AGENTS CRITICAL NEW

Microsoft Copilot Cowork : des skills piégées exfiltrent les fichiers M365 sans approbation

Publication PromptArmor du 26 mai 2026 : cinq lignes d'injection de prompt dans une skill Copilot Cowork suffisent à exfiltrer des documents SharePoint et OneDrive via des messages Teams auto-approuvés.

2026-05-28//8 min

MULTIMODAL MEDIUM

CrossMPI : une injection de prompt par image seule pilote ce que lisent et voient les VLM

Un papier de l'Université de Xidian publié sur arXiv le 15 mai 2026 introduit CrossMPI : des perturbations d'image imperceptibles modifient la façon dont les modèles vision-langage interprètent à la fois l'image et la requête textuelle de l'utilisateur, avec 66 % de réussite moyenne sur cinq LVLM.

2026-05-28//7 min

INDIRECT INJECTION MEDIUM NEW

GrafanaGhost : injection indirecte de prompt et bug de parsing d'URL pour exfiltrer les données des tableaux de bord

La divulgation du 7 avril 2026 par Noma Security montre comment trois défauts modestes — un point d'injection stocké, un contrôle startsWith('/') et un bypass de garde-fou en un mot — se combinent en un canal d'exfiltration silencieux via l'assistant IA de Grafana.

2026-05-28//7 min

INDIRECT INJECTION MEDIUM NEW

IterInject : quand un LLM optimise lui-même ses injections de prompt indirectes

Un papier du 23 mai 2026 boucle la chaîne payload / diagnostiqueur / optimiseur LLM — l'ASR d'injection indirecte passe de quasi-zéro à 33–90 % sur InjecAgent, et 5 cibles sur 9 sont compromises sur Claude Code.

2026-05-28//6 min

GOVERNANCE MEDIUM NEW

La NSA AISC publie un guide de sécurité MCP pour les déploiements IA

Le 20 mai 2026, l'Artificial Intelligence Security Center de la NSA a publié une fiche d'information de 15 pages sur le Model Context Protocol : huit classes de faiblesses, cinq incidents réels, neuf recommandations défensives.

2026-05-28//8 min

SUPPLY CHAIN MEDIUM

pgAdmin 4 ajoute un panneau LLM et hérite d'un LFI+SSRF classique (CVE-2026-7817)

pgAdmin 4 9.15 corrige un LFI et un SSRF authentifiés dans les nouveaux points d'API LLM. La classe de bug a quarante ans, la surface est toute neuve.

2026-05-28//7 min

RESEARCH MEDIUM

Empoisonner la tour de garde : quand les copilotes SOC lisent des logs contrôlés par l'attaquant

Un papier du 23 mai 2026 formalise l'injection de prompt par substrat de logs — du contenu adverse glissé dans les champs de logs pour piloter les assistants LLM des SOC. La meilleure défense laisse passer 11,8 % d'injections en moyenne.

2026-05-28//8 min

JAILBREAK MEDIUM NEW

Sockpuppeting : un préfixe d'une ligne qui jailbreak 11 LLM en production

Une seule ligne injectée comme dernier message « assistant » incite 7 modèles majeurs sur 10 à générer du contenu nuisible. Le correctif n'est pas dans le modèle — c'est une validation d'ordre des messages côté API.

2026-05-28//8 min

AGENTS MEDIUM NEW

Contamination temporelle de la mémoire : dérive longitudinale de sûreté chez les agents LLM

Trois preprints arXiv d'avril et mai 2026 convergent sur un mode de défaillance complémentaire de l'empoisonnement de mémoire — les agents équipés de mémoire dérivent vers l'unsafe au fil de l'accumulation de contexte bénin, les résumés compressés agissant comme un canal de blanchiment.

2026-05-28//8 min

GOVERNANCE MEDIUM NEW

La pression : les équipes sécurité de l'open source face au déluge de vulnérabilités assistées par IA

Le 26 mai 2026, Daniel Stenberg (curl) publie « The pressure » : plus d'un rapport de sécurité crédible par jour, douze CVE confirmées à mi-cycle, un schéma désormais confirmé par d'autres mainteneurs.

2026-05-28//8 min

AGENTS MEDIUM

Les réseaux d'agents cassent autrement : le red-team de Microsoft, et RAMPART et Clarity

Microsoft Research a red-teamé une plateforme interne de 100+ agents toujours actifs. Quatre schémas d'attaque — propagation, amplification, capture de confiance, chaînes de proxy — n'apparaissent qu'au niveau du réseau. RAMPART et Clarity, open-sourcés le 20 mai 2026, sont la réponse.

2026-05-27//9 min

AGENTS CRITICAL

Antigravity find_by_name : quand un appel d'outil natif saute par-dessus le Secure Mode

Le 20 avril 2026, Pillar Security a divulgué qu'un seul paramètre non assaini de l'outil find_by_name de Google Antigravity transformait une recherche de fichier en exécution de code arbitraire — en contournant le sandbox le plus strict de l'IDE.

2026-05-27//8 min

OFFENSIVE AI MEDIUM

Apple crédite officiellement Claude sur deux CVE macOS dans son bulletin de mai 2026

Le 11 mai 2026, l'avis de sécurité Apple pour macOS Tahoe 26.5 cite Claude aux côtés de ses chercheurs sur deux CVE — un dépassement d'entier dans le kernel et un use-after-free WebKit. La recherche de vulnérabilités assistée par IA entre dans le changelog officiel.

2026-05-27//6 min

INFRASTRUCTURE CRITICAL

BadHost (CVE-2026-48710) : un caractère dans l'en-tête Host suffit à contourner l'auth dans Starlette, vLLM et FastMCP

X41 D-Sec a divulgué le 22 mai 2026 un contournement d'authentification critique dans Starlette < 1.0.1. Un seul / ? ou # dans l'en-tête HTTP Host désynchronise le chemin routé du chemin vu par le middleware, cassant l'autorisation par chemin dans vLLM, LiteLLM, FastMCP et des milliers d'agents IA construits sur FastAPI.

2026-05-27//8 min

DATA LEAK CRITICAL

Bleeding Llama : une faille de parsing GGUF expose la mémoire d'Ollama à des attaquants non authentifiés

Divulguée publiquement en mai 2026 et baptisée Bleeding Llama par Cyera, la CVE-2026-7482 permet à un attaquant distant d'extraire des fragments arbitraires du tas d'un serveur Ollama — clés d'API, system prompts, conversations d'autres utilisateurs — en trois appels d'API non authentifiés. Le patch silencieux a été publié 2,5 mois avant l'attribution de la CVE.

2026-05-27//8 min

AGENTS CRITICAL

ClaudeBleed : quand un agent navigateur fait confiance à la mauvaise extension

LayerX a divulgué ClaudeBleed le 6 mai 2026 : une faille de frontière de confiance permettait à n'importe quelle extension Chrome de piloter Claude in Chrome et d'exfiltrer des données Gmail, Drive et GitHub. Le premier correctif a été contourné en quelques heures.

2026-05-27//7 min

PROMPT INJECTION CRITICAL

Injection de prompt encodée : quand les garde-fous échouent parce que le LLM décode le payload

Le 4 mai 2026, un tweet rédigé en code Morse a vidé environ 175 000 $ d'un portefeuille crypto piloté par Grok. L'incident est la démonstration la plus coûteuse à ce jour d'un angle mort défensif déjà connu — un filtre par appariement de chaînes ne voit pas à travers les encodages que le modèle lui-même décode volontiers.

2026-05-27//8 min

OFFENSIVE AI MEDIUM

La première vague de CVE : la découverte assistée par IA redessine le volume des divulgations

L'analyse VulnCheck du 14 mai 2026 montre une hausse YTD de +563 % sur Chrome, +476 % sur GitHub, +180 % sur VMware, +170 % sur Apache. Le basculement systémique derrière les manchettes Apple, Mozilla et ActiveMQ est désormais lisible dans les chiffres.

2026-05-27//7 min

PROMPT INJECTION MEDIUM

Injection par font-mapping : le peer review devient une surface d'attaque LLM

Un benchmark arXiv du 25 mai 2026 montre que des payloads dissimulés par font-mapping font passer des reviews LLM de reject à accept. ICML 2026 a déjà utilisé la même technique en miroir pour rejeter 497 articles.

2026-05-27//8 min

AGENTS CRITICAL

Transport STDIO de MCP : le choix de conception devenu 11 CVE et 200 000 agents exposés

Le 16 avril 2026, OX Security a révélé que le transport STDIO de MCP, signé Anthropic, exécute toute commande qu'on lui passe. Anthropic parle d'un comportement « voulu ». La cascade a produit onze CVE en six semaines.

2026-05-27//8 min

RESEARCH MEDIUM

MultiBreak : 10 389 prompts multi-tours révèlent comment les jailbreaks conversationnels percent l'alignement des LLM

Un papier publié à ICML 2026 le 3 mai dernier dévoile le benchmark multi-tours le plus large et le plus diversifié à ce jour. Il enregistre des écarts de taux de succès d'attaque allant jusqu'à 54 points sur DeepSeek-R1-7B et 34,6 sur GPT-4.1-mini par rapport à l'état de l'art précédent, et quantifie comment un alignement qui tient en un tour s'effondre sur plusieurs.

2026-05-27//8 min

AGENTS CRITICAL

Quand le prompt devient un shell : de l'injection au RCE dans les frameworks d'agents

Deux CVE dans Microsoft Semantic Kernel et quatre dans CrewAI — toutes divulguées début 2026 — transforment un simple prompt injecté en exécution de code à distance sur l'hôte. Le motif est structurel, pas accidentel.

2026-05-27//8 min

RESEARCH LOW

Teaching Claude Why : comment Anthropic a fait passer la mésalignement agentique à zéro

Le 8 mai 2026, l'équipe Alignment Science d'Anthropic a publié une étude de cas montrant qu'apprendre à Claude à expliquer son raisonnement éthique — et non simplement à le démontrer — réduit la mésalignement agentique de 96 % à moins de 1 %.

2026-05-27//8 min

AGENTS MEDIUM

Empoisonner une fois, exploiter pour toujours : poisoning persistant de la mémoire des agents LLM (OWASP ASI06)

Un papier arXiv d'avril 2026 sur le memory poisoning inter-sites et un post OWASP du 13 mai 2026 sur la découverte MemoryTrap de Cisco contre Claude Code convergent vers le même constat : la mémoire d'agent est une frontière de confiance.

2026-05-26//8 min

AGENTS MEDIUM

Sécuriser les agents IA comme des systèmes d'exploitation : la cartographie du CISPA

Un papier du CISPA publié le 14 mai 2026 transpose plusieurs décennies de sécurité des OS aux agents LLM. Testé sur quatre agents de type OpenClaw, deux familles de faiblesses — exfiltration inter-utilisateurs et sortie réseau non autorisée — échouent sur tous les systèmes.

2026-05-26//8 min

OFFENSIVE AI CRITICAL

Attaque ICS assistée par IA : leçons de l'intrusion contre le service des eaux de Monterrey

Le rapport publié par Dragos en mai 2026 sur Servicios de Agua y Drenaje de Monterrey documente la première campagne analysée publiquement où un LLM commercial — Claude — a été l'opérateur technique principal d'une tentative d'intrusion OT.

2026-05-26//8 min

MULTIMODAL CRITICAL

AudioHijack : du son imperceptible détourne les agents vocaux (IEEE S&P 2026)

Un papier IEEE S&P du 16 avril 2026 introduit l'injection de prompt auditive : une réverbération adverse cachée dans l'audio pousse 13 modèles audio-langage et les agents vocaux commerciaux (Mistral AI, Microsoft Azure) à exécuter des actions non autorisées avec 79 à 96 % de réussite.

2026-05-26//8 min

INDIRECT INJECTION MEDIUM

XSS Discourse AI (CVE-2026-27740) : quand la sortie d'un LLM est traitée comme du HTML de confiance

Un message signalé, un modérateur IA, un appel à htmlSafe. Le plugin Discourse AI traitait la sortie LLM comme du markup de confiance, transformant une prompt injection indirecte en XSS côté staff. Publié le 19 mars 2026.

2026-05-26//7 min

AGENTS CRITICAL

Le Triangle Mortel : quand un agent lit des données privées, du contenu non fiable, et peut appeler dehors

Le cadre de Simon Willison pour la faute architecturale qui a transformé la vague d'exfiltrations d'agents IA de 2026 en classe de vulnérabilité, et non en coïncidence.

2026-05-26//8 min

AGENTS MEDIUM

Vulnérabilités back-end MCP : les failles classiques refont surface dans les passerelles IA-bases de données

La recherche d'Akamai du 12 mai 2026 documente une injection SQL (CVE-2025-66335), une authentification manquante et des entrées non assainies dans trois serveurs MCP — Apache Doris, Apache Pinot et Alibaba RDS. Le motif, plus que les bugs, est l'enseignement.

2026-05-26//8 min

OFFENSIVE AI MEDIUM

OpenAI Daybreak et GPT-5.5-Cyber : un modèle de sécurité permissif derrière un sas d'identité vérifiée

Entre le 7 et le 12 mai 2026, OpenAI a lancé Daybreak — une plateforme de cybersécurité reposant sur GPT-5.5, Codex Security et un cousin « cyber-permissif », GPT-5.5-Cyber. Le red team de l'UK AISI avait trouvé un jailbreak universel en six heures.

2026-05-26//8 min

DEFENSE MEDIUM

Project Glasswing : 10 000+ bugs critiques trouvés par Claude Mythos en un mois

Le bilan publié par Anthropic le 26 mai 2026 indique que près de 50 partenaires de Project Glasswing ont utilisé Claude Mythos Preview pour identifier plus de 10 000 vulnérabilités de sévérité élevée ou critique, dont 271 bugs latents corrigés dans Firefox 150.

2026-05-26//8 min

AGENTS CRITICAL

Semantic Kernel : quand un prompt devient un shell (CVE-2026-25592, CVE-2026-26030)

Microsoft a divulgué le 7 mai 2026 deux vulnérabilités critiques dans Semantic Kernel qui transforment un simple prompt injecté en exécution de code sur l'hôte. La cause racine est architecturale : registre d'outils et eval() traités comme des commodités, pas comme des frontières de sécurité.

2026-05-26//8 min

SUPPLY CHAIN MEDIUM

Déclencheurs cachés dans SKILL.md : attaques sémantiques sur les registres de skills d'agents

Un papier de l'Université du Maryland publié le 12 mai 2026 montre qu'un ajout de 20 tokens dans un fichier SKILL.md fait découvrir et sélectionner une skill malveillante par l'agent dans 77 à 86 % des essais, et contourne les scans du registre jusqu'à 100 % du temps.

2026-05-26//8 min

AGENTS MEDIUM

Trust No Tool : empoisonnement cognitif des agents LLM via les retours d'outils

Un article arXiv du 17 mai 2026 introduit l'« empoisonnement cognitif » : un outil malveillant gagne la confiance de l'agent au fil de tours anodins et n'arme que l'action finale. La cible de défense passe du prompt à la trajectoire.

2026-05-26//8 min

ADVERSARIAL MEDIUM

Usability as a Weapon : quand une demande d'amélioration rend le code généré vulnérable

Un paper arXiv du 11 mai 2026 montre que demander à un LLM de coder « plus vite », « plus simple » ou avec « une fonctionnalité de plus » fait silencieusement disparaître les protections. UPAttack atteint 98,1 % sur GPT-5.2-chat et Gemini-3.

2026-05-26//8 min

DEFENSE MEDIUM

Agents Rule of Two : la réponse pragmatique de Meta au prompt injection

Publiée le 31 octobre 2025 par Meta et reprise dans le guide Databricks de mai 2026, l'Agents Rule of Two limite une session d'agent à deux des trois propriétés à risque — le cadre le plus actionnable tant que le prompt injection reste sans solution.

2026-05-25//7 min

AGENTS CRITICAL

CVE-2026-35435 : les agents M365 publiés depuis Azure AI Foundry faisaient confiance à des appelants qu'ils auraient dû refuser

Divulguée le 7 mai 2026 (CVSS 8.6), une faille de contrôle d'accès dans Azure AI Foundry permet à des attaquants non autorisés d'élever leurs privilèges via les agents M365 publiés. Microsoft signale une exploitation active ; des mesures de mitigation existent avant le correctif.

2026-05-25//7 min

AGENTS CRITICAL

Azure SRE Agent : un contrôle de token multi-tenant qui laissait des inconnus écouter vos incidents (CVE-2026-32173)

Divulguée le 20 avril 2026, une mauvaise configuration d'app registration Entra ID sur le WebSocket /agentHub d'Azure SRE Agent permettait à n'importe quel tenant de se connecter et d'écouter chaque prompt, chaque raisonnement, chaque commande CLI et chaque identifiant — silencieusement.

2026-05-25//8 min

AGENTS CRITICAL

Claw Chain : quatre CVE OpenClaw qui transforment l'agent IA en main de l'attaquant

Divulguées le 15 mai 2026, les failles Claw Chain de Cyera Research chaînent quatre vulnérabilités OpenClaw — évasion de sandbox, fuite de variables d'environnement, élévation de privilèges MCP, lecture par symlink — en prise de contrôle complète de l'hôte via l'agent.

2026-05-25//8 min

AGENTS CRITICAL

Comment and Control : un même schéma d'injection de prompt, trois agents qui fuitent les secrets GitHub Actions

Divulguée le 15 avril 2026, l'attaque Comment and Control transforme un titre de PR, un commentaire d'issue ou un commentaire HTML en canal d'exfiltration de secrets dans Claude Code, Gemini CLI et GitHub Copilot Agent.

2026-05-25//8 min

RESEARCH MEDIUM

Intégrité contextuelle : pourquoi les défenses contre l'injection de prompt échouent

Un papier de mai 2026 d'Abdelnabi et Bagdasarian relit l'injection de prompt à travers l'Intégrité Contextuelle et montre que séparer données et instructions est une erreur de catégorie.

2026-05-25//7 min

PROMPT INJECTION CRITICAL

Copirate 365 : chaîner injection de prompt, invocation différée d'outils et empoisonnement de mémoire dans M365 Copilot (CVE-2026-24299)

Le compte-rendu DEF CON de Johann Rehberger, publié en mai 2026, déroule une chaîne d'injection indirecte en cinq étapes qui transforme un courriel piégé en backdoor persistante dans Microsoft 365 Copilot. Patchée, mais les patterns sont génériques.

2026-05-25//8 min

INDIRECT INJECTION MEDIUM

Injection indirecte de prompt : trois études d'avril 2026 convergent

Google, Forcepoint et le CISPA ont mesuré indépendamment l'injection indirecte de prompt sur le web ouvert en avril 2026. Bilan : plus de 15 000 payloads validés, +32 % de croissance, modèles industrialisés.

2026-05-25//7 min

INFRASTRUCTURE CRITICAL

LiteLLM CVE-2026-42208 : une injection SQL pré-authentifiée dans la passerelle IA

Divulguée le 20 avril 2026 et exploitée 36 heures après l'indexation de l'avis mondial, CVE-2026-42208 transforme l'en-tête Authorization de LiteLLM en lecture directe sur toutes les clés fournisseur que la passerelle fronte.

2026-05-25//6 min

RESEARCH MEDIUM

Quand l'attaquant est un autre LLM : les grands modèles de raisonnement en jailbreakers autonomes

Un papier Nature Communications formalisé en mai 2026 montre que quatre modèles de raisonnement — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini et Qwen3 235B — jailbreakent neuf LLM cibles avec un taux de succès global de 97,14 %, à partir d'un simple prompt système.

2026-05-25//7 min

JAILBREAK MEDIUM

Jailbreaks par encodage mathématique : quand la théorie des ensembles contourne l'alignement

Un papier arXiv publié le 5 mai 2026 montre que reformuler une requête nuisible en problème de théorie des ensembles ou de logique formelle contourne l'alignement de 46 à 56 % du temps sur huit modèles de pointe — mais seulement si un LLM auxiliaire fait la reformulation.

2026-05-25//7 min

AGENTS CRITICAL

PraisonAI CVE-2026-44338 : un serveur d'agents sans authentification, exploité en 3h44

Divulguée le 11 mai 2026, CVE-2026-44338 livre PraisonAI avec l'authentification désactivée en dur dans son ancien serveur API. Un scanner CVE-Detector a sondé l'endpoint moins de quatre heures plus tard.

2026-05-25//6 min

INDIRECT INJECTION MEDIUM

ShareLeak (CVE-2026-21520) : le premier CVE assigné par Microsoft à une injection de prompt Copilot

Divulgué le 15 avril 2026, le write-up ShareLeak de Capsule Security décrit une injection indirecte de prompt dans Microsoft Copilot Studio. Microsoft a assigné CVE-2026-21520 (CVSS 7.5) — une première qui requalifie la prompt injection en classe de vulnérabilité suivie.

2026-05-25//7 min

DEFENSE MEDIUM

ARGUS : une défense par graphe de provenance contre l'injection de prompt contextuelle

Publié le 5 mai 2026, l'article ARGUS introduit un audit par graphe d'influence pour les agents LLM — le taux de réussite des attaques chute de 28,8 % à 3,8 % sur un nouveau benchmark.

2026-05-22//8 min

DEFENSE MEDIUM

Hiérarchie des instructions : entraîner les LLM à prioriser les ordres privilégiés

Le papier OpenAI de 2024 propose une défense structurelle contre l'injection de prompt : apprendre au modèle que système > utilisateur > sortie d'outil. L'idée est désormais centrale dans l'entraînement de GPT-4o-mini et de la série o.

2026-05-22//8 min

INFRASTRUCTURE CRITICAL

LMDeploy SSRF : quand un chargeur d'images détourne l'infrastructure IA

CVE-2026-33626 transforme la fonction load_image() de LMDeploy en primitive SSRF générique. Premier exploit observé en 12 heures et 31 minutes après publication de l'avis.

2026-05-22//7 min

AGENTS CRITICAL

Détournement d'agent en local : attaques WebSocket cross-origin sur les agents de code IA

La CVE-2026-44211 (CVSS 9.7), divulguée le 7 mai 2026, montre comment la simple visite d'une page malveillante peut détourner un agent de code IA installé sur le poste d'un développeur. La classe d'attaque est générique — et architecturale.

2026-05-22//8 min

SUPPLY CHAIN CRITICAL

Mini Shai-Hulud : le ver supply-chain qui s'en est pris à l'écosystème IA

Divulgué du 11 au 18 mai 2026, le ver Mini Shai-Hulud a trojanisé plus de 170 paquets npm et PyPI — dont Mistral AI, Guardrails AI et TanStack — et installe une persistance dans Claude Code et VS Code.

2026-05-22//8 min

DEFENSE MEDIUM

Le filtrage de sortie bat l'auto-défense du modèle : 20 000 attaques adaptatives, un seul survivant

Posté le 26 avril et révisé le 12 mai 2026, un papier Swept AI / Michigan a opposé neuf défenses contre l'injection de prompt à un attaquant adaptatif. Toutes les défenses côté modèle ont fini par tomber. Seul le filtrage de sortie applicatif a tenu — zéro fuite sur 15 000 attaques.

2026-05-22//7 min

AGENTS CRITICAL

Prompts-shells : quand l'injection de prompt devient RCE dans les frameworks d'agents

Deux CVE divulguées dans Microsoft Semantic Kernel le 7 mai 2026 (CVE-2026-25592, CVE-2026-26030) montrent comment un prompt injecté peut basculer du texte à l'exécution de code à distance sur l'hôte de l'agent.

2026-05-22//8 min

PROMPT INJECTION CRITICAL

ASCII Smuggling : commandes cachées via les caractères Unicode Tag

Les caractères Unicode Tag (U+E0000–U+E007F) sont invisibles pour les humains mais interprétés par les LLM. Les attaquants les intègrent dans des emails, pages web et PDF pour injecter des commandes silencieuses qui détournent le comportement des agents.

2026-05-19//8 min

JAILBREAK CRITICAL

Many-shot jailbreaking : 256 exemples pour contourner n'importe quel alignement

Les chercheurs d'Anthropic ont montré qu'en remplissant la fenêtre de contexte avec 256 faux exemples de Q&R, on contourne l'entraînement de sécurité. Plus de contexte = plus de surface d'attaque.

2026-05-15//6 min

DATA LEAK CRITICAL

Extraction de system prompt via attaques par répétition

Demander au modèle de 'répéter le mot poème à l'infini' le fait éventuellement vomir des données d'entraînement et des system prompts. Documenté sur Claude 3, GPT-4 et Gemini.

2026-05-10//4 min

RESEARCH LOW

Sleeper agents : backdoors cachées qui survivent à l'entraînement de sécurité

Anthropic a démontré que des modèles entraînés avec des phrases-déclencheurs cachées conservent leur comportement backdoor même après l'entraînement de sécurité RLHF standard. Les implications pour les LLM en open-weight sont significatives.

2026-05-03//14 min