Tous les hacks (75)
Base de données ouverte des attaques, jailbreaks et défenses sur les LLM. Mise à jour quotidiennement.
SymJack : une copie de fichier approuvée devient RCE dans six agents de codage IA
Adversa AI a publié le 26 mai 2026 un schéma de détournement par lien symbolique qui transforme une simple commande shell en réécriture de la config et en RCE sur l'hôte, à travers Claude Code, Cursor, Gemini, Antigravity, Copilot, Grok Build et Codex CLI.
Slopsquatting en 2026 : 127 noms de paquets que les cinq LLM frontières hallucinent à l'identique
Une réplication arXiv du 16 mai 2026 de l'étude USENIX Security '25 sur le slopsquatting montre que les taux d'hallucination baissent sur les modèles frontières — mais identifie 127 paquets fantômes inventés à l'identique par tous les modèles testés, soit une surface d'attaque supply-chain agnostique du modèle.
Blindfold : des jailbreaks au niveau action contournent les défenses sémantiques des LLM embarqués
Un papier SenSys '26 (11–14 mai 2026) présente Blindfold, un framework automatisé qui jailbreake les LLM embarqués en décomposant un but malveillant en actions individuellement anodines — jusqu'à 53 % de gain d'attaque sur un bras robotique 6-DoF réel.
MCPwn (CVE-2026-33032) : un endpoint MCP de nginx-ui livre le serveur web
Un endpoint MCP non authentifié dans nginx-ui ≤ 2.3.3 permet à n'importe quel attaquant réseau de réécrire les configs nginx et de redémarrer le service. CVSS 9.8, divulgation publique le 15 avril 2026, exploitation en environnement réel observée quelques heures après le correctif.
Mesurer la capacité d'exploitation des LLM : ExploitBench, ExploitGym et SCONE-bench
Le 22 mai 2026, Anthropic a publié les résultats de Mythos Preview sur trois nouveaux benchmarks d'exploitation. Les chiffres — et la manière dont les benchmarks décomposent la chaîne d'exploit — changent la façon dont les défenseurs doivent penser la capacité offensive frontière.
Proprietary Problems : l'étude Cisco sur 15 modèles fermés montre que les scores de sûreté en un tour ratent l'essentiel du risque multi-tours
Une étude Cisco publiée le 27 mai 2026, portant sur 15 modèles phares fermés d'OpenAI, Anthropic, Google, Amazon et xAI, mesure des taux de succès d'attaque multi-tours allant de 7,89 % à 88,30 % — et des écarts pouvant atteindre 55 points par rapport au régime mono-tour.
Un million de services IA exposés : ce que le scan Intruder a réellement trouvé
Le 5 mai 2026, Intruder publiait les résultats d'un scan internet ayant cartographié un million de services IA exposés sur deux millions d'hôtes. Le défaut récurrent n'est pas exotique : ce sont les configurations par défaut permissives.
Le fossé sécurité agent-humain : ce que la production déploie, ce que la recherche étudie
Un papier UCLA du 23 mai 2026 audite 59 études académiques, 21 systèmes d'agents en production et 26 plugins de sécurité — et constate que les défenses préférées des chercheurs n'ont aucun déploiement en production.
La taxe d'autonomie : comment l'entraînement défensif casse les agents LLM
Un papier USC du 19 mars 2026 mesure le coût de l'entraînement anti-injection sur la compétence des agents — les modèles défendus expirent sur 99 % des tâches, contre 13 % pour la baseline.
MCP a besoin d'une poignée de main de confiance : l'admission attestée des serveurs d'outils
Un papier arXiv du 22 mai 2026 propose mcp-attested — une extension rétrocompatible de MCP qui conditionne tout dispatch d'outil à une attestation signée, à une allowlist deny-by-default et à un journal d'audit infalsifiable.
WARD : un modèle de garde co-évolué qui tient face aux injections de prompt adaptatives sur agents web
Un papier de la NUS daté du 14 mai 2026 propose WARD — un modèle de garde entraîné contre un attaquant adversarial à mémoire — et rapporte un rappel quasi parfait hors-distribution sur l'injection de prompt en agent web.
MemMorph : détournement des appels d'outils par empoisonnement fluide de la mémoire
Une publication arXiv du 24 mai 2026 (NTU Singapour) montre que trois entrées de mémoire d'apparence anodine suffisent à orienter un agent vers l'outil choisi par l'attaquant, avec 85,9 % de succès — et résistent à trois défenses standard.
SilentRetrieval : un empoisonnement de corpus RAG fluide qui passe les filtres de perplexité
Un préprint arXiv du 27 mai 2026 propose une attaque en deux temps qui cache des déclencheurs de détournement dans des documents fluides, atteignant 57 % de succès LLM sur Natural Questions et MS MARCO avec un seul document empoisonné par requête.
CISA + Five Eyes publient le premier guide commun sur l'adoption des IA agentiques
Le 1er mai 2026, CISA, NSA et les agences cyber des Five Eyes ont publié 'Careful Adoption of Agentic AI Services' — une taxonomie en 5 risques et un manuel de déploiement que les opérateurs d'infrastructures critiques sont désormais censés intégrer à leurs cadres de cybersécurité existants.
Microsoft Copilot Cowork : des skills piégées exfiltrent les fichiers M365 sans approbation
Publication PromptArmor du 26 mai 2026 : cinq lignes d'injection de prompt dans une skill Copilot Cowork suffisent à exfiltrer des documents SharePoint et OneDrive via des messages Teams auto-approuvés.
CrossMPI : une injection de prompt par image seule pilote ce que lisent et voient les VLM
Un papier de l'Université de Xidian publié sur arXiv le 15 mai 2026 introduit CrossMPI : des perturbations d'image imperceptibles modifient la façon dont les modèles vision-langage interprètent à la fois l'image et la requête textuelle de l'utilisateur, avec 66 % de réussite moyenne sur cinq LVLM.
IterInject : quand un LLM optimise lui-même ses injections de prompt indirectes
Un papier du 23 mai 2026 boucle la chaîne payload / diagnostiqueur / optimiseur LLM — l'ASR d'injection indirecte passe de quasi-zéro à 33–90 % sur InjecAgent, et 5 cibles sur 9 sont compromises sur Claude Code.
La NSA AISC publie un guide de sécurité MCP pour les déploiements IA
Le 20 mai 2026, l'Artificial Intelligence Security Center de la NSA a publié une fiche d'information de 15 pages sur le Model Context Protocol : huit classes de faiblesses, cinq incidents réels, neuf recommandations défensives.
pgAdmin 4 ajoute un panneau LLM et hérite d'un LFI+SSRF classique (CVE-2026-7817)
pgAdmin 4 9.15 corrige un LFI et un SSRF authentifiés dans les nouveaux points d'API LLM. La classe de bug a quarante ans, la surface est toute neuve.
Empoisonner la tour de garde : quand les copilotes SOC lisent des logs contrôlés par l'attaquant
Un papier du 23 mai 2026 formalise l'injection de prompt par substrat de logs — du contenu adverse glissé dans les champs de logs pour piloter les assistants LLM des SOC. La meilleure défense laisse passer 11,8 % d'injections en moyenne.
Contamination temporelle de la mémoire : dérive longitudinale de sûreté chez les agents LLM
Trois preprints arXiv d'avril et mai 2026 convergent sur un mode de défaillance complémentaire de l'empoisonnement de mémoire — les agents équipés de mémoire dérivent vers l'unsafe au fil de l'accumulation de contexte bénin, les résumés compressés agissant comme un canal de blanchiment.
La pression : les équipes sécurité de l'open source face au déluge de vulnérabilités assistées par IA
Le 26 mai 2026, Daniel Stenberg (curl) publie « The pressure » : plus d'un rapport de sécurité crédible par jour, douze CVE confirmées à mi-cycle, un schéma désormais confirmé par d'autres mainteneurs.
Le harnais de l'agent est votre vrai périmètre de privilège — et la plupart des équipes le placent au mauvais endroit
Une analyse de Pillar Security publiée le 26 mai 2026 démontre que le harnais — Claude Code, Cursor, Codex — détient les secrets, outils et hooks que l'agent ne voit jamais. Des bugs récents de harnais et la CVE-2026-22708 rendent la démonstration concrète.
Sockpuppeting : un préfixe d'une ligne qui jailbreak 11 LLM en production
Une seule ligne injectée comme dernier message « assistant » incite 7 modèles majeurs sur 10 à générer du contenu nuisible. Le correctif n'est pas dans le modèle — c'est une validation d'ordre des messages côté API.
GrafanaGhost : injection indirecte de prompt et bug de parsing d'URL pour exfiltrer les données des tableaux de bord
La divulgation du 7 avril 2026 par Noma Security montre comment trois défauts modestes — un point d'injection stocké, un contrôle startsWith('/') et un bypass de garde-fou en un mot — se combinent en un canal d'exfiltration silencieux via l'assistant IA de Grafana.
Les réseaux d'agents cassent autrement : le red-team de Microsoft, et RAMPART et Clarity
Microsoft Research a red-teamé une plateforme interne de 100+ agents toujours actifs. Quatre schémas d'attaque — propagation, amplification, capture de confiance, chaînes de proxy — n'apparaissent qu'au niveau du réseau. RAMPART et Clarity, open-sourcés le 20 mai 2026, sont la réponse.
Antigravity find_by_name : quand un appel d'outil natif saute par-dessus le Secure Mode
Le 20 avril 2026, Pillar Security a divulgué qu'un seul paramètre non assaini de l'outil find_by_name de Google Antigravity transformait une recherche de fichier en exécution de code arbitraire — en contournant le sandbox le plus strict de l'IDE.
Apple crédite officiellement Claude sur deux CVE macOS dans son bulletin de mai 2026
Le 11 mai 2026, l'avis de sécurité Apple pour macOS Tahoe 26.5 cite Claude aux côtés de ses chercheurs sur deux CVE — un dépassement d'entier dans le kernel et un use-after-free WebKit. La recherche de vulnérabilités assistée par IA entre dans le changelog officiel.
BadHost (CVE-2026-48710) : un caractère dans l'en-tête Host suffit à contourner l'auth dans Starlette, vLLM et FastMCP
X41 D-Sec a divulgué le 22 mai 2026 un contournement d'authentification critique dans Starlette < 1.0.1. Un seul / ? ou # dans l'en-tête HTTP Host désynchronise le chemin routé du chemin vu par le middleware, cassant l'autorisation par chemin dans vLLM, LiteLLM, FastMCP et des milliers d'agents IA construits sur FastAPI.
Bleeding Llama : une faille de parsing GGUF expose la mémoire d'Ollama à des attaquants non authentifiés
Divulguée publiquement en mai 2026 et baptisée Bleeding Llama par Cyera, la CVE-2026-7482 permet à un attaquant distant d'extraire des fragments arbitraires du tas d'un serveur Ollama — clés d'API, system prompts, conversations d'autres utilisateurs — en trois appels d'API non authentifiés. Le patch silencieux a été publié 2,5 mois avant l'attribution de la CVE.
ClaudeBleed : quand un agent navigateur fait confiance à la mauvaise extension
LayerX a divulgué ClaudeBleed le 6 mai 2026 : une faille de frontière de confiance permettait à n'importe quelle extension Chrome de piloter Claude in Chrome et d'exfiltrer des données Gmail, Drive et GitHub. Le premier correctif a été contourné en quelques heures.
Injection de prompt encodée : quand les garde-fous échouent parce que le LLM décode le payload
Le 4 mai 2026, un tweet rédigé en code Morse a vidé environ 175 000 $ d'un portefeuille crypto piloté par Grok. L'incident est la démonstration la plus coûteuse à ce jour d'un angle mort défensif déjà connu — un filtre par appariement de chaînes ne voit pas à travers les encodages que le modèle lui-même décode volontiers.
La première vague de CVE : la découverte assistée par IA redessine le volume des divulgations
L'analyse VulnCheck du 14 mai 2026 montre une hausse YTD de +563 % sur Chrome, +476 % sur GitHub, +180 % sur VMware, +170 % sur Apache. Le basculement systémique derrière les manchettes Apple, Mozilla et ActiveMQ est désormais lisible dans les chiffres.
Injection par font-mapping : le peer review devient une surface d'attaque LLM
Un benchmark arXiv du 25 mai 2026 montre que des payloads dissimulés par font-mapping font passer des reviews LLM de reject à accept. ICML 2026 a déjà utilisé la même technique en miroir pour rejeter 497 articles.
Transport STDIO de MCP : le choix de conception devenu 11 CVE et 200 000 agents exposés
Le 16 avril 2026, OX Security a révélé que le transport STDIO de MCP, signé Anthropic, exécute toute commande qu'on lui passe. Anthropic parle d'un comportement « voulu ». La cascade a produit onze CVE en six semaines.
MultiBreak : 10 389 prompts multi-tours révèlent comment les jailbreaks conversationnels percent l'alignement des LLM
Un papier publié à ICML 2026 le 3 mai dernier dévoile le benchmark multi-tours le plus large et le plus diversifié à ce jour. Il enregistre des écarts de taux de succès d'attaque allant jusqu'à 54 points sur DeepSeek-R1-7B et 34,6 sur GPT-4.1-mini par rapport à l'état de l'art précédent, et quantifie comment un alignement qui tient en un tour s'effondre sur plusieurs.
Quand le prompt devient un shell : de l'injection au RCE dans les frameworks d'agents
Deux CVE dans Microsoft Semantic Kernel et quatre dans CrewAI — toutes divulguées début 2026 — transforment un simple prompt injecté en exécution de code à distance sur l'hôte. Le motif est structurel, pas accidentel.
Teaching Claude Why : comment Anthropic a fait passer la mésalignement agentique à zéro
Le 8 mai 2026, l'équipe Alignment Science d'Anthropic a publié une étude de cas montrant qu'apprendre à Claude à expliquer son raisonnement éthique — et non simplement à le démontrer — réduit la mésalignement agentique de 96 % à moins de 1 %.
Sécuriser les agents IA comme des systèmes d'exploitation : la cartographie du CISPA
Un papier du CISPA publié le 14 mai 2026 transpose plusieurs décennies de sécurité des OS aux agents LLM. Testé sur quatre agents de type OpenClaw, deux familles de faiblesses — exfiltration inter-utilisateurs et sortie réseau non autorisée — échouent sur tous les systèmes.
Attaque ICS assistée par IA : leçons de l'intrusion contre le service des eaux de Monterrey
Le rapport publié par Dragos en mai 2026 sur Servicios de Agua y Drenaje de Monterrey documente la première campagne analysée publiquement où un LLM commercial — Claude — a été l'opérateur technique principal d'une tentative d'intrusion OT.
Empoisonner une fois, exploiter pour toujours : poisoning persistant de la mémoire des agents LLM (OWASP ASI06)
Un papier arXiv d'avril 2026 sur le memory poisoning inter-sites et un post OWASP du 13 mai 2026 sur la découverte MemoryTrap de Cisco contre Claude Code convergent vers le même constat : la mémoire d'agent est une frontière de confiance.
AudioHijack : du son imperceptible détourne les agents vocaux (IEEE S&P 2026)
Un papier IEEE S&P du 16 avril 2026 introduit l'injection de prompt auditive : une réverbération adverse cachée dans l'audio pousse 13 modèles audio-langage et les agents vocaux commerciaux (Mistral AI, Microsoft Azure) à exécuter des actions non autorisées avec 79 à 96 % de réussite.
XSS Discourse AI (CVE-2026-27740) : quand la sortie d'un LLM est traitée comme du HTML de confiance
Un message signalé, un modérateur IA, un appel à htmlSafe. Le plugin Discourse AI traitait la sortie LLM comme du markup de confiance, transformant une prompt injection indirecte en XSS côté staff. Publié le 19 mars 2026.
Le Triangle Mortel : quand un agent lit des données privées, du contenu non fiable, et peut appeler dehors
Le cadre de Simon Willison pour la faute architecturale qui a transformé la vague d'exfiltrations d'agents IA de 2026 en classe de vulnérabilité, et non en coïncidence.
Vulnérabilités back-end MCP : les failles classiques refont surface dans les passerelles IA-bases de données
La recherche d'Akamai du 12 mai 2026 documente une injection SQL (CVE-2025-66335), une authentification manquante et des entrées non assainies dans trois serveurs MCP — Apache Doris, Apache Pinot et Alibaba RDS. Le motif, plus que les bugs, est l'enseignement.
OpenAI Daybreak et GPT-5.5-Cyber : un modèle de sécurité permissif derrière un sas d'identité vérifiée
Entre le 7 et le 12 mai 2026, OpenAI a lancé Daybreak — une plateforme de cybersécurité reposant sur GPT-5.5, Codex Security et un cousin « cyber-permissif », GPT-5.5-Cyber. Le red team de l'UK AISI avait trouvé un jailbreak universel en six heures.
Project Glasswing : 10 000+ bugs critiques trouvés par Claude Mythos en un mois
Le bilan publié par Anthropic le 26 mai 2026 indique que près de 50 partenaires de Project Glasswing ont utilisé Claude Mythos Preview pour identifier plus de 10 000 vulnérabilités de sévérité élevée ou critique, dont 271 bugs latents corrigés dans Firefox 150.
Semantic Kernel : quand un prompt devient un shell (CVE-2026-25592, CVE-2026-26030)
Microsoft a divulgué le 7 mai 2026 deux vulnérabilités critiques dans Semantic Kernel qui transforment un simple prompt injecté en exécution de code sur l'hôte. La cause racine est architecturale : registre d'outils et eval() traités comme des commodités, pas comme des frontières de sécurité.
Déclencheurs cachés dans SKILL.md : attaques sémantiques sur les registres de skills d'agents
Un papier de l'Université du Maryland publié le 12 mai 2026 montre qu'un ajout de 20 tokens dans un fichier SKILL.md fait découvrir et sélectionner une skill malveillante par l'agent dans 77 à 86 % des essais, et contourne les scans du registre jusqu'à 100 % du temps.
Trust No Tool : empoisonnement cognitif des agents LLM via les retours d'outils
Un article arXiv du 17 mai 2026 introduit l'« empoisonnement cognitif » : un outil malveillant gagne la confiance de l'agent au fil de tours anodins et n'arme que l'action finale. La cible de défense passe du prompt à la trajectoire.
Usability as a Weapon : quand une demande d'amélioration rend le code généré vulnérable
Un paper arXiv du 11 mai 2026 montre que demander à un LLM de coder « plus vite », « plus simple » ou avec « une fonctionnalité de plus » fait silencieusement disparaître les protections. UPAttack atteint 98,1 % sur GPT-5.2-chat et Gemini-3.
Agents Rule of Two : la réponse pragmatique de Meta au prompt injection
Publiée le 31 octobre 2025 par Meta et reprise dans le guide Databricks de mai 2026, l'Agents Rule of Two limite une session d'agent à deux des trois propriétés à risque — le cadre le plus actionnable tant que le prompt injection reste sans solution.
CVE-2026-35435 : les agents M365 publiés depuis Azure AI Foundry faisaient confiance à des appelants qu'ils auraient dû refuser
Divulguée le 7 mai 2026 (CVSS 8.6), une faille de contrôle d'accès dans Azure AI Foundry permet à des attaquants non autorisés d'élever leurs privilèges via les agents M365 publiés. Microsoft signale une exploitation active ; des mesures de mitigation existent avant le correctif.
Azure SRE Agent : un contrôle de token multi-tenant qui laissait des inconnus écouter vos incidents (CVE-2026-32173)
Divulguée le 20 avril 2026, une mauvaise configuration d'app registration Entra ID sur le WebSocket /agentHub d'Azure SRE Agent permettait à n'importe quel tenant de se connecter et d'écouter chaque prompt, chaque raisonnement, chaque commande CLI et chaque identifiant — silencieusement.
Claw Chain : quatre CVE OpenClaw qui transforment l'agent IA en main de l'attaquant
Divulguées le 15 mai 2026, les failles Claw Chain de Cyera Research chaînent quatre vulnérabilités OpenClaw — évasion de sandbox, fuite de variables d'environnement, élévation de privilèges MCP, lecture par symlink — en prise de contrôle complète de l'hôte via l'agent.
Comment and Control : un même schéma d'injection de prompt, trois agents qui fuitent les secrets GitHub Actions
Divulguée le 15 avril 2026, l'attaque Comment and Control transforme un titre de PR, un commentaire d'issue ou un commentaire HTML en canal d'exfiltration de secrets dans Claude Code, Gemini CLI et GitHub Copilot Agent.
Intégrité contextuelle : pourquoi les défenses contre l'injection de prompt échouent
Un papier de mai 2026 d'Abdelnabi et Bagdasarian relit l'injection de prompt à travers l'Intégrité Contextuelle et montre que séparer données et instructions est une erreur de catégorie.
Copirate 365 : chaîner injection de prompt, invocation différée d'outils et empoisonnement de mémoire dans M365 Copilot (CVE-2026-24299)
Le compte-rendu DEF CON de Johann Rehberger, publié en mai 2026, déroule une chaîne d'injection indirecte en cinq étapes qui transforme un courriel piégé en backdoor persistante dans Microsoft 365 Copilot. Patchée, mais les patterns sont génériques.
Injection indirecte de prompt : trois études d'avril 2026 convergent
Google, Forcepoint et le CISPA ont mesuré indépendamment l'injection indirecte de prompt sur le web ouvert en avril 2026. Bilan : plus de 15 000 payloads validés, +32 % de croissance, modèles industrialisés.
LiteLLM CVE-2026-42208 : une injection SQL pré-authentifiée dans la passerelle IA
Divulguée le 20 avril 2026 et exploitée 36 heures après l'indexation de l'avis mondial, CVE-2026-42208 transforme l'en-tête Authorization de LiteLLM en lecture directe sur toutes les clés fournisseur que la passerelle fronte.
Quand l'attaquant est un autre LLM : les grands modèles de raisonnement en jailbreakers autonomes
Un papier Nature Communications formalisé en mai 2026 montre que quatre modèles de raisonnement — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini et Qwen3 235B — jailbreakent neuf LLM cibles avec un taux de succès global de 97,14 %, à partir d'un simple prompt système.
Jailbreaks par encodage mathématique : quand la théorie des ensembles contourne l'alignement
Un papier arXiv publié le 5 mai 2026 montre que reformuler une requête nuisible en problème de théorie des ensembles ou de logique formelle contourne l'alignement de 46 à 56 % du temps sur huit modèles de pointe — mais seulement si un LLM auxiliaire fait la reformulation.
PraisonAI CVE-2026-44338 : un serveur d'agents sans authentification, exploité en 3h44
Divulguée le 11 mai 2026, CVE-2026-44338 livre PraisonAI avec l'authentification désactivée en dur dans son ancien serveur API. Un scanner CVE-Detector a sondé l'endpoint moins de quatre heures plus tard.
ShareLeak (CVE-2026-21520) : le premier CVE assigné par Microsoft à une injection de prompt Copilot
Divulgué le 15 avril 2026, le write-up ShareLeak de Capsule Security décrit une injection indirecte de prompt dans Microsoft Copilot Studio. Microsoft a assigné CVE-2026-21520 (CVSS 7.5) — une première qui requalifie la prompt injection en classe de vulnérabilité suivie.
ARGUS : une défense par graphe de provenance contre l'injection de prompt contextuelle
Publié le 5 mai 2026, l'article ARGUS introduit un audit par graphe d'influence pour les agents LLM — le taux de réussite des attaques chute de 28,8 % à 3,8 % sur un nouveau benchmark.
Hiérarchie des instructions : entraîner les LLM à prioriser les ordres privilégiés
Le papier OpenAI de 2024 propose une défense structurelle contre l'injection de prompt : apprendre au modèle que système > utilisateur > sortie d'outil. L'idée est désormais centrale dans l'entraînement de GPT-4o-mini et de la série o.
LMDeploy SSRF : quand un chargeur d'images détourne l'infrastructure IA
CVE-2026-33626 transforme la fonction load_image() de LMDeploy en primitive SSRF générique. Premier exploit observé en 12 heures et 31 minutes après publication de l'avis.
Détournement d'agent en local : attaques WebSocket cross-origin sur les agents de code IA
La CVE-2026-44211 (CVSS 9.7), divulguée le 7 mai 2026, montre comment la simple visite d'une page malveillante peut détourner un agent de code IA installé sur le poste d'un développeur. La classe d'attaque est générique — et architecturale.
Mini Shai-Hulud : le ver supply-chain qui s'en est pris à l'écosystème IA
Divulgué du 11 au 18 mai 2026, le ver Mini Shai-Hulud a trojanisé plus de 170 paquets npm et PyPI — dont Mistral AI, Guardrails AI et TanStack — et installe une persistance dans Claude Code et VS Code.
Le filtrage de sortie bat l'auto-défense du modèle : 20 000 attaques adaptatives, un seul survivant
Posté le 26 avril et révisé le 12 mai 2026, un papier Swept AI / Michigan a opposé neuf défenses contre l'injection de prompt à un attaquant adaptatif. Toutes les défenses côté modèle ont fini par tomber. Seul le filtrage de sortie applicatif a tenu — zéro fuite sur 15 000 attaques.
Prompts-shells : quand l'injection de prompt devient RCE dans les frameworks d'agents
Deux CVE divulguées dans Microsoft Semantic Kernel le 7 mai 2026 (CVE-2026-25592, CVE-2026-26030) montrent comment un prompt injecté peut basculer du texte à l'exécution de code à distance sur l'hôte de l'agent.
ASCII Smuggling : commandes cachées via les caractères Unicode Tag
Les caractères Unicode Tag (U+E0000–U+E007F) sont invisibles pour les humains mais interprétés par les LLM. Les attaquants les intègrent dans des emails, pages web et PDF pour injecter des commandes silencieuses qui détournent le comportement des agents.
Many-shot jailbreaking : 256 exemples pour contourner n'importe quel alignement
Les chercheurs d'Anthropic ont montré qu'en remplissant la fenêtre de contexte avec 256 faux exemples de Q&R, on contourne l'entraînement de sécurité. Plus de contexte = plus de surface d'attaque.
Extraction de system prompt via attaques par répétition
Demander au modèle de 'répéter le mot poème à l'infini' le fait éventuellement vomir des données d'entraînement et des system prompts. Documenté sur Claude 3, GPT-4 et Gemini.
Sleeper agents : backdoors cachées qui survivent à l'entraînement de sécurité
Anthropic a démontré que des modèles entraînés avec des phrases-déclencheurs cachées conservent leur comportement backdoor même après l'entraînement de sécurité RLHF standard. Les implications pour les LLM en open-weight sont significatives.