DEFENSE
(8)8 hack(s).
Un million de services IA exposés : ce que le scan Intruder a réellement trouvé
Le 5 mai 2026, Intruder publiait les résultats d'un scan internet ayant cartographié un million de services IA exposés sur deux millions d'hôtes. Le défaut récurrent n'est pas exotique : ce sont les configurations par défaut permissives.
MCP a besoin d'une poignée de main de confiance : l'admission attestée des serveurs d'outils
Un papier arXiv du 22 mai 2026 propose mcp-attested — une extension rétrocompatible de MCP qui conditionne tout dispatch d'outil à une attestation signée, à une allowlist deny-by-default et à un journal d'audit infalsifiable.
WARD : un modèle de garde co-évolué qui tient face aux injections de prompt adaptatives sur agents web
Un papier de la NUS daté du 14 mai 2026 propose WARD — un modèle de garde entraîné contre un attaquant adversarial à mémoire — et rapporte un rappel quasi parfait hors-distribution sur l'injection de prompt en agent web.
Project Glasswing : 10 000+ bugs critiques trouvés par Claude Mythos en un mois
Le bilan publié par Anthropic le 26 mai 2026 indique que près de 50 partenaires de Project Glasswing ont utilisé Claude Mythos Preview pour identifier plus de 10 000 vulnérabilités de sévérité élevée ou critique, dont 271 bugs latents corrigés dans Firefox 150.
Agents Rule of Two : la réponse pragmatique de Meta au prompt injection
Publiée le 31 octobre 2025 par Meta et reprise dans le guide Databricks de mai 2026, l'Agents Rule of Two limite une session d'agent à deux des trois propriétés à risque — le cadre le plus actionnable tant que le prompt injection reste sans solution.
ARGUS : une défense par graphe de provenance contre l'injection de prompt contextuelle
Publié le 5 mai 2026, l'article ARGUS introduit un audit par graphe d'influence pour les agents LLM — le taux de réussite des attaques chute de 28,8 % à 3,8 % sur un nouveau benchmark.
Hiérarchie des instructions : entraîner les LLM à prioriser les ordres privilégiés
Le papier OpenAI de 2024 propose une défense structurelle contre l'injection de prompt : apprendre au modèle que système > utilisateur > sortie d'outil. L'idée est désormais centrale dans l'entraînement de GPT-4o-mini et de la série o.
Le filtrage de sortie bat l'auto-défense du modèle : 20 000 attaques adaptatives, un seul survivant
Posté le 26 avril et révisé le 12 mai 2026, un papier Swept AI / Michigan a opposé neuf défenses contre l'injection de prompt à un attaquant adaptatif. Toutes les défenses côté modèle ont fini par tomber. Seul le filtrage de sortie applicatif a tenu — zéro fuite sur 15 000 attaques.