Injection indirecte de prompt : trois études d'avril 2026 convergent
Google, Forcepoint et le CISPA ont mesuré indépendamment l'injection indirecte de prompt sur le web ouvert en avril 2026. Bilan : plus de 15 000 payloads validés, +32 % de croissance, modèles industrialisés.
De quoi parle-t-on ?
Trois études de mesure indépendantes, publiées fin avril 2026, confirment ce que la communauté sécurité pressentait sans avoir pu le quantifier : l’injection indirecte de prompt (IPI) n’est plus une curiosité de laboratoire. Des adversaires sèment activement le web ouvert d’instructions destinées aux agents pilotés par LLM, et la pratique croît assez vite pour devenir visible dans des crawls à l’échelle continentale.
Les trois rapports paraissent en moins de cinq jours :
- Google Security Team (23 avril 2026) — un scan de 2 à 3 milliards de pages crawlées chaque mois sur des blogs, forums et sections de commentaires, comparant des snapshots CommonCrawl de novembre 2025 et février 2026.
- Forcepoint X-Labs (24 avril 2026) — chasse active sur l’infrastructure web publique, avec une télémétrie déclenchée sur des motifs comme
Ignore previous instructionsouIf you are an LLM. - Khodayari, Zhang, Acharya et Pellegrino du CISPA Helmholtz Center (arXiv:2604.27202, 29 avril 2026) — étude empirique académique portant sur 1,2 milliard d’URLs réparties sur 24,8 millions d’hôtes, identifiant 15,3 K instances d’injection validées sur 11,7 K pages.
La convergence importe plus que chaque chiffre pris séparément : deux équipes red team d’entreprise et un groupe académique, avec des méthodes différentes, observent la même tendance.
Comment cela fonctionne
L’injection indirecte est la classe d’attaque originellement décrite par Greshake et al. en 2023 — on intègre des instructions à du contenu que le modèle ingèrera plus tard comme donnée, et l’agent suit. Ce qui change en 2026, c’est l’échelle et le réalisme des vecteurs.
L’article du CISPA constate que 54 templates de prompt totalisent environ 95 % des cas détectés. C’est la signature d’un outillage organisé, pas d’une expérimentation isolée. Forcepoint observe indépendamment des « templates d’injection partagés sur plusieurs domaines » et relève un payload largement diffusé qui semble fonctionner comme une sonde de test — un moyen d’identifier quels produits IA récupèrent et obéissent à du texte non fiable avant de déployer des payloads à plus fort impact.
La visibilité est l’autre constat marquant. Environ 70 % des payloads validés par le CISPA logent dans du HTML non rendu — en-têtes, commentaires, métadonnées. Sur le reste, 87 % sont visuellement masqués par l’une des trois techniques suivantes, avec des comptages approximatifs :
# Jeu de données CISPA (15,3K payloads validés, avril 2026)
HTML non rendu (en-têtes/commentaires/métadonnées) ≈ 70%
visible mais masqué par rendu :
manipulation de couleur/contraste 2 397
occlusion (overlays) 1 860
hors écran (viewport) 1 802
Les vecteurs visibles se répartissent en quatre objectifs principaux :
- Manipulation de réputation (~1,5 K instances) — instructions demandant aux pipelines LLM de recherche de promouvoir un produit, de forcer une citation ou de déclasser un concurrent.
- Protection de contenu / anti-scraping (~4 K) — propriétaires de sites demandant aux modèles de refuser le résumé ou d’omettre du contenu.
- Détection de bot IA (~3 K) — payloads sollicitant l’agent pour qu’il révèle son modèle et sa version.
- Charges disruptives ou destructrices — Google documente des exemples instruisant l’agent de supprimer les fichiers de la machine de l’utilisateur ; Forcepoint isole des payloads embarquant une transaction PayPal complète, ou routant des paiements pilotés par IA vers un lien de don Stripe via un mot d’« amplification persuasive » (
ultrathink).
L’efficacité pratique reste modérée. Les 5 200 expériences contrôlées du CISPA, sur 13 modèles et quatre représentations de page, montrent une obéissance plafonnant à 8 % sur des entrées en texte brut pour les petits modèles, et chutant à 0,2-1,1 % lorsque les indices structurels du HTML d’origine sont préservés. Non négligeable, donc, mais loin d’être universel.
Pourquoi c’est important
Le chiffre de +32 % de croissance (Google, novembre 2025 → février 2026) est la donnée saillante. Trois autres implications comptent pour quiconque déploie des fonctionnalités LLM.
D’abord, la surface d’attaque dépend du privilège de l’agent, pas de l’intelligence du modèle. La formulation de Forcepoint est exacte : « Une IA navigateur qui sait seulement résumer est à faible risque. Une IA agentique qui peut envoyer des e-mails, exécuter des commandes terminal ou traiter des paiements devient une cible à fort impact. » Le même payload qui produit une réponse cocasse chez un lecteur passif devient un virement bancaire chez un agent non contraint.
Ensuite, l’économie offensive se consolide. Templates récurrents et payload-sonde renvoient à de l’outillage et de la reconnaissance, plus à des farces ponctuelles. L’ère du Ignore previous instructions de 2023 cède la place à une IPI industrialisée, suivant la même courbe de maturation que celle observée pour le spam SEO, la malvertising et le typosquatting de chaîne d’approvisionnement.
Enfin, les représentations structurelles aident. Les deux études convergent : passer au modèle la structure HTML d’origine — pas du texte aplati — réduit l’obéissance aux instructions intégrées. Le résultat est cohérent avec le cadre d’intégrité contextuelle d’Abdelnabi et Bagdasarian (arXiv:2605.17634) et donne aux défenseurs un levier concret à optimiser.
Défenses
Ces mesures ne bouleversent pas le manuel défensif ; elles en aiguisent les priorités.
- Traiter le contenu web comme non fiable par défaut. Tout agent qui consomme des pages récupérées doit fonctionner sous la Règle des deux — ne jamais combiner entrée non fiable, accès à des données privées et capacité à modifier l’état dans la même session.
- Préserver les indices structurels. Passer le HTML au modèle avec ses frontières intactes (titres, blocs de code, zones de métadonnées) plutôt que de l’aplatir en texte brut. Les expériences du CISPA quantifient le gain : un ordre de grandeur d’obéissance en moins.
- Filtrer les techniques de dissimulation avant retrieval. Rendre la page, puis exporter uniquement le DOM visible, en supprimant les commentaires HTML, les balises
meta, les éléments hors écran, et le texte envisibility:hidden,display:none, contraste quasi nul ou taille d’un pixel. La plupart des payloads observés meurent dans ce filtre. - Liste blanche de domaines pour les flux sensibles. Si l’agent peut agir sur des paiements, du code ou des données internes, restreindre le corpus aux sources connues plutôt qu’au web ouvert.
- Surveiller les templates à fort signal. Les 54 templates qui expliquent 95 % des injections sont reconnaissables. Un pré-filtre par petit classifieur, ou même par regex sur les motifs les plus marqués (
Ignore previous instructions,If you are an LLM, injection de balises de rôle dans lemeta), capture la queue à coût quasi nul. - Journaliser chaque arête contenu-récupéré → action. Quand l’agent décide d’agir, enregistrer le document amont qui justifie l’action. Examiner les premiers milliers de ces traces fait apparaître les violations d’intégrité contextuelle décrites dans le jeu de données CISPA.
Pour finir : partez du principe que votre corpus de test est contaminé. L’article du CISPA souligne que certains payloads ciblent spécifiquement les workflows de recrutement et les agents de support client. Si votre jeu red team provient du web ouvert, il contient presque certainement des IPI vivants.
Statut
| Élément | Référence | Date | Remarques |
|---|---|---|---|
| Étude empirique CISPA | arXiv:2604.27202 | 2026-04-29 | 1,2 Md d’URLs, 24,8 M d’hôtes, 15,3 K payloads validés |
| Billet Google | security.googleblog.com | 2026-04-23 | +32 % de croissance nov. 2025 → fév. 2026 |
| Rapport Forcepoint X-Labs | forcepoint.com | 2026-04-24 | Payloads de détournement de paiement, sondes de test |
| Synthèse Help Net Security | helpnetsecurity.com | 2026-04-24 | Reprise de Google + Forcepoint |
| Résultat connexe sur l’intégrité contextuelle | arXiv:2605.17634 | 2026-05-17 | Pourquoi la séparation données / instructions est le mauvais cadre |
Trois études de mesure en cinq jours, qui s’accordent sur le sens et l’ordre de grandeur, c’est rare. Le web n’est plus un corpus passif que des agents LLM peuvent consommer naïvement — il devient un adversaire actif, et les agents les plus exposés sont ceux qui disposent du plus de privilèges.
Sources
- → https://arxiv.org/abs/2604.27202
- → https://arxiv.org/html/2604.27202v1
- → https://www.helpnetsecurity.com/2026/04/24/indirect-prompt-injection-in-the-wild/
- → https://security.googleblog.com/2026/04/ai-threats-in-wild-current-state-of.html
- → https://www.forcepoint.com/blog/x-labs/indirect-prompt-injection-payloads