INDIRECT INJECTION MEDIUM

Injection indirecte de prompt : trois études d'avril 2026 convergent

Google, Forcepoint et le CISPA ont mesuré indépendamment l'injection indirecte de prompt sur le web ouvert en avril 2026. Bilan : plus de 15 000 payloads validés, +32 % de croissance, modèles industrialisés.

2026-05-25 // 7 min affects: llm-agents, browser-agents, rag-pipelines, ai-search, customer-support-agents

De quoi parle-t-on ?

Trois études de mesure indépendantes, publiées fin avril 2026, confirment ce que la communauté sécurité pressentait sans avoir pu le quantifier : l’injection indirecte de prompt (IPI) n’est plus une curiosité de laboratoire. Des adversaires sèment activement le web ouvert d’instructions destinées aux agents pilotés par LLM, et la pratique croît assez vite pour devenir visible dans des crawls à l’échelle continentale.

Les trois rapports paraissent en moins de cinq jours :

Google Security Team (23 avril 2026) — un scan de 2 à 3 milliards de pages crawlées chaque mois sur des blogs, forums et sections de commentaires, comparant des snapshots CommonCrawl de novembre 2025 et février 2026.
Forcepoint X-Labs (24 avril 2026) — chasse active sur l’infrastructure web publique, avec une télémétrie déclenchée sur des motifs comme Ignore previous instructions ou If you are an LLM.
Khodayari, Zhang, Acharya et Pellegrino du CISPA Helmholtz Center (arXiv:2604.27202, 29 avril 2026) — étude empirique académique portant sur 1,2 milliard d’URLs réparties sur 24,8 millions d’hôtes, identifiant 15,3 K instances d’injection validées sur 11,7 K pages.

La convergence importe plus que chaque chiffre pris séparément : deux équipes red team d’entreprise et un groupe académique, avec des méthodes différentes, observent la même tendance.

Comment cela fonctionne

L’injection indirecte est la classe d’attaque originellement décrite par Greshake et al. en 2023 — on intègre des instructions à du contenu que le modèle ingèrera plus tard comme donnée, et l’agent suit. Ce qui change en 2026, c’est l’échelle et le réalisme des vecteurs.

L’article du CISPA constate que 54 templates de prompt totalisent environ 95 % des cas détectés. C’est la signature d’un outillage organisé, pas d’une expérimentation isolée. Forcepoint observe indépendamment des « templates d’injection partagés sur plusieurs domaines » et relève un payload largement diffusé qui semble fonctionner comme une sonde de test — un moyen d’identifier quels produits IA récupèrent et obéissent à du texte non fiable avant de déployer des payloads à plus fort impact.

La visibilité est l’autre constat marquant. Environ 70 % des payloads validés par le CISPA logent dans du HTML non rendu — en-têtes, commentaires, métadonnées. Sur le reste, 87 % sont visuellement masqués par l’une des trois techniques suivantes, avec des comptages approximatifs :

# Jeu de données CISPA (15,3K payloads validés, avril 2026)
HTML non rendu (en-têtes/commentaires/métadonnées) ≈ 70%
visible mais masqué par rendu :
  manipulation de couleur/contraste               2 397
  occlusion (overlays)                            1 860
  hors écran (viewport)                           1 802

Les vecteurs visibles se répartissent en quatre objectifs principaux :

Manipulation de réputation (~1,5 K instances) — instructions demandant aux pipelines LLM de recherche de promouvoir un produit, de forcer une citation ou de déclasser un concurrent.
Protection de contenu / anti-scraping (~4 K) — propriétaires de sites demandant aux modèles de refuser le résumé ou d’omettre du contenu.
Détection de bot IA (~3 K) — payloads sollicitant l’agent pour qu’il révèle son modèle et sa version.
Charges disruptives ou destructrices — Google documente des exemples instruisant l’agent de supprimer les fichiers de la machine de l’utilisateur ; Forcepoint isole des payloads embarquant une transaction PayPal complète, ou routant des paiements pilotés par IA vers un lien de don Stripe via un mot d’« amplification persuasive » (ultrathink).

L’efficacité pratique reste modérée. Les 5 200 expériences contrôlées du CISPA, sur 13 modèles et quatre représentations de page, montrent une obéissance plafonnant à 8 % sur des entrées en texte brut pour les petits modèles, et chutant à 0,2-1,1 % lorsque les indices structurels du HTML d’origine sont préservés. Non négligeable, donc, mais loin d’être universel.

Pourquoi c’est important

Le chiffre de +32 % de croissance (Google, novembre 2025 → février 2026) est la donnée saillante. Trois autres implications comptent pour quiconque déploie des fonctionnalités LLM.

D’abord, la surface d’attaque dépend du privilège de l’agent, pas de l’intelligence du modèle. La formulation de Forcepoint est exacte : « Une IA navigateur qui sait seulement résumer est à faible risque. Une IA agentique qui peut envoyer des e-mails, exécuter des commandes terminal ou traiter des paiements devient une cible à fort impact. » Le même payload qui produit une réponse cocasse chez un lecteur passif devient un virement bancaire chez un agent non contraint.

Ensuite, l’économie offensive se consolide. Templates récurrents et payload-sonde renvoient à de l’outillage et de la reconnaissance, plus à des farces ponctuelles. L’ère du Ignore previous instructions de 2023 cède la place à une IPI industrialisée, suivant la même courbe de maturation que celle observée pour le spam SEO, la malvertising et le typosquatting de chaîne d’approvisionnement.

Enfin, les représentations structurelles aident. Les deux études convergent : passer au modèle la structure HTML d’origine — pas du texte aplati — réduit l’obéissance aux instructions intégrées. Le résultat est cohérent avec le cadre d’intégrité contextuelle d’Abdelnabi et Bagdasarian (arXiv:2605.17634) et donne aux défenseurs un levier concret à optimiser.

Défenses

Ces mesures ne bouleversent pas le manuel défensif ; elles en aiguisent les priorités.

Traiter le contenu web comme non fiable par défaut. Tout agent qui consomme des pages récupérées doit fonctionner sous la Règle des deux — ne jamais combiner entrée non fiable, accès à des données privées et capacité à modifier l’état dans la même session.
Préserver les indices structurels. Passer le HTML au modèle avec ses frontières intactes (titres, blocs de code, zones de métadonnées) plutôt que de l’aplatir en texte brut. Les expériences du CISPA quantifient le gain : un ordre de grandeur d’obéissance en moins.
Filtrer les techniques de dissimulation avant retrieval. Rendre la page, puis exporter uniquement le DOM visible, en supprimant les commentaires HTML, les balises meta, les éléments hors écran, et le texte en visibility:hidden, display:none, contraste quasi nul ou taille d’un pixel. La plupart des payloads observés meurent dans ce filtre.
Liste blanche de domaines pour les flux sensibles. Si l’agent peut agir sur des paiements, du code ou des données internes, restreindre le corpus aux sources connues plutôt qu’au web ouvert.
Surveiller les templates à fort signal. Les 54 templates qui expliquent 95 % des injections sont reconnaissables. Un pré-filtre par petit classifieur, ou même par regex sur les motifs les plus marqués (Ignore previous instructions, If you are an LLM, injection de balises de rôle dans le meta), capture la queue à coût quasi nul.
Journaliser chaque arête contenu-récupéré → action. Quand l’agent décide d’agir, enregistrer le document amont qui justifie l’action. Examiner les premiers milliers de ces traces fait apparaître les violations d’intégrité contextuelle décrites dans le jeu de données CISPA.

Pour finir : partez du principe que votre corpus de test est contaminé. L’article du CISPA souligne que certains payloads ciblent spécifiquement les workflows de recrutement et les agents de support client. Si votre jeu red team provient du web ouvert, il contient presque certainement des IPI vivants.

Statut

Élément	Référence	Date	Remarques
Étude empirique CISPA	arXiv:2604.27202	2026-04-29	1,2 Md d’URLs, 24,8 M d’hôtes, 15,3 K payloads validés
Billet Google	security.googleblog.com	2026-04-23	+32 % de croissance nov. 2025 → fév. 2026
Rapport Forcepoint X-Labs	forcepoint.com	2026-04-24	Payloads de détournement de paiement, sondes de test
Synthèse Help Net Security	helpnetsecurity.com	2026-04-24	Reprise de Google + Forcepoint
Résultat connexe sur l’intégrité contextuelle	arXiv:2605.17634	2026-05-17	Pourquoi la séparation données / instructions est le mauvais cadre

Trois études de mesure en cinq jours, qui s’accordent sur le sens et l’ordre de grandeur, c’est rare. Le web n’est plus un corpus passif que des agents LLM peuvent consommer naïvement — il devient un adversaire actif, et les agents les plus exposés sont ceux qui disposent du plus de privilèges.