MULTIMODAL MEDIUM

CrossMPI : une injection de prompt par image seule pilote ce que lisent et voient les VLM

Un papier de l'Université de Xidian publié sur arXiv le 15 mai 2026 introduit CrossMPI : des perturbations d'image imperceptibles modifient la façon dont les modèles vision-langage interprètent à la fois l'image et la requête textuelle de l'utilisateur, avec 66 % de réussite moyenne sur cinq LVLM.

2026-05-28 // 7 min affects: minigpt-4, blip-2, instructblip, bliva, qwen2.5-vl

What is this?

Le 15 mai 2026, Hao Yang, Zhuo Ma, Yang Liu, Yilong Yang, Guancheng Wang et JianFeng Ma, de l’Université de Xidian, ont publié sur arXiv A Cross-Modal Prompt Injection Attack against Large Vision-Language Models with Image-Only Perturbation (2605.16090, cs.CR/cs.CV). Le papier introduit CrossMPI, une technique qui exploite des perturbations d’image quasi imperceptibles pour contrôler la façon dont un modèle vision-langage interprète à la fois l’image et l’instruction textuelle qui l’accompagne — sans toucher au prompt de l’utilisateur.

Le cadrage compte. Les attaques d’injection de prompt multimodales antérieures intégraient du texte visible dans l’image, ou n’influençaient que la lecture visuelle. CrossMPI est transmodal : une perturbation au niveau du pixel réécrit l’interprétation conjointe que le modèle fait de l’image et du texte. Dans un exemple du papier, une photo d’avion modifiée par l’attaquant amène le modèle à répondre à la question « Cet avion appartient-il à Air Canada ? » par « un téléphone portable ». L’image reste, à l’œil humain, une photo d’avion ; le modèle, lui, est dirigé vers une tâche complètement différente.

La couverture de CSO Online du 18 mai 2026 souligne l’enjeu : copilots, assistants de traitement documentaire et agents à capacités visuelles combinent désormais image et texte, et les filtres textuels déployés aujourd’hui ne couvrent pas cette surface d’attaque.

How it works

Un modèle vision-langage (LVLM) encode l’image en une suite de tokens visuels via un encodeur visuel, fusionne ces tokens avec les tokens textuels de l’utilisateur, puis fait passer la séquence complète dans une pile de transformeurs. La plupart des travaux adverses image antérieurs optimisent leurs perturbations contre l’espace d’embedding visuel — la sortie de l’encodeur visuel, environ 10^5 paramètres. CrossMPI démontre que ce n’est pas la bonne cible.

Les auteurs optimisent à la place contre l’espace d’état caché du modèle — les représentations internes après la fusion des informations visuelles et textuelles, de l’ordre de 10^7 paramètres. Cet espace de paramètres plus grand est plus difficile à optimiser, ce qui motive deux contraintes introduites par le papier.

Sélection des couches critiques de fusion. Toutes les couches d’un transformeur ne contribuent pas également à l’intégration transmodale. Le papier mesure les couches qui portent le plus d’information multimodale et restreint l’optimisation à celles-là. Contrairement à l’intuition standard des attaques adverses, les couches les plus efficaces ne sont pas les couches de sortie — elles se situent au milieu du modèle, là où les preuves visuelles et l’intention textuelle se rencontrent pour la première fois.

Allocation décroissante du budget de perturbation selon la distance. L’image n’est pas perturbée uniformément. Le papier utilise la saillance Grad-ECLIP pour identifier les régions sémantiquement critiques de l’image, puis alloue plus de budget de perturbation près de ces régions et progressivement moins à mesure que la distance en pixels augmente. Le résultat visible est une perturbation concentrée là où le modèle « regarde » — mais bornée pour que l’image reste visuellement fidèle pour un humain.

Composant                        Objet                                  Effet sur le LVLM
-------------------------------  -------------------------------------  -----------------------------------
Optimisation en espace d'état    Cibler la représentation multimodale   Contrôle transmodal (image+texte)
caché                            fusionnée plutôt que la sortie de
                                 l'encodeur visuel
Sélection des couches de fusion  Restreindre le gradient aux couches    Évite le gaspillage d'optimisation
                                 intermédiaires de fusion               dans les couches non fusionnantes
Budget décroissant selon la      Concentrer le bruit près des pixels    Imperceptible à l'œil ;
distance                         saillants via Grad-ECLIP               préserve la sémantique visuelle
Optimisation de perturbation     Objectif joint sortie / fusion /       Transférabilité boîte noire
transmodale                      domaine fréquentiel                    entre architectures LVLM

Le papier évalue cinq LVLM open-source — MiniGPT-4, BLIP-2, InstructBLIP, BLIVA et Qwen2.5-VL — et rapporte un taux de réussite moyen de 66,36 %, soit environ 41 points de plus que les baselines antérieures. Les perturbations sont transférables en boîte noire : un attaquant qui n’a pas les poids du modèle cible peut les fabriquer contre un modèle de substitution.

Aucun payload n’est reproduit ici. Le préprint arXiv et son rendu HTML font foi pour les chercheurs souhaitant reproduire le résultat en laboratoire.

Why it matters

CrossMPI est une démonstration de recherche sur des LVLM open-source, et non un exploit observé contre un système en production. Deux propriétés méritent malgré tout l’attention.

D’abord, la surface d’attaque est invisible aux défenses textuelles. La plupart des garde-fous LLM en entreprise opèrent aujourd’hui sur le prompt texte — filtres en entrée, vérifications de la hiérarchie d’instruction, validateurs en sortie. Aucun d’eux n’inspecte les pixels. Si votre pipeline accepte une image d’origine non maîtrisée — téléchargement utilisateur, capture d’écran d’une page, document, capture prise par un agent — cette image peut transporter une instruction qu’aucun filtre côté texte ne verra.

Ensuite, le résultat est transférable. La transférabilité boîte noire est ce qui sépare une curiosité de laboratoire d’une classe d’attaque déployable. CrossMPI n’exige pas de connaître les poids exacts du modèle cible ; des perturbations forgées contre un modèle ouvert conservent un taux de réussite utile sur d’autres. Les auteurs notent explicitement que la technique pourrait « tromper les agents web fondés sur les VLM » et « perturber les détecteurs d’objets en conditions réelles ».

La leçon structurelle est la même qu’AudioHijack a portée pour l’audio : chaque nouvelle modalité acceptée par un modèle ouvre un nouveau canal d’injection de prompt, et les défenses purement textuelles n’en couvriront aucune.

Defenses

Aucune défense ne ferme cette classe d’attaque à fin mai 2026. Le papier en évalue plusieurs et documente leurs limites. La liste défendable la plus courte, tirée du papier et des bonnes pratiques en sécurité vision adversarielle :

Transformations en entrée comme première ligne bon marché. Le redimensionnement aléatoire, la rotation et surtout le réencodage JPEG brisent la structure adversarielle haute fréquence. Le papier les mesure tous les trois : utiles, mais insuffisants seuls — à n’utiliser qu’en tant que couche parmi d’autres.
Défenses certifiées ou par lissage. SmoothVLM est la défense la plus efficace évaluée par les auteurs, ramenant le taux de réussite sous les 5 % dans plusieurs scénarios. Le lissage aléatoire a un coût en latence et en précision ; les équipes qui font tourner des VLM en pipeline à fort débit doivent évaluer explicitement ce compromis.
Entraînement adverse sur les perturbations multimodales. Entraîner la pile vision-langage avec des échantillons de cette classe d’attaque est la direction de défense durable. CrossMPI fournit une recette reproductible pour générer ces données.
Considérer les images d’origine non maîtrisée comme des instructions non fiables. Une image téléversée par un utilisateur, récupérée sur le web ou capturée à l’écran est du contenu, pas un prompt système. Un agent ne devrait pas laisser le modèle dériver de l’autorité d’appel d’outils à partir d’une image sans une étape de confirmation textuelle indépendante.
Restreindre la surface d’action des agents visuels. Un agent piloté par un VLM qui ne peut pas envoyer de mail, ne peut pas naviguer vers des URL arbitraires et ne peut pas déplacer d’argent seul ne pourra pas être amené à le faire depuis une image détournée. Appliquer la Règle des Deux pour les agents : au plus deux parmi « entrée non maîtrisée / outil sensible / canal d’exfiltration » à la fois.
Journaliser l’image au regard de l’action. Lorsqu’un agent VLM exécute une action sensible, conserver l’image d’entrée pour que la forensique post-incident puisse identifier une superposition de type CrossMPI. Les perturbations adversarielles restent détectables a posteriori, même si elles passent au travers des défenses temps réel.
Surveiller le motif transmodal, pas seulement les images. La même propriété — une entrée continue, en haute dimension, non textuelle, qui se fusionne avec le texte à l’intérieur du modèle — vaut pour l’audio, la vidéo et les capteurs. Les défenses doivent être conçues de façon modality-agnostic.

Status

Élément	Référence	Date	Notes
Papier	arXiv:2605.16090 v1	2026-05-15	cs.CR / cs.CV
Auteurs	Équipe Université de Xidian	—	Hao Yang, Zhuo Ma, Yang Liu, Yilong Yang, Guancheng Wang, JianFeng Ma
Couverture presse	CSO Online	2026-05-18	Contexte entreprise, commentaire Gartner
LVLM ouverts affectés	5 testés	—	MiniGPT-4, BLIP-2, InstructBLIP, BLIVA, Qwen2.5-VL
ASR rapportée	66,36 % en moyenne	—	+41 points vs baselines ; transférable en boîte noire
Défenses évaluées	Redimensionnement, rotation, JPEG, SmoothVLM, DPS	—	SmoothVLM la plus efficace (<5 % d’ASR dans certains scénarios) ; aucune ne supprime totalement
Exploitation réelle	Non rapportée	—	Cadre de recherche contrôlé, modèles open-source

L’ère du « prompt injection se défend côté texte » se ferme. CrossMPI n’est pas le premier papier d’injection multimodale, mais il resserre un constat inconfortable : un attaquant sans accès à votre prompt textuel et sans changement visible pour l’utilisateur peut malgré tout réécrire ce que votre modèle pense que l’utilisateur vient de demander. Pour les équipes qui livrent des fonctionnalités vision-langage, la question n’est plus s’il faut défendre le canal image — mais combien de couches de défense suffisent.