Quand le relecteur IA ne sait pas lire la figure : attaques cross-modales sur le peer review
Un papier arXiv de juin 2026 (PaperGuard) montre que les relecteurs IA sont vulnérables non seulement via le texte, mais via les figures — injection de prompt en boîte noire et perturbations d'images en boîte blanche renversent toutes deux le verdict.
De quoi s’agit-il ?
En juin 2026, des chercheurs ont publié sur arXiv Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review (2606.12716, accepté à ICML 2026). Le papier traite une question que les travaux antérieurs sur le peer review par IA laissaient ouverte : si les relecteurs sont de plus en plus des grands modèles de langage multimodaux (MLLM) qui examinent les figures autant que le texte, un attaquant peut-il manipuler le verdict via les images, et pas seulement via la prose ?
La réponse est oui. Les auteurs introduisent PaperGuard, présenté comme le premier benchmark conçu spécifiquement pour évaluer et défendre la relecture assistée par IA contre les attaques cross-modales. Leur résultat principal, sur des modèles à l’état de l’art, est que les relecteurs IA sont vulnérables « de manière généralisée » — et que les études de robustesse existantes manquent l’essentiel de la surface parce qu’elles sont presque exclusivement textuelles.
Cela s’inscrit dans une lignée désormais établie. À NeurIPS 2025, « Give a Positive Review Only » documentait l’injection de prompt dans le corps des articles visant les relecteurs IA, et notre couverture de l’injection par font-mapping montrait des charges textuelles cachées faisant basculer une relecture du rejet à l’acceptation. Le nouveau résultat étend cette menace du canal texte au canal figure.
Comment ça marche
PaperGuard repose sur trois piliers, d’après le résumé.
D’abord, un jeu de données multimodal de peer review : de vrais articles d’IA/ML et d’autres domaines scientifiques sont analysés pour en extraire les figures clés — schémas de méthode, graphiques de résultats — afin que le benchmark reflète la façon dont un relecteur MLLM consomme réellement une soumission.
Ensuite, une suite d’attaques unifiée qui combine deux modèles de menace sur deux modalités :
- Injection de prompt en boîte noire — des instructions adverses placées dans la soumission (la même classe que les attaques texte « donnez seulement un avis positif »), désormais portées aussi à l’intérieur ou aux côtés des figures.
- Attaques par gradient en boîte blanche — des perturbations optimisées via GCG sur le canal texte et PGD sur le canal image. PGD (descente de gradient projetée) produit de petites modifications au niveau du pixel, imperceptibles pour un humain, qui orientent la lecture que le modèle fait de la figure.
L’angle cross-modal est le point central : pour un relecteur MLLM, une figure n’est pas un ornement, c’est une preuve sur laquelle le modèle raisonne. Une perturbation qu’un éditeur humain ne remarquerait jamais peut changer ce que le modèle « voit » dans un graphique de résultats. Aucune charge n’est reproduite ici, et aucune n’est nécessaire pour comprendre la leçon : chaque modalité ingérée par le relecteur est un canal d’entrée non fiable.
Enfin, les auteurs proposent une défense légère (voir plus bas), motivée par le fait que les articles scientifiques sont des documents à long contexte où une seule instruction hostile est facile à dissimuler.
Pourquoi c’est important
Le peer review est un processus de confiance à fort enjeu : financements, carrières et intégrité du dossier scientifique en dépendent. Les conférences composent déjà avec l’IA dans la boucle — ICML et NeurIPS ont publié des politiques sur l’usage des LLM en relecture, précisément parce que les enjeux d’intégrité sont élevés.
Deux éléments rendent le résultat multimodal plus grave que le cas purement textuel. D’abord, l’angle mort des défenseurs : l’outillage de détection et les politiques des conférences se sont concentrés sur les charges textuelles, si bien qu’une attaque par le canal image passe à côté de contrôles qui n’ont jamais été conçus pour inspecter les figures. Ensuite, le déni plausible : une perturbation PGD laisse une figure d’apparence normale ; contrairement à une chaîne maladroite du type « ignorez les instructions précédentes », il n’y a presque rien à repérer lors d’un contrôle manuel.
Le tableau d’ensemble de 2026 est cohérent. Un papier compagnon de juin 2026, Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community, soutient qu’à mesure que la relecture s’appuie sur l’IA, l’incitation à la détourner augmente. Les attaques cross-modales en sont l’expression technique.
Défenses
Les enseignements actionnables, plusieurs tirés de la proposition même du papier :
- Traiter les figures comme des entrées non fiables. Tout pipeline qui fournit des images à un relecteur MLLM doit supposer que ces images peuvent être adverses, exactement comme il suppose que le texte peut l’être.
- Localiser, pas seulement classifier. La défense de PaperGuard utilise une recherche par embeddings sur fragments (chunk-based embedding search) pour repérer et neutraliser les instructions hostiles à l’intérieur d’un long document plutôt que de scorer l’article entier d’un bloc — une approche plus tractable pour un contexte de la longueur d’un article.
- Garder un humain dans la décision. La relecture assistée par IA doit éclairer, et non prononcer, les décisions d’acceptation/rejet ; un relecteur humain qui ne se fie jamais au seul verdict du modèle est le filet de sécurité contre la manipulation texte comme image.
- Assainir et ré-encoder les figures. Ré-encoder ou sous-échantillonner les images soumises avant qu’elles n’atteignent le modèle peut perturber les perturbations PGD au pixel près, au prix d’une perte de fidélité.
- Politique et détection ensemble. Les règles des conférences contre l’usage non déclaré de l’IA ne mordent que si elles s’accompagnent d’une détection couvrant réellement chaque modalité consommée par le relecteur.
Statut
| Élément | Valeur |
|---|---|
| Papier | arXiv:2606.12716, juin 2026 (ICML 2026) |
| Canaux d’attaque | Texte (injection de prompt, GCG) + images (perturbation PGD) |
| Défense proposée | Recherche par embeddings sur fragments pour localiser les instructions hostiles |
| Antériorité | NeurIPS 2025 « Give a Positive Review Only » ; injection par font-mapping (mai 2026) |
| Disposition | Benchmark de recherche ; aucun exploit opérationnel diffusé ici |