système : OPÉRATIONNEL
← retour à tous les hacks
ADVERSARIAL MEDIUM NEW

PRAC : détourner le choix d'un agent informatique via son attention

Un papier de Tübingen (avril 2026) montre qu'une seule image produit imperceptiblement perturbée peut concentrer l'attention visuelle d'un agent informatique et orienter 82 % de ses sélections — sans jamais toucher à sa sortie.

2026-06-22 // 6 min affects: qwen3-vl, glm-4.6v, kimi-vl, evocua, computer-use-agents

De quoi s’agit-il ?

Les agents informatiques (computer-use agents, CUA) agissent de plus en plus à la place de l’utilisateur sur une interface graphique : naviguer sur le web, remplir des formulaires, prendre des décisions d’achat. Ils reposent sur des modèles vision-langage (VLM) qui « regardent » l’écran et décident où cliquer. Un papier de Dominik Seip et Matthias Hein du Tübingen AI Center (Université de Tübingen), publié sur arXiv sous la référence arXiv:2604.08005, présente PRAC — Preference Redirection via Attention Concentration — une attaque qui oriente discrètement l’option que l’agent retient.

L’idée distinctive : PRAC ne cherche pas à corrompre la sortie du modèle, comme le ferait une injection de prompt ou une pop-up malveillante. Elle manipule les préférences internes du modèle en « redirigeant son attention vers un patch adverse furtif ». Dans une étude de cas e-commerce, une seule image produit perturbée pousse l’agent à « voir » — et donc sélectionner — le produit de l’attaquant, alors que l’image montre toujours le vrai produit et que la perturbation est à peine perceptible pour un humain.

Comment ça marche

PRAC vise les scores d’attention à l’intérieur du décodeur du modèle de langage, et non les coordonnées de pointage ou la chaîne de sélection que l’agent produit. Conceptuellement, l’image produit adverse est optimisée pour « attirer des scores d’attention anormalement élevés » à travers les couches du modèle, par rapport aux autres images présentes dans le contexte — l’objectif formulé étant de maximiser la part d’attention visuelle portée sur l’image cible. Au moment du choix, cette image domine ce que l’agent regarde, et elle est sélectionnée.

Comme la manipulation réside dans l’attention interne et non dans le texte ou l’action produits, elle est très transférable : elle n’a pas besoin de viser une sortie fixe ni une position connue dans la grille. La perturbation est contrainte à un budget réduit ‖δ‖∞ ≤ 8/255, « assez petit pour que les humains ne la remarquent pas du tout, ou la perçoivent au pire comme une image de basse qualité ». Aucune instruction textuelle n’est injectée : la page reste digne de confiance.

C’est le modèle de menace réaliste qui rend l’attaque notable. L’attaquant est modélisé comme un vendeur tiers malveillant qui « peut manipuler l’image produit sur le site mais n’a aucun contrôle sur le site lui-même », ne peut pas choisir la position de son produit dans la grille, ni fixer la sortie de l’agent. Une contrainte joue en sens inverse : les auteurs « supposent un accès en boîte blanche au CUA » (boîte noire seulement pour les variantes fine-tunées), et notent cet accès comme une limite actuelle.

Pourquoi c’est important

Testé contre quatre agents VLM à poids ouverts — Qwen3-VL-8B, GLM-4.6V-Flash, Kimi-VL-A3B et EvoCUA-8B — PRAC atteint un taux de réussite de sélection moyen de 82,3 %, contre 20,8 % pour la base clean (avec cinq produits, un choix aléatoire vaut ~20 %), et « ≥ 15 % de sélection de plus que la meilleure baseline ». L’attaque se transfère aux descendants fine-tunés de ces modèles avec une baisse de seulement 0–40 %, car « la vulnérabilité à notre attaque est héritée de l’architecture de base ».

C’est une attaque sur l’intégrité de la décision de l’agent, pas une fuite de données — mais ses conséquences sont commerciales et adverses. Elle transforme discrètement « quel produit l’agent a-t-il acheté ? » en quelque chose qu’un tiers peut biaiser, et ce détournement de sélection se généralise à « toute tâche exigeant une sélection autonome du CUA à partir d’informations visuelles ». Elle s’inscrit dans la lignée des menaces visuelles antérieures sur les CUA, comme les pop-ups adverses, tout en échappant aux défenses textuelles que celles-ci avaient suscitées.

Défenses

Le constat dérangeant : les garde-fous habituels passent complètement à côté, car le comportement de l’agent reste dans les « interactions utilisateur attendues » et sa sortie est bénigne.

  1. Ne pas compter sur les filtres de sortie. Les modèles qui « surveillent et filtrent les sorties pour détecter des violations de sécurité sont inefficaces » ici — il n’y a aucune chaîne malveillante à attraper. Les filtres d’injection en entrée la manquent aussi, puisque rien de textuel n’est injecté.
  2. Les défenses au niveau du prompt ne suffisent pas. Les auteurs ont testé Instruction Hierarchy et un Reflection Prompt ; les deux ont été « jugés inefficaces » contre l’attaque, PRAC réussissant encore 58–97 % du temps selon le modèle.
  3. Traiter les entrées visuelles comme adverses. La piste réaliste pointée par le papier est la robustesse au niveau du modèle — « entraînement adverse ou autres techniques » — pour que les VLM utilisés comme CUA résistent à la manipulation d’attention plutôt que de la corriger en aval.
  4. Ajouter des vérifications de sélection non visuelles. Quand un CUA fait des choix conséquents (achats, approbations), les conditionner à des données structurées hors-bande (prix, réputation du vendeur, identifiants produit) plutôt qu’à la seule image rendue, et garder un humain dans la boucle pour les actions à forte valeur.
  5. Limiter la confiance accordée à l’actif d’un seul vendeur. Une image perturbée provenant d’un tiers non contrôlé ne devrait pas pouvoir dominer une sélection ; diversifiez les signaux qui pilotent la décision.

Statut

ÉlémentRéférenceNotes
PapierarXiv:2604.08005Seip & Hein, Tübingen AI Center
AttaquePRAC — preference redirection via attention concentrationVise l’attention du décodeur, pas la sortie
Modèles testésQwen3-VL-8B, GLM-4.6V-Flash, Kimi-VL-A3B, EvoCUA-8BSSR moyen 82,3 % vs 20,8 % clean
Modèle de menaceUne image produit perturbée, ‖δ‖∞ ≤ 8/255, boîte blancheBoîte noire pour les variantes fine-tunées
Code« publié au plus tard à l’acceptation du papier »Non encore disponible à la rédaction

À retenir : PRAC rappelle que l’attention d’un agent est une surface d’attaque, au même titre que son prompt ou sa sortie. Tant qu’une image perturbée peut dominer ce qu’un agent VLM regarde, les défenses qui n’inspectent que le texte ou les sorties ne verront pas la manipulation venir — et le correctif durable réside dans la robustesse du modèle, pas dans un filtre en aval.

Sources