GOVERNANCE MEDIUM NEW

Aucun labo ne mesure le prompt injection de la même façon

Une comparaison du 1er juin 2026 des divulgations prompt injection d'Anthropic, OpenAI, Google et Meta montre qu'aucun labo ne partage de métrique, de surface ni de définition du succès — leurs chiffres ne sont pas comparables.

2026-06-05 // 6 min affects: claude-opus-4.8, chatgpt-atlas, gemini-3-pro, llama-guard

De quoi s’agit-il ?

Le 1er juin 2026, VentureBeat a publié une comparaison des divulgations sur le prompt injection publiées par Anthropic, OpenAI, Google et Meta au printemps 2026. Le constat n’est pas une nouvelle attaque : c’est un problème de mesure. Aucun des quatre labos ne mesure le prompt injection de la même manière. Ils testent des surfaces différentes, définissent le « succès » différemment et rapportent à des couches différentes de la pile. Impossible, dès lors, de mettre leurs chiffres côte à côte.

L’enjeu est réel : le prompt injection est devenu le risque numéro un des systèmes agentiques, et 2026 est la première année où les labos publient volontairement des taux d’échec. Le piège, comme le résume un second compte rendu du 1er juin, est qu’« un modèle affichant un faible taux d’injection selon la définition d’un labo peut présenter une exposition plus élevée selon le protocole de test d’un autre ». La transparence est arrivée avant la normalisation.

Comment ça marche

Les quatre divulgations divergent sur trois axes : combien de surfaces ont été testées, où la mesure est prise, et ce qui compte comme une injection réussie.

Anthropic en a montré le plus : une carte système de 244 pages pour Claude Opus 4.8 le 28 mai 2026, couvrant quatre surfaces agentiques (navigation, code, coordination inter-agents, usage d’outils). Son agent navigateur a été détourné 31,5 % du temps avant garde-fous, retombant à environ 1 % défenses activées (voir notre note sur le taux de détournement de l’agent navigateur Opus 4.8).
OpenAI n’a rapporté qu’une surface — les connecteurs — et présente le problème comme non borné, affirmant que le prompt injection ne sera probablement jamais totalement « résolu » pour des agents navigateurs comme Atlas (Fortune, déc. 2025).
Google a sorti le sujet de sa carte modèle pour le placer dans un cadre de sûreté séparé, sans taux de succès publié par surface.
Meta n’a livré aucune carte de modèle fermé et a noté ses garde-fous plutôt que le modèle lui-même.

Lab        Surfaces tested     Measurement layer      "Success rate" given?
---------  ------------------  ---------------------  ---------------------
Anthropic  4 (agentic)         pre- AND post-safeguard  Yes — per surface
OpenAI     1 (connectors)      product-level            Partial
Google     n/a in model card   separate framework       No per-surface rate
Meta       guardrail-only      guardrail layer          Grades guardrail, not model

Résultat : un « 31,5 % » d’un labo et un « faible taux » d’un autre ne sont pas la même unité. L’un est une propriété du modèle avant mitigation ; l’autre une propriété du produit après mitigation ; un troisième un score de garde-fou. Aucune suite de tests adverses commune, aucun modèle de menace partagé, aucune définition convenue d’un « détournement ». L’analogie de VentureBeat est juste : l’écart rappelle la divulgation de vulnérabilités logicielles avant le système CVE — des signaux bruts utiles, mais sans schéma interopérable pour les comparer.

Pourquoi c’est important

Pour une équipe sécurité évaluant des agents en production, la conséquence pratique est qu’on ne peut pas acheter sur la foi des chiffres affichés. Un taux annoncé plus bas peut refléter un test plus étroit, une couche de mesure plus tardive, ou une définition plus indulgente — pas un modèle plus sûr. Les comparer directement produit un classement faussé.

Cela fausse aussi les incitations. Un labo qui teste quatre surfaces et publie des taux avant et après garde-fous paraîtra « moins bon » à une lecture naïve qu’un labo qui ne note que son garde-fou et rapporte un seul chiffre net. Récompenser le second comportement plutôt que le premier pousse tout le secteur vers moins de divulgation, pas plus — l’inverse de ce dont les défenseurs ont besoin. C’est un problème de gouvernance, pas un bug de modèle, et c’est précisément ce que des référentiels (NIST AI RMF, OWASP Top 10 LLM, MITRE ATLAS) ont vocation à corriger. À ce jour, aucun régulateur n’impose de format de reporting commun pour les vulnérabilités d’agents ; les quatre divulgations sont volontaires.

Défenses

On ne corrige pas un écart de mesure, mais on peut cesser de se laisser induire en erreur.

Ne comparez jamais les taux affichés entre fournisseurs. Traitez chaque chiffre comme valable uniquement dans sa propre méthodologie. Un taux modèle de 31,5 % avant garde-fous et un score de garde-fou « faible » sont des unités différentes — refusez de les classer l’un contre l’autre.
Exigez la méthodologie, pas le chiffre. Avant de déployer un agent dans un flux sensible, demandez : quelles surfaces ont été testées, si le taux est avant ou après mitigation, la définition d’une injection réussie, et le corpus de test. Si le fournisseur refuse, considérez le chiffre comme du marketing.
Normalisez sur vos propres surfaces. Reportez chaque divulgation sur les surfaces que vous exposez réellement — navigateur, exécution de code, appels d’outils/connecteurs, inter-agents. Le chiffre « connecteur » d’un modèle est sans objet si votre déploiement ne fait que de la navigation, et inversement.
Faites vos propres tests d’injection à la couche produit, après mitigation. Les taux fournisseur avant garde-fous décrivent le modèle brut ; ce que vous livrez, c’est le modèle plus vos garde-fous, votre prompt système et votre cloisonnement d’outils. Re-mesurez sur votre pile avec un corpus fixe que vous contrôlez, à chaque montée de version.
Adoptez dès maintenant un référentiel commun en interne. En attendant un standard sectoriel, choisissez une taxonomie de référence (OWASP LLM01, MITRE ATLAS) et imposez que toute divulgation fournisseur et tout test interne y soient ré-exprimés. Vous obtiendrez une feuille comparable même quand les sources ne le sont pas.
Supposez le plafond, pas le plancher. OpenAI comme des chercheurs indépendants décrivent le prompt injection comme une classe durable, peut-être insoluble. Concevez pour le cas où l’agent sera injecté — moindre privilège, confirmation humaine sur les actions sensibles, pas de trifecta létal — plutôt que de faire confiance à un taux publié unique.

Statut

Labo	Divulgation	Date	Ce qu’elle rapporte
Anthropic	Carte système Claude Opus 4.8 (244 p.)	2026-05-28	4 surfaces agentiques ; navigateur 31,5 % avant garde-fous, ~1 % après
OpenAI	Guidance connecteurs / Atlas	Printemps 2026	Une surface ; injection présentée comme non résoluble
Google	Cadre de sûreté séparé	Printemps 2026	Aucun taux de succès par surface dans la carte modèle
Meta	Évaluation des garde-fous	Printemps 2026	Note le garde-fou, pas le modèle sous-jacent
VentureBeat	Comparaison inter-labos	2026-06-01	Aucune métrique, surface ni définition du succès communes

La bonne conclusion n’est pas « le labo X est le plus sûr ». C’est que le secteur s’est mis à publier des chiffres de prompt injection plus vite qu’il ne s’est accordé sur leur sens — et tant qu’il n’existe pas de schéma commun à la CVE pour les divulgations d’agents, le travail de comparaison incombe à l’acheteur. Demandez la méthodologie, normalisez sur vos propres surfaces, et mesurez sur votre propre pile.