RESEARCH MEDIUM NEW

Mesurer la capacité d'exploitation des LLM : ExploitBench, ExploitGym et SCONE-bench

Le 22 mai 2026, Anthropic a publié les résultats de Mythos Preview sur trois nouveaux benchmarks d'exploitation. Les chiffres — et la manière dont les benchmarks décomposent la chaîne d'exploit — changent la façon dont les défenseurs doivent penser la capacité offensive frontière.

2026-05-29 // 8 min affects: claude-mythos-preview, claude-opus-4.6, claude-opus-4.7, gpt-5.5, frontier-llms

De quoi s’agit-il ?

Le 22 mai 2026, Anthropic a publié Measuring LLMs’ ability to develop exploits sur red.anthropic.com, rapportant les résultats de Claude Mythos Preview sur trois nouveaux benchmarks d’exploitation : ExploitBench, ExploitGym et un SCONE-bench mis à jour. Le billet complète Project Glasswing — au lieu de compter les vulnérabilités trouvées dans des logiciels en production, il cherche à mesurer précisément jusqu’où les modèles frontière actuels peuvent monter dans la chaîne de développement d’exploit.

Les benchmarks eux-mêmes constituent l’actualité. Deux ont été déposés sur arXiv en mai 2026 par des équipes externes : ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents de Seunghyun Lee (CMU) et David Brumley (CMU / Bugcrowd), et ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks? d’un consortium UC Berkeley / Max Planck / UCSB / Arizona State avec des contributeurs d’Anthropic, OpenAI et Google. Le troisième, SCONE-bench, est un benchmark d’exploitation de smart contracts piloté par Anthropic dont le harnais et le jeu de données sont désormais open source sur GitHub.

Comment ça fonctionne

Chaque benchmark cible une couche différente de la chaîne d’exploit. Aucun ne publie de payload réutilisable — l’objectif est de scorer, de manière programmatique, à quel point un modèle se rapproche d’un exploit fonctionnel sur des bugs déjà corrigés.

ExploitBench — échelle de capacités V8. ExploitBench décompose le développement d’exploit en 16 capacités mesurables regroupées en cinq paliers, contre 41 CVE corrigées du moteur JavaScript V8 :

T5  Coverage           Atteindre le chemin de code vulnérable
T4  Reproduction       Déclencher le bug (proof-of-concept)
T3  Target primitives  Construire des primitives à l'intérieur du sandbox V8
T2  Generic primitives Sortir du sandbox : read/write/infoleak inter-process
T1  Full Control       Hijack du flux de contrôle / exécution de code arbitraire (ACE)

Chaque capacité est vérifiée automatiquement — les paliers bas par exécution différentielle contre le build patché, les paliers hauts par des fonctions challenge-response rejouées sur des layouts de heap randomisés afin qu’un modèle ne puisse pas valider en hard-codant une adresse fuitée. Les modèles tournent sur un harnais identique de 300 tours. Lee et Brumley rapportent que les LLM frontière publics actuels atteignent T5 / T4 routinièrement mais stagnent à T3 ; selon la mesure d’Anthropic, Claude Mythos Preview atteint T1 (ACE) sur 21 des 41 CVE, alors qu’aucun autre modèle testé n’obtient même une seule ACE, quelle que soit la variante du harnais.

ExploitGym — cibles diversifiées avec flags de bout en bout. ExploitGym prend 898 vulnérabilités corrigées issues d’OSS-Fuzz, V8 et du noyau Linux, conditionne chacune comme cible distante en conteneur, et note par capture de flag uniquement lorsqu’un model judge confirme que la vulnérabilité visée a été exploitée (et non un bug accessoire plus facile). Le budget temps réel est de deux heures ; les modèles tournent dans les harnais recommandés par leurs développeurs. Anthropic rapporte Mythos Preview à 157 succès via la vulnérabilité visée (226 flags capturés au total), avec Claude Opus 4.6 à 15 visés / 36 totaux. Le preprint d’ExploitGym rapporte GPT-5.5 d’OpenAI à 120 exploits fonctionnels sur le même ensemble.

SCONE-bench mis à jour. Le benchmark de smart contracts a été rafraîchi avec 12 exploits du jeu DefiHackLabs survenus après la date de cutoff de connaissance des modèles (1er janvier 2026). La performance est la somme historique en USD de la valeur des contrats vidés avec succès en simulation locale, échelle logarithmique. Anthropic rapporte Mythos Preview à environ 35 M$ de valeur d’exploit simulée, ~75 % au-dessus du modèle suivant le plus performant, et un temps de doublement actualisé d’environ 0,7 mois pour le revenu d’exploit de Claude depuis Opus 4.5 (contre la trajectoire de 1,1 mois suivie depuis 2024).

Sur les trois benchmarks, la même image apparaît : un saut net entre Opus 4.6/4.7 et Mythos Preview précisément à la couche où l’exploitation cesse d’être de la reconnaissance de motifs et devient de la construction déterministe de primitives, de l’évasion de sandbox et de l’assemblage de chaîne.

Pourquoi c’est important

Trois implications pour les défenseurs, dont aucune ne nécessite l’accès à Mythos.

Les benchmarks rattrapent la capacité. Jusqu’au début 2026, les benchmarks cyber publics mesuraient essentiellement « le modèle a-t-il trouvé un crash ? ». C’est la mauvaise question : un crash n’est pas un exploit, et la plupart des LLM saturaient ces benchmarks tout en restant incapables de produire quoi que ce soit d’opérationnel. L’échelle à 16 flags d’ExploitBench et la règle de capture de flag à vulnérabilité visée d’ExploitGym sont les premières grilles de notation publiques qui distinguent finement atteignabilité et exploitabilité. C’est important parce que chaque conversation de threat modeling dispose désormais d’un tableau de bord partagé.

La falaise de capacité est concrète. Les données d’ExploitBench montrent que le saut T3→T2 (évasion du sandbox heap V8) est la falaise : seul Mythos Preview la franchit de manière fiable, et seul Mythos Preview combine évasion de sandbox V8 et hijack de flux de contrôle. ExploitGym montre la même forme sur des cibles plus larges, y compris les exploits noyau. Les défenseurs qui planifiaient autour du principe « l’IA peut trouver des bugs mais ne peut pas les exploiter » doivent réviser : au frontière privée, ce n’est plus vrai.

La tendance de doublement n’a pas plafonné. Le passage de 1,1 mois à 0,7 mois sur SCONE-bench, sur des problèmes postérieurs au cutoff des modèles, est le point de donnée qu’Anthropic elle-même a signalé comme prolongeant au-delà de son attente de saturation. L’argument selon lequel les modèles publics de prochaine génération atteindront la capacité d’aujourd’hui de la frontière privée dans 6-12 mois est plus solide ce mois-ci que le précédent.

Défenses

Les benchmarks ne corrigent rien par eux-mêmes. Ils changent en revanche la manière dont les défenseurs doivent prioriser.

Actualiser les modèles de menace en supposant que l’évasion de sandbox est à portée. Les équipes navigateur, moteurs JS et noyau qui dimensionnaient leurs ressources contre des adversaires T4 doivent re-planifier contre des adversaires T2-T1 dans le prochain cycle de release majeur. Les divulgations de Firefox 150 et l’exemple de forge de certificats wolfSSL issus de l’update Glasswing sont les premiers datapoints ; ExploitBench formalise la notation.
Faire tourner les benchmarks contre les modèles que vous déployez. ExploitBench et ExploitGym sont livrés comme environnements conteneurisés reproductibles ; SCONE-bench est désormais open source. Les red teams internes peuvent mesurer exactement jusqu’où leur propre chaîne d’outils (modèle open-weights + harnais) monte sur l’échelle avant d’investir ailleurs en mitigations.
Pousser les migrations memory-safe sur les surfaces les plus exposées. Use-after-free, OOB read/write et type confusion restent les classes V8 / navigateur / noyau à fort rendement que mesure ExploitBench. Les réécritures memory-safe des parseurs chauds et helpers JIT sont la seule défense structurelle ; tout le reste achète du temps.
Suivre les évaluations de capacité, pas seulement les annonces de lancement. Les programmes Cyber Verification et External Researcher Access d’Anthropic donnent aux défenseurs une interface vers l’information capacité avant la sortie. Les programmes équivalents chez d’autres laboratoires méritent abonnement.
Calibrer la capacité de divulgation. Si la capacité d’exploit des modèles frontière double en moins d’un mois, attendez-vous à ce que le volume de rapports de bugs qui a frappé Mozilla et wolfSSL ce mois-ci touche davantage de mainteneurs le trimestre prochain. Blocs de CVE pré-alloués, mises à jour security.txt et politique de triage assistée par IA sont des actions sans regret.
Exiger la transparence sur les benchmarks de la part des fournisseurs. « Notre modèle est sûr » sans score public sur au moins un benchmark à échelle de capacités n’est plus suffisant. Les équipes achats peuvent exiger les scores ExploitBench / ExploitGym / SCONE-bench dans les questionnaires sécurité.

Statut

Item	Référence	Date	Notes
Billet Anthropic	Measuring LLMs’ ability to develop exploits	2026-05-22	Mythos Preview scoré sur trois benchmarks
Preprint ExploitBench	Lee, Brumley (CMU / Bugcrowd) — arXiv 2605.14153	2026-05	41 CVE V8, échelle à 16 flags
Preprint ExploitGym	Berkeley RDI et al. — arXiv 2605.11086	2026-05	898 vulns, OSS-Fuzz + V8 + noyau Linux
SCONE-bench mis à jour	Anthropic / MATS / Fellows	2026-05-22	12 exploits DefiHackLabs post-cutoff, open-sourcé
Résultat clé	ExploitBench, Baseline+Nudged	2026-05-22	Mythos Preview : 21/41 ACE ; autres modèles : 0/41
Résultat clé	ExploitGym, 2h temps réel	2026-05-22	Mythos Preview : 157 visés / 226 flags totaux
Résultat clé	SCONE-bench mis à jour	2026-05-22	Mythos Preview : ~35 M$ de valeur d’exploit simulée

Les benchmarks eux-mêmes constituent la contribution à suivre. Ils donnent au reste du champ — défenseurs, régulateurs, achats, évaluateurs type AISI — un vocabulaire qui distingue « le modèle peut trouver des bugs » de « le modèle peut finir des exploits ». Les chiffres de Mythos sont un instantané d’un modèle frontière en mai 2026 ; l’infrastructure de notation continuera d’avoir de l’importance après l’arrivée de la prochaine génération.