Medir la capacidad de exploit de los LLM: ExploitBench, ExploitGym y SCONE-bench
El 22 de mayo de 2026, Anthropic publicó los resultados de Mythos Preview en tres nuevos benchmarks de explotación. Las cifras — y la forma en que los benchmarks descomponen la cadena de exploit — cambian cómo los defensores deben pensar la capacidad ofensiva de frontera.
¿De qué se trata?
El 22 de mayo de 2026, Anthropic publicó Measuring LLMs’ ability to develop exploits en red.anthropic.com, reportando los resultados de Claude Mythos Preview en tres nuevos benchmarks de explotación: ExploitBench, ExploitGym y un SCONE-bench actualizado. La publicación es complemento de Project Glasswing — en lugar de contar vulnerabilidades encontradas en software en producción, busca medir con precisión qué tan lejos pueden llegar los modelos de frontera actuales en la cadena de desarrollo de exploits.
Los propios benchmarks son la noticia. Dos fueron publicados en arXiv en mayo de 2026 por grupos externos: ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents de Seunghyun Lee (CMU) y David Brumley (CMU / Bugcrowd), y ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks? de un consorcio UC Berkeley / Max Planck / UCSB / Arizona State con colaboradores de Anthropic, OpenAI y Google. El tercero, SCONE-bench, es un benchmark de explotación de smart contracts liderado por Anthropic cuyo harness y dataset están ahora disponibles en GitHub como código abierto.
Cómo funciona
Cada benchmark apunta a una capa distinta de la cadena de exploit. Ninguno publica payloads reutilizables — el objetivo es puntuar, de forma programática, qué tan cerca llega un modelo de un exploit funcional sobre bugs ya parcheados.
ExploitBench — escalera de capacidades V8. ExploitBench descompone el desarrollo de exploits en 16 capacidades medibles agrupadas en cinco niveles, contra 41 CVE parcheadas del motor JavaScript V8:
T5 Coverage Alcanzar la ruta de código vulnerable
T4 Reproduction Disparar el bug (proof-of-concept)
T3 Target primitives Construir primitivas dentro del sandbox V8
T2 Generic primitives Romper el sandbox: read/write/infoleak entre procesos
T1 Full Control Hijack del flujo de control / ejecución de código arbitrario (ACE)
Cada capacidad se verifica automáticamente — los niveles bajos por ejecución diferencial contra el build parcheado, los altos por funciones challenge-response replicadas sobre layouts de heap aleatorizados para que un modelo no pueda aprobar codificando una dirección filtrada. Los modelos corren sobre un harness idéntico de 300 turnos. Lee y Brumley reportan que los LLM de frontera públicos actuales alcanzan T5 / T4 rutinariamente pero se estancan en T3; según la medición de Anthropic, Claude Mythos Preview alcanza T1 (ACE) en 21 de 41 CVE, mientras que ningún otro modelo evaluado consigue siquiera un ACE en ninguna de las variantes del harness.
ExploitGym — conjunto amplio de objetivos con flags de extremo a extremo. ExploitGym toma 898 vulnerabilidades parcheadas de OSS-Fuzz, V8 y el kernel de Linux, empaqueta cada una como objetivo remoto en contenedor, y califica por captura de flag solo cuando un model judge confirma que se explotó la vulnerabilidad prevista (no un bug incidental más fácil). El presupuesto de tiempo real es de dos horas; los modelos corren dentro de los harness recomendados por sus desarrolladores. Anthropic reporta a Mythos Preview con 157 éxitos usando la vulnerabilidad prevista (226 capturas de flag en total), con Claude Opus 4.6 en 15 previstos / 36 totales. El preprint de ExploitGym reporta el GPT-5.5 de OpenAI en 120 exploits funcionales sobre el mismo conjunto.
Actualización de SCONE-bench. El benchmark de smart contracts se refrescó con 12 exploits del dataset DefiHackLabs reportados después del cutoff de conocimiento de los modelos (1 de enero de 2026). El rendimiento es la suma del valor histórico en USD de los contratos vaciados con éxito en simulación local, en escala logarítmica. Anthropic reporta a Mythos Preview en ~35 M$ de valor de exploit simulado, ~75 % por encima del siguiente modelo más cercano, y un tiempo de duplicación actualizado de aproximadamente 0,7 meses para el ingreso de exploits de Claude desde Opus 4.5 (frente a la trayectoria de 1,1 meses seguida desde 2024).
A través de los tres benchmarks aparece la misma imagen: un salto entre Opus 4.6/4.7 y Mythos Preview exactamente en la capa donde la explotación deja de ser reconocimiento de patrones y empieza a requerir construcción determinista de primitivas, evasión de sandbox y ensamblaje de cadena.
Por qué importa
Tres implicaciones para los defensores, ninguna de las cuales requiere acceso a Mythos.
Los benchmarks alcanzan a la capacidad. Hasta principios de 2026, los benchmarks cyber públicos medían en su mayoría “¿el modelo encontró un crash?”. Esa es la pregunta equivocada: un crash no es un exploit, y la mayoría de LLM saturaban esos benchmarks sin poder armar nada. La escalera de 16 flags de ExploitBench y la regla de captura de flag con vulnerabilidad prevista de ExploitGym son las primeras rúbricas públicas de puntuación que distinguen alcanzabilidad de explotabilidad con grano fino. Importa porque cada conversación de modelado de amenazas ahora cuenta con un marcador compartido.
El precipicio de capacidad es concreto. Los datos de ExploitBench muestran que el salto T3→T2 (escapar del sandbox heap de V8) es el precipicio: solo Mythos Preview lo cruza de forma confiable, y solo Mythos Preview combina escape de sandbox V8 con hijack de flujo de control. ExploitGym muestra la misma forma en objetivos más amplios, incluidos exploits de kernel. Los defensores que planificaban bajo “la IA puede encontrar bugs pero no explotarlos” deben actualizar: en la frontera privada, eso ya no es cierto.
La tendencia de duplicación no se ha aplanado. El paso de 1,1 meses a 0,7 meses en SCONE-bench, sobre problemas posteriores al cutoff de los modelos, es el dato que la propia Anthropic señaló como continuando más allá de su expectativa previa de saturación. El argumento de asumir que los modelos públicos de próxima generación aterricen cerca de la capacidad de hoy de la frontera privada dentro de 6-12 meses es más sólido este mes que el anterior.
Defensas
Los benchmarks no parchean nada por sí mismos. Cambian, sin embargo, cómo los defensores deben priorizar.
- Actualizar los modelos de amenaza asumiendo que el escape de sandbox está al alcance. Los equipos de navegador, motores JS y kernel que se dimensionaban contra adversarios T4 deben re-planificar contra adversarios T2-T1 en el próximo ciclo de release mayor. Las divulgaciones de Firefox 150 y el ejemplo de forja de certificados wolfSSL del update de Glasswing son los primeros datos; ExploitBench formaliza la puntuación.
- Ejecutar los benchmarks contra los modelos que realmente despliegan. ExploitBench y ExploitGym se entregan como entornos contenedorizados reproducibles; SCONE-bench ya es open source. Los red teams internos pueden medir exactamente cuánto sube su propia cadena de herramientas (modelo open-weights + harness) en la escalera antes de invertir en mitigaciones en otra parte.
- Impulsar las migraciones memory-safe en las superficies más expuestas. Use-after-free, OOB read/write y type confusion siguen siendo las clases V8 / navegador / kernel de alto rendimiento que mide ExploitBench. Las reescrituras memory-safe de parsers calientes y helpers JIT son la única defensa estructural; todo lo demás compra tiempo.
- Seguir las evaluaciones de capacidad, no solo los lanzamientos. Los programas Cyber Verification y External Researcher Access de Anthropic dan a los defensores una interfaz a la información de capacidad antes de la liberación. Los programas equivalentes en otros laboratorios merecen suscripción.
- Calibrar la capacidad de divulgación. Si la capacidad de exploit de los modelos de frontera se duplica en menos de un mes, espere que el volumen de reportes de bugs que llegó a Mozilla y wolfSSL este mes alcance a más mantenedores el próximo trimestre. Bloques de CVE preasignados, actualizaciones de security.txt y una política de triaje asistido por IA son acciones sin arrepentimiento.
- Exigir transparencia de benchmark a los proveedores. “Nuestro modelo es seguro” sin un puntaje público en al menos un benchmark de escalera de capacidades ya no es adecuado. Los equipos de compras pueden exigir puntajes ExploitBench / ExploitGym / SCONE-bench en los cuestionarios de seguridad.
Estado
| Ítem | Referencia | Fecha | Notas |
|---|---|---|---|
| Publicación Anthropic | Measuring LLMs’ ability to develop exploits | 2026-05-22 | Mythos Preview puntuado en tres benchmarks |
| Preprint ExploitBench | Lee, Brumley (CMU / Bugcrowd) — arXiv 2605.14153 | 2026-05 | 41 CVE V8, escalera de 16 flags |
| Preprint ExploitGym | Berkeley RDI et al. — arXiv 2605.11086 | 2026-05 | 898 vulnerabilidades, OSS-Fuzz + V8 + kernel Linux |
| Actualización SCONE-bench | Anthropic / MATS / Fellows | 2026-05-22 | 12 exploits DefiHackLabs post-cutoff, código abierto |
| Resultado clave | ExploitBench, Baseline+Nudged | 2026-05-22 | Mythos Preview: 21/41 ACE; otros modelos: 0/41 |
| Resultado clave | ExploitGym, 2h tiempo real | 2026-05-22 | Mythos Preview: 157 previstos / 226 flags totales |
| Resultado clave | SCONE-bench actualizado | 2026-05-22 | Mythos Preview: ~35 M$ de valor de exploit simulado |
Los propios benchmarks son la contribución que vale la pena seguir. Dan al resto del campo — defensores, reguladores, compras, evaluadores tipo AISI — un vocabulario que distingue “el modelo puede encontrar bugs” de “el modelo puede terminar exploits”. Las cifras de Mythos son una instantánea de un modelo de frontera en mayo de 2026; la infraestructura de puntuación seguirá importando después de que llegue la próxima generación.