RESEARCH MEDIUM NEW

SCONE-bench: tasar la explotación autónoma por IA en dólares robados

El estudio de Anthropic del 1 de diciembre de 2025 mide la explotación por agentes de IA en dinero, no en tasas de éxito: en smart contracts, los modelos de frontera produjeron 4,6 M$ de robo simulado y dos zero-days reales a 1,22 $ por escaneo.

2026-06-16 // 8 min affects: claude-opus-4-5, claude-sonnet-4-5, gpt-5, smart-contracts, defi

What is this?

El 1 de diciembre de 2025, el equipo red de Anthropic publicó AI agents find $4.6M in blockchain smart contract exploits, un estudio de investigadores de los programas MATS y Anthropic Fellows (Winnie Xiao, Cole Killian y colegas). Presenta SCONE-bench (Smart CONtracts Exploitation benchmark): 405 contratos realmente explotados entre 2020 y 2025 en Ethereum, Binance Smart Chain y Base, derivados del repositorio público DefiHackLabs. La novedad no es otra puntuación de capacidad, sino la unidad de medida. En lugar de una tasa de éxito abstracta, SCONE-bench tasa lo que un agente de IA puede hacer en dólares de fondos robados simulados, porque un exploit de smart contract tiene un valor on-chain directamente observable. Todas las pruebas se ejecutaron solo en simuladores de blockchain; no se tocó ninguna cadena real ni activos reales.

Esto importa porque convierte el «la IA sabe hacer tareas de ciberseguridad» en un enunciado económico sobre el que defensores, ingenieros y responsables de políticas pueden razonar. El tema también volvió a circular en los análisis de seguridad de junio de 2026 (incluido el trabajo de OWASP sobre seguridad agéntica) como la estimación pública más clara de la economía de la explotación autónoma.

How it works

El arnés da al agente una copia bifurcada y aislada de una blockchain y un presupuesto de 60 minutos. El agente recibe el código fuente y los metadatos del contrato objetivo, una cadena de herramientas Foundry y un entorno Python expuestos mediante el Model Context Protocol, y debe escribir un script de exploit que aumente su propio saldo por encima de un pequeño umbral de beneficio. El éxito se valida reproduciendo el script contra la cadena bifurcada. Describimos el resultado solo al nivel de la medición: aquí no se reproduce ningún script de exploit, dirección ni paso operativo.

En 10 modelos de frontera con Best@8, los agentes produjeron exploits funcionales para 207 de 405 contratos (51 %), unos 550 millones de dólares en fondos robados simulados. Para descartar contaminación por datos de entrenamiento, los autores repitieron la evaluación sobre contratos explotados después del corte de conocimiento de cada modelo (1 de junio de 2025 para Opus 4.5, 1 de marzo de 2025 para los demás): Opus 4.5, Sonnet 4.5 y GPT-5 resolvieron alrededor del 56 %, por un valor de hasta 4,6 millones de dólares, alcanzando Opus 4.5 por sí solo 3,7 millones. A lo largo del año, los ingresos por explotación posteriores al corte se duplicaron aproximadamente cada 1,3 meses — pasando de alrededor del 2 % de las vulnerabilidades y 5 000 $ un año antes a 55,88 % y 4,6 millones.

La parte más llamativa es la prueba de zero-day. El 3 de octubre de 2025, los agentes Sonnet 4.5 y GPT-5 se apuntaron a 2 849 contratos recién desplegados en BSC, sin vulnerabilidades conocidas. Hicieron emerger dos fallos genuinamente novedosos valorados en 3 694 $, encontrándolos GPT-5 con un coste de API de 3 476 $. Ambos errores eran elementales en retrospectiva: uno era una función de cálculo de recompensa que los desarrolladores olvidaron marcar como de solo lectura, de modo que llamarla mutaba el estado en lugar de solo leerlo; el otro era una ruta de retiro de comisiones que nunca validaba al destinatario. Son errores ordinarios de control de acceso y protección de escritura — exactamente lo que ya apuntan el análisis estático y la revisión — hallados y monetizados de extremo a extremo por un agente autónomo.

Why it matters

La economía es lo central. El coste medio de hacer que un agente escanee exhaustivamente un solo contrato fue de 1,22 $; el coste medio por contrato vulnerable realmente encontrado, unos 1 738 $, frente a 1 847 $ de ingreso medio por exploit. El coste en tokens por exploit exitoso cayó alrededor del 70 % en cuatro generaciones de Claude, es decir, unas 3,4 veces más exploits por dólar que seis meses antes. Como señalan los autores, las habilidades implicadas — razonamiento a largo horizonte, análisis de límites, uso iterativo de herramientas — no son específicas de la blockchain. Los smart contracts son simplemente el lugar donde el valor en dólares es visible; el mismo escrutinio automatizado se extiende a cualquier dependencia open source, biblioteca de autenticación olvidada o endpoint oscuro situado en el camino hacia activos valiosos. La ventana entre desplegar código vulnerable y verlo sondeado se reduce hacia la velocidad de la máquina.

Defenses

La propia conclusión del estudio es que los mismos agentes que explotan pueden defender, y que los defensores deberían adoptarlos ahora en vez de más tarde.

Use agentes de IA como auditores previos al despliegue. SCONE-bench ofrece soporte llave en mano para apuntar el agente a sus propios contratos antes de la puesta en producción; lance generación de exploits autónoma contra su código en un fork, trate todo script que supere el umbral de beneficio como bloqueante de la release, e intégrelo en la CI junto al análisis estático clásico.

Vuelva a centrar los fundamentos, porque ahí golpean los agentes. Los dos zero-days fueron modificadores view ausentes y validación de destinatario faltante — higiene de protección de escritura y de control de acceso. Imponga esto con linters, revisión obligatoria de las funciones públicas que mutan estado y pruebas que afirmen quién puede llamar a qué.

Comprima la ventana despliegue-parche. Si los ingresos se duplican cada ~1,3 meses y un escaneo cuesta ~1,22 $, asuma que agentes hostiles alcanzan su contrato en las horas siguientes al despliegue. Escalone las releases, limite el valor en riesgo en los contratos nuevos, mantenga listas rutas de pausa de emergencia y de actualización, y organice de antemano contactos de rescate white-hat (el estudio coordinó la recuperación de fondos con SEAL).

Siga la capacidad como una curva económica, no como un sí/no. Mida su propia exposición como lo hace el benchmark — en valor alcanzable por dólar de cómputo del atacante — y revísela a medida que los modelos mejoran, ya que el lado del coste sigue bajando.

Status

Se trata de investigación publicada y verificable, con enfoque defensivo, no de un CVE de producto. El estudio se publicó el 1 de diciembre de 2025 y se revisó ligeramente el 2 y el 8 de diciembre de 2025; Bruce Schneier lo cubrió el 11 de diciembre de 2025. El benchmark es de código abierto (el arnés completo llegará después), una decisión de doble uso que los autores justifican señalando que los atacantes ya tienen el incentivo para construir tales herramientas. Para situar lo que está en juego, Trail of Bits documentó en noviembre de 2025 un exploit de Balancer de 120 M$ debido a una dirección de redondeo. Este artículo solo informa de los hallazgos y las mitigaciones; no contiene código de exploit, direcciones de contrato ni detalles operativos de ataque. Las fuentes se citan arriba con su fecha de publicación.

Este artículo cubre investigación de seguridad publicada, con un enfoque defensivo. Si despliega smart contracts u otro código open source de alto valor, trate la generación de exploits autónoma como parte de su propia batería de pruebas, no como una amenaza futura.