RESEARCH MEDIUM NEW

SCONE-bench：以被盗美元衡量 AI 自主漏洞利用

Anthropic 2025 年 12 月 1 日的研究用金钱而非成功率来衡量 AI 智能体的漏洞利用：在智能合约上，前沿模型产生了 460 万美元的模拟盗窃，并以每次扫描 1.22 美元发现两个真实零日漏洞。

2026-06-16 // 7 min affects: claude-opus-4-5, claude-sonnet-4-5, gpt-5, smart-contracts, defi

What is this?

2025 年 12 月 1 日，Anthropic 的红队发布了《AI agents find $4.6M in blockchain smart contract exploits》，这是一项由 MATS 与 Anthropic Fellows 项目的研究者（Winnie Xiao、Cole Killian 及其同事）完成的研究。它提出了 SCONE-bench（Smart CONtracts Exploitation benchmark）：405 个在 2020 至 2025 年间真实遭到利用的合约，覆盖 Ethereum、Binance Smart Chain 与 Base，来源于公开的 DefiHackLabs 仓库。其新意不在于又一个能力得分，而在于度量单位。SCONE-bench 不用抽象的成功率，而是以模拟被盗资金的美元数来衡量一个 AI 智能体能做什么，因为智能合约漏洞的链上价值可以直接观测。所有测试仅在区块链模拟器中进行；没有触及任何真实链或真实资产。

这一点很重要，因为它把”AI 能完成网络安全任务”变成了防御者、工程师和决策者可以推理的经济命题。该主题也在 2026 年 6 月的安全分析中再次被讨论（包括 OWASP 关于智能体安全的工作），被视为关于自主漏洞利用经济性的最清晰的公开估算。

How it works

该测试框架给智能体一份分叉的、沙箱化的区块链副本和 60 分钟的预算。智能体获得目标合约的源代码与元数据、一套 Foundry 工具链以及通过 Model Context Protocol 暴露的 Python 环境，并需编写一个利用脚本，使自身余额超过一个很小的获利阈值。成功通过在分叉链上重放脚本来验证。我们仅在度量层面描述结果：此处不复现任何利用脚本、地址或操作步骤。

在 10 个前沿模型上以 Best@8 评估，智能体为 405 个合约中的 207 个（51%）产生了可用的利用，模拟被盗资金总计约 5.5 亿美元。为排除训练数据污染，作者在每个模型知识截止日期之后被利用的合约上重新评估（Opus 4.5 为 2025 年 6 月 1 日，其他模型为 2025 年 3 月 1 日）：Opus 4.5、Sonnet 4.5 与 GPT-5 解出了约 56%，价值高达 460 万美元，其中 Opus 4.5 一家就达到 370 万美元。在这一年里，截止日期之后的利用收益大约每 1.3 个月翻一番——从一年前约 2% 的漏洞、5,000 美元，增长到 55.88%、460 万美元。

最引人注目的是零日测试。2025 年 10 月 3 日，Sonnet 4.5 与 GPT-5 智能体被指向 2,849 个近期部署、无已知漏洞的 BSC 合约。它们发掘出两个真正全新的缺陷，价值 3,694 美元，GPT-5 以 3,476 美元的 API 成本找到它们。回头看，这两个 bug 都很基础：一个是开发者忘记将奖励计算函数标记为只读，于是调用它会修改状态而不仅仅是读取；另一个是手续费提取路径从不校验接收方。这些都是普通的访问控制与写保护错误——正是静态分析与代码审查已经针对的对象——却被一个自主智能体端到端地发现并变现。

Why it matters

经济性才是要点。让智能体彻底扫描单个合约的平均成本为 1.22 美元；每实际发现一个有漏洞合约的平均成本约 1,738 美元，而每次利用的平均收益为 1,847 美元。在四代 Claude 中，每次成功利用的 token 成本下降约 70%，意味着每美元能获得的利用数量约为半年前的 3.4 倍。正如作者指出，所涉及的能力——长时程推理、边界分析、迭代式工具使用——并非区块链所独有。智能合约只是美元价值可见的地方；同样的自动化审视会延伸到任何开源依赖、被遗忘的认证库，或通向高价值资产路径上的某个不起眼端点。从部署易受攻击的代码到它被探测之间的窗口，正在向机器速度收缩。

Defenses

研究本身的结论是：能够利用漏洞的同一批智能体也能用于防御，且防御者应当现在就采用，而不是以后。

把 AI 智能体用作部署前审计员。SCONE-bench 提供即插即用的支持，可在上线前将智能体指向你自己的合约；在分叉环境中对你的代码运行自主利用生成，把任何越过获利阈值的脚本视为发布阻断项，并将其与传统静态分析一起纳入 CI。

重新聚焦基础，因为智能体正是从这里下手。两个零日漏洞分别是缺失的 view 修饰符与缺失的接收方校验——写保护与访问控制的卫生问题。用 linter、对修改状态的公共函数强制审查，以及断言”谁能调用什么”的测试来加以约束。

压缩部署到修补的窗口。如果收益每约 1.3 个月翻一番，而一次扫描成本约 1.22 美元，就应假设敌对智能体会在部署后数小时内触及你的合约。分阶段发布、限制新合约中的风险价值、随时准备好紧急暂停与升级路径，并预先安排白帽救援联系人（该研究与 SEAL 协调了资金回收）。

把能力当作一条经济曲线来跟踪，而不是是/否。像基准那样衡量你自己的暴露面——以攻击者每美元算力可触及的价值来衡量——并随着模型进步不断重新评估，因为成本一侧仍在持续下降。

Status

这是一项已发表、可审阅的研究，具有防御性立场，而非某个产品 CVE。该研究发布于 2025 年 12 月 1 日，并于 2025 年 12 月 2 日与 8 日做了少量修订；Bruce Schneier 于 2025 年 12 月 11 日进行了报道。该基准已开源（完整测试框架将随后发布），作者以”攻击者本就有动机自行构建此类工具”来论证这一双重用途的决定。作为现实风险的背景，Trail of Bits 记录了 2025 年 11 月因取整方向问题导致的 Balancer 1.2 亿美元利用事件。本文仅报告研究结论与缓解措施；不包含任何利用代码、合约地址或操作性攻击细节。来源及其发布日期已在上方列出。

本文以防御视角报道已发表的安全研究。如果你交付智能合约或其他高价值开源代码，请把自主利用生成纳入你自己的测试套件，而不要把它当作未来的威胁。