SCONE-bench:以被盗美元衡量 AI 自主漏洞利用
Anthropic 2025 年 12 月 1 日的研究用金钱而非成功率来衡量 AI 智能体的漏洞利用:在智能合约上,前沿模型产生了 460 万美元的模拟盗窃,并以每次扫描 1.22 美元发现两个真实零日漏洞。
What is this?
2025 年 12 月 1 日,Anthropic 的红队发布了《AI agents find $4.6M in blockchain smart contract exploits》,这是一项由 MATS 与 Anthropic Fellows 项目的研究者(Winnie Xiao、Cole Killian 及其同事)完成的研究。它提出了 SCONE-bench(Smart CONtracts Exploitation benchmark):405 个在 2020 至 2025 年间真实遭到利用的合约,覆盖 Ethereum、Binance Smart Chain 与 Base,来源于公开的 DefiHackLabs 仓库。其新意不在于又一个能力得分,而在于度量单位。SCONE-bench 不用抽象的成功率,而是以模拟被盗资金的美元数来衡量一个 AI 智能体能做什么,因为智能合约漏洞的链上价值可以直接观测。所有测试仅在区块链模拟器中进行;没有触及任何真实链或真实资产。
这一点很重要,因为它把”AI 能完成网络安全任务”变成了防御者、工程师和决策者可以推理的经济命题。该主题也在 2026 年 6 月的安全分析中再次被讨论(包括 OWASP 关于智能体安全的工作),被视为关于自主漏洞利用经济性的最清晰的公开估算。
How it works
该测试框架给智能体一份分叉的、沙箱化的区块链副本和 60 分钟的预算。智能体获得目标合约的源代码与元数据、一套 Foundry 工具链以及通过 Model Context Protocol 暴露的 Python 环境,并需编写一个利用脚本,使自身余额超过一个很小的获利阈值。成功通过在分叉链上重放脚本来验证。我们仅在度量层面描述结果:此处不复现任何利用脚本、地址或操作步骤。
在 10 个前沿模型上以 Best@8 评估,智能体为 405 个合约中的 207 个(51%)产生了可用的利用,模拟被盗资金总计约 5.5 亿美元。为排除训练数据污染,作者在每个模型知识截止日期之后被利用的合约上重新评估(Opus 4.5 为 2025 年 6 月 1 日,其他模型为 2025 年 3 月 1 日):Opus 4.5、Sonnet 4.5 与 GPT-5 解出了约 56%,价值高达 460 万美元,其中 Opus 4.5 一家就达到 370 万美元。在这一年里,截止日期之后的利用收益大约每 1.3 个月翻一番——从一年前约 2% 的漏洞、5,000 美元,增长到 55.88%、460 万美元。
最引人注目的是零日测试。2025 年 10 月 3 日,Sonnet 4.5 与 GPT-5 智能体被指向 2,849 个近期部署、无已知漏洞的 BSC 合约。它们发掘出两个真正全新的缺陷,价值 3,694 美元,GPT-5 以 3,476 美元的 API 成本找到它们。回头看,这两个 bug 都很基础:一个是开发者忘记将奖励计算函数标记为只读,于是调用它会修改状态而不仅仅是读取;另一个是手续费提取路径从不校验接收方。这些都是普通的访问控制与写保护错误——正是静态分析与代码审查已经针对的对象——却被一个自主智能体端到端地发现并变现。
Why it matters
经济性才是要点。让智能体彻底扫描单个合约的平均成本为 1.22 美元;每实际发现一个有漏洞合约的平均成本约 1,738 美元,而每次利用的平均收益为 1,847 美元。在四代 Claude 中,每次成功利用的 token 成本下降约 70%,意味着每美元能获得的利用数量约为半年前的 3.4 倍。正如作者指出,所涉及的能力——长时程推理、边界分析、迭代式工具使用——并非区块链所独有。智能合约只是美元价值可见的地方;同样的自动化审视会延伸到任何开源依赖、被遗忘的认证库,或通向高价值资产路径上的某个不起眼端点。从部署易受攻击的代码到它被探测之间的窗口,正在向机器速度收缩。
Defenses
研究本身的结论是:能够利用漏洞的同一批智能体也能用于防御,且防御者应当现在就采用,而不是以后。
把 AI 智能体用作部署前审计员。SCONE-bench 提供即插即用的支持,可在上线前将智能体指向你自己的合约;在分叉环境中对你的代码运行自主利用生成,把任何越过获利阈值的脚本视为发布阻断项,并将其与传统静态分析一起纳入 CI。
重新聚焦基础,因为智能体正是从这里下手。两个零日漏洞分别是缺失的 view 修饰符与缺失的接收方校验——写保护与访问控制的卫生问题。用 linter、对修改状态的公共函数强制审查,以及断言”谁能调用什么”的测试来加以约束。
压缩部署到修补的窗口。如果收益每约 1.3 个月翻一番,而一次扫描成本约 1.22 美元,就应假设敌对智能体会在部署后数小时内触及你的合约。分阶段发布、限制新合约中的风险价值、随时准备好紧急暂停与升级路径,并预先安排白帽救援联系人(该研究与 SEAL 协调了资金回收)。
把能力当作一条经济曲线来跟踪,而不是是/否。像基准那样衡量你自己的暴露面——以攻击者每美元算力可触及的价值来衡量——并随着模型进步不断重新评估,因为成本一侧仍在持续下降。
Status
这是一项已发表、可审阅的研究,具有防御性立场,而非某个产品 CVE。该研究发布于 2025 年 12 月 1 日,并于 2025 年 12 月 2 日与 8 日做了少量修订;Bruce Schneier 于 2025 年 12 月 11 日进行了报道。该基准已开源(完整测试框架将随后发布),作者以”攻击者本就有动机自行构建此类工具”来论证这一双重用途的决定。作为现实风险的背景,Trail of Bits 记录了 2025 年 11 月因取整方向问题导致的 Balancer 1.2 亿美元利用事件。本文仅报告研究结论与缓解措施;不包含任何利用代码、合约地址或操作性攻击细节。来源及其发布日期已在上方列出。
本文以防御视角报道已发表的安全研究。如果你交付智能合约或其他高价值开源代码,请把自主利用生成纳入你自己的测试套件,而不要把它当作未来的威胁。