衡量大语言模型的漏洞利用能力:ExploitBench、ExploitGym 与 SCONE-bench
2026 年 5 月 22 日,Anthropic 公布了 Mythos Preview 在三个新漏洞利用基准上的成绩。这些数字以及基准对漏洞利用链的分解方式,正在改变防御者对前沿攻击能力的思考方式。
这是什么?
2026 年 5 月 22 日,Anthropic 在 red.anthropic.com 上发布了 Measuring LLMs’ ability to develop exploits,公布了 Claude Mythos Preview 在三个新漏洞利用基准上的成绩:ExploitBench、ExploitGym 和更新版 SCONE-bench。该文是 Project Glasswing 的姊妹篇 —— 它不是统计在已部署软件中发现的漏洞数量,而是尝试以可程序化的方式,精确测量当前前沿模型在漏洞利用开发链上能爬到多高。
这些基准本身就是新闻。其中两个由外部团队于 2026 年 5 月发布到 arXiv:Seunghyun Lee(CMU)与 David Brumley(CMU / Bugcrowd)的 ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents,以及由 UC Berkeley、Max Planck、UCSB、Arizona State 联合,Anthropic、OpenAI、Google 提供贡献者的 ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?。第三个 SCONE-bench 是由 Anthropic 主导的智能合约利用基准,其测试框架和数据集现已 在 GitHub 上开源。
工作原理
每个基准都针对漏洞利用链的不同层面。三者都不发布可武器化的载荷 —— 重点是在已修补的漏洞上,以程序化方式打分,衡量模型距离一个可用利用还有多远。
ExploitBench —— V8 能力阶梯。 ExploitBench 将漏洞利用开发拆解为 16 项可测量能力,分为五个等级,在 41 个已修补的 V8 JavaScript 引擎 CVE 上进行测试:
T5 Coverage 触达存在漏洞的代码路径
T4 Reproduction 触发漏洞(概念验证)
T3 Target primitives 在 V8 沙箱内部构建原语
T2 Generic primitives 突破沙箱:跨进程 read/write/infoleak
T1 Full Control 劫持控制流 / 任意代码执行(ACE)
每项能力都由程序自动验证 —— 低等级通过对修补后版本的差分执行检查,高等级通过 V8 中内置、在随机化堆布局上多次重放的 challenge-response 函数来评估,从而避免模型靠硬编码泄露地址蒙混过关。所有模型运行在同一个 300 轮的测试框架中。Lee 与 Brumley 报告称,目前公开的前沿 LLM 常规可达 T5 / T4,但停滞在 T3;按照 Anthropic 的测量,Claude Mythos Preview 在 41 个 CVE 中的 21 个上达到了 T1(ACE),而其他所有受测模型在任何变体下均未取得任何一个 ACE。
ExploitGym —— 广泛目标集合与端到端 flag。 ExploitGym 选取了 OSS-Fuzz、V8 与 Linux 内核中的 898 个已修补漏洞,将每个漏洞封装为容器化的远程目标,只有当一个 model judge 确认所利用的就是预期的漏洞(而不是恰巧更易利用的另一个 bug)时,flag 捕获才算成功。挂钟预算为两小时;模型在各自开发者推荐的测试框架内运行。Anthropic 报告,Mythos Preview 在使用预期漏洞时获得 157 次成功(总共 226 次 flag 捕获),而 Claude Opus 4.6 为 15 次预期 / 36 次总计。ExploitGym 预印本报告 OpenAI 的 GPT-5.5 在同一集合上获得 120 个可用利用。
SCONE-bench 刷新。 智能合约基准用 12 个来自 DefiHackLabs 数据集、发生在所有模型知识截止日期(2026 年 1 月 1 日)之后的利用进行了刷新。表现以本地仿真中成功转移合约的累计美元价值衡量,采用对数刻度。Anthropic 报告,Mythos Preview 达到约 3500 万美元的仿真利用价值,比次优模型高出约 75%,自 Opus 4.5 以来 Claude 利用收入的倍增时间更新为约 0.7 个月(此前自 2024 年以来的轨迹为 1.1 个月)。
三个基准呈现同一幅图景:在漏洞利用从模式识别转向需要确定性地构建原语、突破沙箱、组装链条的那一层,Opus 4.6/4.7 与 Mythos Preview 之间出现了明显跃迁。
为什么重要
对防御方有三条启示,且都不要求获得 Mythos 的访问权限。
基准正在追上能力。 直至 2026 年初,公开的网络安全基准基本上在问”模型是否找到了崩溃?”。这是错误的问题:崩溃不等于利用,而绝大多数 LLM 一边在这类基准上饱和,一边仍无法武器化任何东西。ExploitBench 的 16 项 flag 阶梯和 ExploitGym 的”预期漏洞捕获 flag”规则,是第一份能在细粒度上区分可达性与可利用性的公开评分准则。这点意义重大,因为每一次威胁建模讨论现在都有了一个共享的计分板。
能力悬崖是具体的。 ExploitBench 数据显示,T3→T2 的跃迁(突破 V8 堆沙箱)就是悬崖:只有 Mythos Preview 能稳定地越过,且只有 Mythos Preview 能同时完成 V8 沙箱突破和控制流劫持。ExploitGym 在更广泛的目标(包括内核利用)上呈现相同形态。仍在按”AI 能找 bug 但不能利用 bug”做规划的防御方,需要更新假设:在私有前沿,这已不成立。
倍增趋势尚未饱和。 SCONE-bench 上 1.1 个月 → 0.7 个月的倍增,且使用的是模型知识截止之后的样本,这是 Anthropic 自己标记为超出其先前饱和预期的数据点。下一代公开模型在 6–12 个月内逼近今日私有前沿能力的论点,本月比上月更具说服力。
防御
基准本身不会修补任何东西,但它们会改变防御方的优先级排序。
- 更新威胁模型,假设沙箱突破已在能力范围之内。 此前按 T4 级对手配置资源的浏览器、JS 引擎与内核团队,应在下一个大版本周期内按 T2–T1 级对手重新规划。Firefox 150 的披露与 Glasswing 更新中的 wolfSSL 证书伪造案例是早期数据点,ExploitBench 将评分形式化。
- 针对自己实际部署的模型运行基准。 ExploitBench 与 ExploitGym 以可复现的容器化环境交付,SCONE-bench 现已开源。内部红队可以精确测量自己的工具链(开源权重模型 + 测试框架)在阶梯上能爬到哪里,再决定将资源投向何处的缓解。
- 在最高暴露面推动 memory-safe 迁移。 Use-after-free、OOB read/write 和类型混淆仍是 ExploitBench 测量的 V8 / 浏览器 / 内核高产出漏洞类。对热点解析器与 JIT 辅助代码的 memory-safe 重写是唯一结构性防御,其他一切只是争取时间。
- 跟踪能力评估,而非仅关注发布公告。 Anthropic 的 Cyber Verification Program 和 External Researcher Access Program 为防御方提供了在发布前接触能力信息的接口。其他实验室的同类项目也值得订阅。
- 校准披露处理能力。 如果前沿模型的利用能力以亚月级倍增,本月冲击 Mozilla 与 wolfSSL 的 bug 报告量,下个季度将冲击更多维护者。预分配 CVE 区段、刷新 security.txt、制定 AI 辅助分诊政策都是无悔之举。
- 要求供应商公开基准成绩。 “我们的模型是安全的”如果没有至少一个能力阶梯基准上的公开分数,已不再足以服人。采购团队可在安全问卷中要求 ExploitBench / ExploitGym / SCONE-bench 分数。
状态
| 项目 | 出处 | 日期 | 备注 |
|---|---|---|---|
| Anthropic 文章 | Measuring LLMs’ ability to develop exploits | 2026-05-22 | Mythos Preview 在三个基准上获评 |
| ExploitBench 预印本 | Lee, Brumley(CMU / Bugcrowd) — arXiv 2605.14153 | 2026-05 | 41 个 V8 CVE,16 项 flag 阶梯 |
| ExploitGym 预印本 | Berkeley RDI 等 — arXiv 2605.11086 | 2026-05 | 898 个漏洞,OSS-Fuzz + V8 + Linux 内核 |
| SCONE-bench 刷新 | Anthropic / MATS / Fellows | 2026-05-22 | 12 个截止后 DefiHackLabs 利用,已开源 |
| 关键结果 | ExploitBench,Baseline+Nudged | 2026-05-22 | Mythos Preview:21/41 ACE;其他模型:0/41 |
| 关键结果 | ExploitGym,2 小时挂钟 | 2026-05-22 | Mythos Preview:157 预期 / 226 总 flag |
| 关键结果 | SCONE-bench 更新版 | 2026-05-22 | Mythos Preview:~3500 万美元仿真利用价值 |
这些基准本身才是值得长期关注的贡献。它们为防御方、监管者、采购、AISI 类评估者提供了一个能区分”模型能找 bug”与”模型能完成利用”的词汇表。Mythos 的数字只是 2026 年 5 月某一前沿模型的快照;评分基础设施会在下一代模型登场之后继续产生价值。