SEC-bench Pro:AI 智能体真的能在 V8 和 SpiderMonkey 中挖洞吗?
2026 年 5 月 26 日的一项基准测试,衡量编码智能体在真实浏览器引擎中进行长链路漏洞发现的能力。前沿模型仍低于 40%——这一差距对攻防双方都很重要。
这是什么?
“SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?”(arXiv:2605.26548,2026 年 5 月 26 日)是一项基准测试,提出了每个安全团队如今都必须回答的问题:当你把一个编码智能体指向一个真实的大型代码库,并要求它找出一个漏洞时,它实际成功的频率有多高?在作者选取的两个目标——谷歌的 V8 和 Mozilla 的 SpiderMonkey JavaScript 引擎——上,答案是”比营销宣传所暗示的要少得多”。
该工作把最初的 SEC-bench(NeurIPS 2025)从短小、界定清晰的任务,扩展到了长链路任务:在浏览器级软件上进行多步骤挖洞,智能体必须在百万行代码库中游走、形成假设、构建概念验证并确认崩溃——既没有现成的模糊测试桩,也没有指向漏洞的描述。这种真实性正是关键所在。作者认为,先前的基准测试高估了模型,因为它们依赖针对目标的提示或简单的复现任务。
工作原理
SEC-bench Pro 由 183 个经过验证的漏洞实例化,涵盖内存安全、沙箱逃逸、JIT 与竞争条件类漏洞——这些类别对应着浏览器引擎实际被攻破的方式。仅 V8 子集就代表了超过 150 万美元的谷歌漏洞奖励计划累计赏金:这些不是玩具级漏洞,而是真实研究者为之获得丰厚报酬的缺陷。
每个任务都在浏览器级或运行时级的执行条件下运行,智能体按其能否端到端地发现并复现缺陷来评分。关键在于,该测试桩衡量的是长链路工作流,而非单一的检索或修补步骤——而这正是当前智能体往往崩溃之处。
论文报告的主要结果:
# Reported pass rates (higher = better), per the SEC-bench Pro paper
Open-weight baseline (Kimi-K2.6) V8: 11.7%
Strongest single frontier config V8: 32.0% SpiderMonkey: 38.8%
ClaudeCode + Codex (two-agent union) V8: 37.9% SpiderMonkey: 48.8%
有两点尤为突出。首先,在单个引擎上,每一种配置都停留在 40% 以下——前沿编码智能体远非在困难目标上可靠的自主挖洞者。其次,ClaudeCode 与 Codex 解决的是互补的实例集合:二者的并集胜过单独任何一个(据作者所述,相对最佳单一脚手架,在 V8 上提升约 18%,在 SpiderMonkey 上约 26%)。不同的脚手架找到不同的漏洞。
为何重要
这是一篇能力衡量论文,而非攻击,但其数字对两个方向都有切割意义,攻防双方都应仔细阅读。
对攻击者而言,结果令人清醒而非警惕:现成的单个智能体今天还无法自主挖出价值 150 万美元级别的 V8 漏洞。基于这一证据,围绕”AI 大规模发现零日漏洞”的炒作,对最困难的目标而言是超前于现实的——这与我们在AI 编写的零日漏洞指纹和漏洞利用能力阶梯中所见一致。
对防御者而言,互补性这一发现才是可操作的部分。如果你正用编码智能体进行主动漏洞发现,单一模型会漏掉漏洞;一组采用不同脚手架的智能体会显著提升覆盖率。而 40% 以下的天花板提醒我们:AI 挖洞是对人工审查的增强——而非取代。趋势同样重要:今天的天花板不是明天的天花板,帮助蓝队的同一种长链路能力也会帮助攻击方——这正是追踪此类诚实、无桩基准的价值所在。公平评估这些智能体的更广泛难题,正是评估安全智能体很难中所指出的问题。
防御
为采用 AI 进行安全工作的团队提供的具体启示:
- 将 AI 挖洞视为增强,而非自主。 在困难目标上低于 40% 的成功率意味着,人类必须分诊、确认并对结果负责。把智能体的输出接入你现有的审查流程,而不是绕过它。
- 运行集成,而非单一模型。 由于 ClaudeCode 与 Codex 找到互补的漏洞,部署多个不同脚手架的智能体比升级其中任何一个更能提升覆盖率。脚手架的多样性胜过单模型至上主义。
- 在你自己的代码上做基准测试,且不带桩。 SEC-bench Pro 的教训是:提示和测试桩会抬高分数。在相信”自动检测漏洞”的承诺之前,用真实、无提示的任务来评估供应商和内部工具。
- 为曲线而非快照做规划。 在设计检测、披露与补丁优先级时,应假设智能体能力会持续上升——把数周压缩到数小时的智能体红队的防御价值,对攻击者同样对称适用。
状态
| 项目 | 值 |
|---|---|
| 发表 | arXiv:2605.26548,2026 年 5 月 26 日 |
| 目标 | V8 与 SpiderMonkey(183 个经验证漏洞) |
| 漏洞类别 | 内存安全、沙箱、JIT、竞争条件 |
| 最佳单一配置 | 32.0%(V8)/ 38.8%(SpiderMonkey) |
| 双智能体并集 | 37.9%(V8)/ 48.8%(SpiderMonkey) |
| 性质 | 能力基准——未发布漏洞利用 |
这是已发表、可同行评议的研究,并有公开的项目页面;它记录的是能力天花板,而非未修补的产品缺陷。值得记住的有用数字是:在真正困难且无桩的目标上,当今最好的 AI 智能体解决的漏洞远不及一半——而做得更好的途径在于更多样化的智能体加人工审查,而非盲目信任单一模型。