系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

Optimus:超越二元判定为越狱打分,揭示一个隐蔽最优区间

2026 年 5 月 9 日的一篇 arXiv 论文指出,二元成功率掩盖了防御者最该担心的越狱。其 Optimus 指标按相似度与有害性为提示打分,揭示出一个 ASR 跌至零的「隐蔽最优」区间。

2026-06-05 // 7 min affects: aligned-llms, llamaguard, promptguard, wildguard

这是什么?

2026 年 5 月 9 日,来自德克萨斯大学埃尔帕索分校、南伊利诺伊大学卡本代尔分校和伊利诺伊大学厄巴纳-香槟分校的研究者(Ismail Hossain、Tanzim Ahad、Md Jahangir Alam、Sai Puppala、Syed Bahauddin Alam 和 Sajedul Talukder)在 arXiv 上发表了 The Art of the Jailbreak(cs.CR,2605.09225)。其核心论点关乎度量方式:该领域几乎完全用二元攻击成功率(ASR)来评估越狱——模型是否产生了有害输出,是或否——而这一个比特恰恰丢弃了防御者最需要的信息。

他们的答案是 Optimus,一种无需训练的连续评分,并配套构建了一个含 11.4 万条组合式越狱提示的语料库以供研究。本文关注的是其评估方面的贡献,而非提示语料:站得住脚且持久的发现是,非此即彼的视角在结构上对一类「安静的」越狱视而不见。

工作原理

Optimus 在两个维度上同时为越狱提示打分,记作 J(S, H)

  • S — 语义相似度:越狱提示与原始有害请求之间的相似度。S 高意味着改写后仍在索要同一样东西
  • H — 有害性概率:越狱输出本身的有害概率,由有害性分类器估计。

两者通过校准过的惩罚函数组合为单一的连续数值,无需任何针对具体任务的训练——Optimus 使用现成的嵌入与推理模型(作者的最佳组合为 all-mpnet-base-v2 × deberta-large-mnli),而非一个随攻击演变就必须重新训练的微调评判器。这种无需训练的特性正是关键:二元评判器或定制分类器一旦攻击分布改变就会过时;而相似度加有害性的评分则不会。

为了获得可度量的对象,作者将 912 种来自真实环境的组合策略应用于取自 JailBreakV-28K 的 125 条有害种子提示,并通过六模型多数投票将每条生成的提示标注到 14 个网络攻击类别之一(恶意软件、钓鱼、提权、数据外泄等)。此处不复现任何利用性提示;权威参考为该论文

最重要的结果是一个**「隐蔽最优」区间**。将提示置于 (S, H) 平面后,最危险的那些聚集在 S* ≈ 0.57、H* ≈ 0.43 附近——这些改写既保留了足够的原始意图以对攻击者仍有用,又在表面上足够「净化」以绕过过滤器。恰恰在这一区间,二元 ASR 跌向零:攻击其实成功了,但非此即彼的评估器却记为「失败」,因为输出没有触发粗粒度的有害内容检查。团队所信赖的指标,恰恰在风险最集中之处最为盲目。

为何重要

大多数生产环境中的 LLM 防御依赖轻量级分类器——LlamaGuard、PromptGuard、WildGuard 等——置于经 RLHF 对齐的模型之前。论文的威胁模型是现实的:一个黑盒、单轮的攻击者,可在离线状态下针对本地副本、嵌入模型和有害性估计器反复迭代,最后只发送一条打磨好的提示。面对这样的对手,作者的类别感知生成器达到了 24–39 的困惑度(相比 AutoDAN 和 AmpleGCG 的 40–140——困惑度越低意味着文本越流畅、越不显异常),并在 LlamaPromptGuard-2-86M 上测得过滤器绕过率。

对防御者有两点启示。其一,**如果你的红队记分牌就是 ASR,那你在高估自身的安全性。**被标为「已拦截」的越狱里,包含了实际上成功的隐蔽最优样本。其二,**按类别打分会改变投入的方向。**Optimus 提供按攻击类别的细分——哪些策略对钓鱼提示最有效、对提权提示最有效——从而把加固集中在模型真正最薄弱的类别上,而非一个笼统的「越狱抵抗力」数字。这正是鲁棒性综述对该领域的批评:把攻击形式与威胁语义混在一起的评估,几乎说不清真实暴露面。

防御

论文本身就是一件防御工具——更好的度量——但它也蕴含着具体的实践改变。

  1. **不要再用单一 ASR 数字来报告越狱抵抗力。**应搭配一个连续的二维评分(对意图的相似度 × 有害性),让你的评估能看到非此即彼所掩盖的隐蔽最优区间。

  2. **按攻击类别打分,而非汇总。**将结果按具体目标(恶意软件、钓鱼、提权、数据外泄)细分,并优先处理得分最差的类别。汇总的「92% 已拦截」可能掩盖某一类别 40% 的成功率。

  3. **用流畅的组合式改写测试——而非只用模板。**针对手工 DAN 式模板或 token 优化攻击调校的防御,会漏掉低困惑度、经语义重构的提示。把真实环境中的组合策略纳入你的红队测试集。

  4. **不要只依赖表层内容分类器。**依赖词汇层面有害信号的过滤器,恰恰是隐蔽最优区间所要击败的对象。叠加基于表征或激活的检测,去审视内部状态,而非仅看输出字符串。

  5. **持续重新评估。**由于 Optimus 无需重新训练,它可作为 CI 中的常驻指标,在每次模型更新时运行——捕捉那些新检查点在某一类别上悄然变得更易被越狱的回退。

状态

项目参考日期备注
The Art of the JailbreakarXiv:2605.09225v1 (cs.CR)2026-05-09Optimus 评分 + 11.4 万条组合式提示语料
Optimus 指标论文2026-05-09无需训练的 J(S,H);隐蔽最优区间 S*≈0.57、H*≈0.43
生成器论文2026-05-09困惑度 24–39,对比 40–140(AutoDAN/AmpleGCG);在 LlamaPromptGuard-2-86M 上测得绕过率
范围论文2026-05-09912 种组合策略 × 125 条种子提示(JailBreakV-28K),14 个网络攻击类别

应当记住的要点不是「越狱无法阻挡」,而是大多数团队度量越狱抵抗力的方式,系统性地低估了真正重要的攻击。一个连续的、类别感知的评分,同时捕捉语义意图与有害性,能给防御者一张模型真正失守之处的地图——这是单一的成功率比特所无法提供的。

Sources