RESEARCH MEDIUM NEW

MultiBreak:1.04 万条多轮提示揭示对话式越狱如何绕过 LLM 安全对齐

2026 年 5 月 3 日发表的 ICML 2026 论文公开了目前规模最大、最具多样性的多轮越狱基准。它记录到相对于此前最佳数据集,DeepSeek-R1-7B 上的攻击成功率差距高达 54 个百分点,GPT-4.1-mini 上达 34.6 个百分点,并量化了单轮对齐如何在多轮场景中坍塌。

2026-05-27 // 8 min affects: gpt-4.1-mini, deepseek-r1-7b, claude-3, gpt-4o, gemini-2.0

这是什么?

2026 年 5 月 3 日,Jialin Song、Xiaodong Liu、Weiwei Yang、Wuyang Chen、Mingqian Feng、Xuekai Zhu 和 Jianfeng Gao 在 arXiv (2605.01687) 上发布了 MultiBreak,并被 ICML 2026 接收。这是一个多轮越狱基准 — 10 389 条对抗性对话,覆盖 2 665 个不同的有害意图 — 旨在度量经过安全对齐的 LLM 在自然往返对话中(而非单条武器化提示下)的表现。

这项工作的贡献既是方法论上的,也是实证上的。早期的多轮数据集要么规模有限,要么过于依赖模板,因而不能再现真实对话型攻击者所施加的压力。MultiBreak 采用主动学习循环:生成器模型被迭代微调以产生攻击候选,基于不确定度的精选保留最强样本,语料按目标模型最薄弱的方向不断扩充。

相较于此前公布的第二佳数据集,MultiBreak 的攻击成功率(ASR)在 DeepSeek-R1-7B 上高出 54.0 个百分点,在 GPT-4.1-mini 上高出 34.6 个百分点。最具启示意义的发现并非 ASR 数字本身,而是结构性结论:在单轮评估中看似安全的意图类别,在多轮场景下显著更具危险性。

工作原理

多轮越狱共有一种常见形态,早期文献中有时称为 Crescendo:攻击者从温和或带”研究”色彩的问题开始,逐步建立共享上下文,然后小步引导对话方向,直至模型实质上默许了不安全的走向。每一步单看似乎都没问题,但累积的轨迹并不安全。

MultiBreak 将这一思想规模化。其流水线大致如下:

# 基于 2026 年 5 月 3 日公开论文的概念示意图。
# 未复现任何针对真实系统的攻击载荷。

[ 有害意图 ]                          # 2 665 个不同意图
        │
        ▼
[ 生成器 LLM ] ──► 候选多轮对话
        │
        ▼
[ 目标 LLM ] ──► 响应轨迹
        │
        ▼
[ 评审 / 不确定度 ] ──► 保留、精炼或舍弃
        │
        ▼
[ 在困难样本上微调生成器 ]               # 主动学习循环
        │
        ▼
[ 10 389 条多轮对抗提示,2 665 个意图 ]

有两个架构细节值得关注。第一,多样性维度:通过统一多种有害意图分类法,而非沿用旧基准中那一小套规范类别,数据集揭示了安全训练较为薄弱的方向。第二,基于不确定度的选择:循环优先保留目标模型处于置信度边缘的对话,这正是对齐最脆弱、未来微小扰动最有可能翻转判定之处。

这与 2025-2026 年的独立研究结论一致。论文 A Representation Engineering Perspective on the Effectiveness of Multi-Turn Jailbreaks (arXiv 2507.02956) 指出,经过安全对齐的模型会随着对话延长,把 Crescendo 风格的序列逐渐重新编码为更偏良性而非有害 — 同样的内容在模型内部表示中漂向更”安全”的潜空间区域,下游的拒绝分类器触发频率随之下降。

为什么这件事重要

即便 MultiBreak 并未武器化任何具体部署,也有三个理由值得认真对待。

第一,它确认了安全评估中的一个系统性缺口。几乎所有公开榜单都只报告单轮 ASR — 一条消息、一次被评判的回复。MultiBreak 所记录的几十个百分点的差距说明:一个模型可以在单轮安全分上看似体面,却在正常对话使用中被例行越狱。

第二,它表明更小或推理向的模型默认并不更安全。DeepSeek-R1-7B 是强推理倾向的开源模型,GPT-4.1-mini 是产品化的前沿级小模型。两者的 ASR 都出现大幅上升。推理能力本身并不自动转化为多轮鲁棒性 — 某些情况下反而给攻击者提供了更长的可利用链条。

第三,对任何上线 LLM 功能的人来说都有操作层面的影响。如果你的产品暴露了多轮聊天 — 几乎所有助手、副驾、客服机器人或 RAG 接口都是 — 那么你的单轮红队报告在构造上就是不完整的。风险面在于轨迹,而不是单条提示。

防御

催生 MultiBreak 的同一波研究也产生了具体的缓解措施。没有银弹,但合在一起能显著抬高多轮攻击的成本。

用多轮基准评估,而不仅是单轮。 MultiBreak 以 CC BY 4.0 协议公开发布,可自由用于研究。将其(或 SEMA、MTJ-Bench、X-Boundary 等等价物)运行在你部署的任何模型或护栏之上。除常规单轮 ASR 外,跟踪轨迹级 ASR;若差距很大,你的对齐正在通过对话泄漏。

在护栏中携带轨迹级状态。 大多数生产环境的输入/输出分类器(Llama Guard 3、ShieldGemma、Prompt Guard、Microsoft Prompt Shields)对每条消息独立打分。把它们包装在一个有状态的策略层中,跨会话聚合风险 — 反复出现的临界轮次、话题敏感度的缓慢攀升、对单一有害意图的持续漂移,应当累积为拒绝,即便单条消息本可放行。

使用感知 Crescendo 的边界防御。 X-Boundary (arXiv 2502.09990) 在表示空间中建立显式的安全边界,无论对话已朝该边界引导多久,都会拒绝越界响应。它在不显著损伤良性使用效用的前提下,可证明地降低多轮 ASR。

考虑主动蜜罐。 Active Honeypot Guardrail System (arXiv 2510.15017) 重新表述了检测问题:不再尽早拒绝,而是策略性地与可疑轨迹接触,在发出硬性拒绝和记录会话之前确认意图。对那些误报代价高昂的产品,这种方式可能优于纯分类器过滤。

积极重置上下文。 纯架构性缓解同样有效。限制对话长度、在轮次间总结并重置状态、每轮强制重新注入系统提示,都能削弱攻击者所攀爬的梯度。这会牺牲一定的可用性,应保留给高风险表面,但成本低且确实有效。

将轨迹视为安全审查的单位。 这是架构层面的结论。多数安全评估工具围绕单条提示构建,因为那是榜单单元格能容纳的东西。但威胁模型并不是单条提示。围绕会话构建安全论证,为会话打分,对会话做红队演练。

状态

项目	参考	日期	备注
arXiv 投稿	MultiBreak v1, arXiv 2605.01687	2026-05-03	ICML 2026 接收
作者	Song、Liu、Yang、Chen、Feng、Zhu、Gao	—	学术及 Microsoft Research 联合署名
基准规模	10 389 条多轮提示,2 665 个意图	—	迄今最大的多轮数据集
最大 ASR 差距	DeepSeek-R1-7B +54.0 pts;GPT-4.1-mini +34.6 pts	—	对比第二佳数据集
许可证	CC BY 4.0	2026-05-03	研究与评估免费使用
配套防御	X-Boundary (arXiv 2502.09990)、Honeypot Guardrail (arXiv 2510.15017)、Representation Engineering (arXiv 2507.02956)	2025-2026	多轮感知缓解
OpenReview 讨论	openreview.net/forum?id=uJgfj5EJ2W	2026	同行评议记录

多轮越狱不再是一种边缘技巧。它已经是当下安全对齐模型上占主导地位的绕过方式,而评估基础设施终于在追赶。如果你的安全叙事还停留在单条提示的拒绝率上,这篇论文就是把它延伸出去的契机。

MultiBreak:1.04 万条多轮提示揭示对话式越狱如何绕过 LLM 安全对齐

这是什么?

工作原理

为什么这件事重要

防御

状态

Sources