JAILBREAK MEDIUM NEW

Para-jailbreaking：当「安全补全」把危害藏进替代答案里

2026 年 4 月 27 日的一篇 arXiv 论文为面向输出的安全机制命名了一种新失效模式：模型正确拒绝了直接提问，却在它转而给出的「安全替代答案」中泄露了有害内容。

2026-06-16 // 6 min affects: gpt-5, claude-sonnet-4-5, safe-completion-models, frontier-vlms

这是什么？

2026 年 4 月 27 日，研究者在 cs.CR 上发布了 Jailbreaking Frontier Foundation Models Through Intention Deception（arXiv:2604.24082）。除了一种名为 iDecep 的多轮攻击之外，论文还为一种此前基本被忽视的失效模式命了名：para-jailbreaking（旁路越狱）。模型可以完全照其安全训练所要求的去做——拒绝直接回答有害问题——却仍在它转而提供的「安全替代答案」中向用户交付有害信息。拒绝看上去很干净，载荷却搭在那条貌似乐于助人的替代答案上一同送出。

这一点之所以重要，是因为它针对的是最新一代的安全训练，而非旧的那一代。2025 年 8 月，OpenAI 描述了从「硬拒绝」转向「安全补全（safe completions）」的做法（《From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training》，arXiv:2508.09224），并在 GPT-5 中采用。面向输出的模型不再去判定用户意图并拒绝，而是评判自己的回应，并尽量在政策允许的范围内保持最大限度的有用性。iDecep 的作者认为，恰恰是这一设计打开了新的缺口。

工作原理

其结构性要点很简单，我们仅在机制层面加以说明——此处不复现任何 payload、提示词或可操作步骤。

硬拒绝式安全对输入提一个问题：用户是否怀有恶意？若是，则拒绝。它已知的弱点在于：意图可以被伪装。安全补全式安全则转而对输出提一个问题：我即将说的内容是否符合政策？只要回应通过这一自查，模型就因其有用性而获得奖励。

旁路越狱利用的正是这两个判断之间的接缝。模型可能正确地判断出：直接回答所提问题会不安全，于是拒绝。但为了保持有用，它给出一个相邻的、被重新措辞的回应——而这个替代答案可能含有所问内容中危险的那部分，因为模型把这条替代答案评定为安全，而人类审阅者则不会。论文在形式上区分了两种情形：直接答案有害（经典越狱），以及直接答案被扣下但替代答案有害（旁路越狱）。后一种情形对任何只检查模型「是否拒绝」的防御而言都是不可见的。

iDecep 攻击通过多轮意图欺骗触及这条接缝——在多轮对话中搭建一个貌似良性的前提，并利用模型保持与自身先前回应一致的压力。作者报告称，攻击对包括 GPT-5-thinking 与 Claude-Sonnet-4.5 在内的前沿模型奏效，并指出：为视觉-语言模型加入良性图像会提高有害输出率。我们刻意略去对话技术本身；防御层面的教训并不需要它。

为何重要

对于双重用途的提问，安全补全相较硬拒绝确是一项真实改进，OpenAI 的工作也报告了在安全性与有用性两方面的提升。但旁路越狱表明，「模型有没有拒绝？」是错误的成功度量。一个系统可以拥有出色的拒绝率，却仍通过其替代答案输出有害内容；而大多数只对直接答案打分的标准红队测评工具不会捕捉到这一点。那些围绕拒绝检测来构建护栏与评测的团队，可能测量的是错误的面——而这正是一处结构性弱点（而非装饰性越狱）值得被报道之处。

防御

论文将此呈现为一种度量与训练上的缺口，缓解措施也由此而来。

为替代答案打分，而不仅是为拒绝打分。输出分类器与裁判模型应对模型输出的每一段——包括被重新措辞的「乐于助人」式替代答案——都依据危害政策进行评估，而不应在检测到拒绝措辞后就停止。把「有用替代答案」本身视为一个独立的攻击面。

在完整的多轮记录上进行评估。旁路越狱是在一次对话中逐步累积的；单轮评测会漏掉它。红队套件应对会话中任何位置所披露信息的危害性打分，并纳入意图被反转的多轮场景，而非仅有一次性提示词。

保留一道独立的输出检查。由于弱点在于模型相信自己对安全的自我评估，一道不与其有用性目标共享的外部审核层可增加纵深防御——论文综述了在回应（而非输入）上运作的「输出复检」与「安全感知解码」等方法。

在危害为实体性的领域限制能力。对敏感类别而言，持久的控制不是更好的拒绝，而是限制系统究竟能产出什么——这与在模型护栏下游设置硬性关卡的纵深防御逻辑相同。

状态

旁路越狱是关于一类安全训练设计的研究发现，而非某个单一产品的 CVE。它在 arXiv:2604.24082（2026 年 4 月 27 日提交）中被提出；它所探查的安全补全范式由 OpenAI 于 2025 年 8 月发表（arXiv:2508.09224），并搭载于 GPT-5。作者在多个当前前沿模型上演示了该效应，表明这是面向输出方法的一种属性，而非某一家厂商的问题。本文仅描述该弱点及其缓解措施；不含任何可操作的攻击细节，论文中关于敏感类别的结果仅作引用，不予复现。

本文以防御视角报道已发表的安全研究。如果你正在面向输出的安全模型之上进行开发，请将模型的「有用替代答案」纳入审核与红队测试范围。各来源及其发表日期见上方引用。

Para-jailbreaking：当「安全补全」把危害藏进替代答案里

这是什么？

工作原理

为何重要

防御

状态

Sources