数学编码越狱:当集合论绕过大语言模型安全防线
2026年5月5日发布的一篇arXiv论文表明,将有害提示重写为集合论或形式逻辑问题,可在八个前沿模型上以46%–56%的成功率绕过安全训练——但前提是由辅助大语言模型完成深度重写。
这是什么?
2026年5月5日,Haoyu Zhang、Mohammad Zandsalimy 与 Shanu Sushmita 发表了《Exposing LLM Safety Gaps Through Mathematical Encoding: New Attacks and Systematic Analysis》(arXiv:2605.03441)。该论文系统化了一类自 2024 年 9 月 Bethany 等人发表 MathPrompt 预印本(arXiv:2409.11445)及 2025 年 5 月发表的 Logic Jailbreak 论文(arXiv:2505.13527)以来便已流传的攻击家族:取一段自然语言形式的有害提示,要求一个辅助大语言模型将其重写为一个一致的集合论、抽象代数、形式逻辑或量子力学符号问题,然后将该数学化版本提交给目标模型。
在八个目标模型与两个公认的越狱基准上,该 2026 年 5 月的论文测得平均攻击成功率为 46% 至 56%。原始 MathPrompt 结果在 13 个 2024 年代模型上更高,达到 73.6%。新论文的贡献有两点:一种新的形式逻辑编码,在前沿模型上与原集合论编码持平或超越;以及一项系统性的消融实验,清晰隔离了攻击之所以奏效的原因。
工作原理
整个流程由三部分组成:攻击者大语言模型、固定的编码方案与目标大语言模型。攻击者被指示将有害意图翻译成一个数学问题陈述,该陈述在符号包装下保留原请求的操作结构。目标模型随后求解该数学问题——而该解经过解码后,正是原始有害提示的答案。
# 攻击概念结构——示意性,非可执行载荷。
# 2026 年 5 月论文公开了方法学与汇总数据,未发布对话记录。
harmful_prompt = "[REDACTED — 取自 AdvBench / HarmBench]"
encoder_prompt = ENCODING_TEMPLATE[ "set_theory" | "formal_logic" | "abstract_algebra" ]
math_problem = attacker_llm.reformulate(harmful_prompt, encoder_prompt)
# math_problem 是一个一致的符号问题,其解
# 与有害答案一一对应。安全分类器只看到符号。
answer = target_llm.solve(math_problem)
harmful_answer = decode(answer) # 按构造方式,由攻击者解码
防御者应当阅读的部分是系统性消融实验。作者比较了三种重写模式:(1)由辅助大语言模型对提示进行深度重写,使其成为真正的数学问题;(2)基于规则的封装器,仅添加数学符号,不改变底层语义;(3)未经处理的原始有害提示。模式 1 的成功率为 46–56%。模式 2 并不优于模式 3。结论是:愚弄模型的不是符号,而是表面文本与有害意图之间的语义距离,这一距离由一个胜任的重写器引入。
MathPrompt 论文中的嵌入分析印证了这一解读。经过编码的提示在模型表征空间中远离其自然语言对应物——而这恰恰是基于自然语言有害样本训练出的安全分类器丧失判别力的区域。
为何重要
需要并列把握三点。
第一,对齐训练存在表征盲区。安全后训练在自然语言有害样本所构成的流形上具有泛化能力,但并不沿任意保语义变换泛化。数学编码家族只是其中一例;密码攻击、低资源语言攻击与人格攻击均属同类。本 2026 年 5 月论文是迄今对前沿队列(含 GPT-5 与 GPT-5-Mini)最干净的一次测量——这些模型虽被描述为显著比旧模型更稳健,但仍然易受攻击。
第二,攻击随攻击者能力提升而扩张,而非仅随防御者弱点而扩张。重写步骤要求辅助大语言模型产生数学上一致的改写。随着开放权重模型在符号推理上不断进步,重写步骤变得更便宜、更可靠。这一趋势与《Large Reasoning Models as Autonomous Jailbreak Agents》(Hagendorff 等,Nature Communications 2026)的结果一致:推理能力的提升同步提升了针对对齐模型的攻击能力。
第三,攻击并非载荷,而是一种变换。没有可供过滤的规范字符串。同一有害提示的两种编码不共享任何表面词元。这也正是负责任的发布选择仅公开原理、不公开载荷的原因:防御者需要的是概念杠杆,而非输入样本。
防御
论文以一条防御方向收尾,作者将其概括为「对数学结构进行推理,而非对表面语义进行推理」。对部署大语言模型产品的团队而言,可落地的措施包括:
- 在输出而非仅在输入上过滤。在生成之后,对照用户声明的任务对输出进行分类,这种做法对编码输入的鲁棒性是输入侧分类无法达到的。这与《Evaluation of Prompt Injection Defenses in Large Language Models》(
arXiv:2604.23887,2026 年 5 月更新)的结果一致:输出过滤在 15 000 次攻击中实现零泄露,而所有「让模型自己保护自己」的配置最终都被突破。 - 在交付前增加解码步骤。如果应用界面只期望自然语言回答,则解析模型的响应,拒绝包含展开符号内容、解密结果或对操作指令的形式逻辑步推导的输出。
- 使用独立的、更简单的分类器审视还原后的意图。与其要求同一个模型评估自身输出,不如将(输入,输出)对路由到一个小型专用危害分类器——Llama Guard 3、ShieldGemma、Granite Guardian——这些分类器在自然语言上训练。先解码再分类是关键。
- 限制工具调用的作用域。当大语言模型连接到工具时,一次成功的数学越狱所返回的文本若可被执行,后果将更严重。每工具白名单与《Agents Rule of Two》模式可降低爆炸半径。
- 在评估中跟踪这一攻击家族。在拒答基准中加入数学编码变体。每次修改系统提示后重跑。2026 年 5 月论文显示新模型更稳健——但仅限于所测试的编码上。
状态
| 项目 | 引用 | 日期 | 备注 |
|---|---|---|---|
| 主要论文 — arXiv 预印本 | arXiv:2605.03441 | 2026-05-05 | 8 个目标模型,2 个基准,ASR 46–56% |
| 前置研究 — MathPrompt | arXiv:2409.11445(Bethany 等) | 2024-09-17 | 13 个模型,平均 ASR 73.6% |
| 前置研究 — Logic Jailbreak | arXiv:2505.13527 | 2025-05 | 以形式逻辑表达式作为编码 |
| 独立参考 — Promptfoo LM Security DB | promptfoo.dev | 2026 | 归类为「Symbolic Math Jailbreak」 |
| 防御补充 — 输出过滤 | arXiv:2604.23887 | 2026-05 | 在 15 000 次攻击中实现零泄露 |
该攻击类别并不新;2026 年 5 月论文是针对当前前沿模型的一次测量更新,以及对该家族所以然的一次干净消融。给防御者的可行信号与本月其它结果同向:能在自适应攻击者面前留存的边界位于模型之外,落在输出过滤与动作层约束之中。