系统:运行中
← 返回所有攻击
DEFENSE MEDIUM NEW

越狱为何能在模型间迁移——以及「加盐」如何反制

一项针对 20 个开放权重模型的研究表明,越狱的迁移源于共享的内部表征,而非对齐训练的缺陷。一种名为 LLM salting(模型加盐)的防御通过旋转「拒绝方向」来打破复用。

2026-06-15 // 6 min affects: llama-2-7b-chat, vicuna-7b, open-weight-llms

这是什么?

针对某一个模型构造的越狱,往往对其他模型同样有效——这一性质称为可迁移性。论文 Jailbreak Transferability Emerges from Shared Representations(Rico Angell、Jannik Brinkmann、He He;arXiv:2506.12913,2025 年 6 月首次发布,2025 年 10 月 28 日修订)在 20 个开放权重模型上测试了 33 种越狱攻击,每种攻击各应用于 313 条有害提示,得出结论:迁移并非对齐训练或模型家族的副产物,而是模型在内部编码语言方式的必然结果。其现实含义令人不安:攻击者可以预先计算一个越狱,然后在大量部署中复用——这与口令彩虹表的经济逻辑如出一辙。Sophos X-Ops 在 CAMLIS 2025 上提出的对策「LLM salting」(模型加盐,Sophos 博客)正是为打破这种复用而设计。

工作原理

该研究分离出两个系统性地决定攻击能否在模型间迁移的因素:(1) 两个模型在良性提示上的内部表征相似度;(2) 越狱在源模型上的强度。最具说服力的是因果实验:仅用目标模型的良性回复对源模型做蒸馏,完全不含任何攻击数据,就会提升表征相似度,并可测量地增加迁移。定性结论一致:人设型攻击(「你是一个不受限制的助手……」)的迁移率远高于基于密文的提示,因为自然语言攻击利用的是共享表征空间,而密文技巧依赖各模型独有、无法泛化的特性。

防御侧建立在 Arditi 等人的工作之上,即 Refusal in LLMs is mediated by a single directionarXiv:2406.11717):激活空间中单一的线性「拒绝方向」在很大程度上决定了模型是否拒绝某个请求。LLM salting 在微调中加入一个损失项,对有害提示上与该预先计算出的拒绝方向的对齐进行惩罚,从而旋转该方向,让模型「以不同方式拒绝」。此处不复现任何攻击载荷——这是一种防御性的微调配方,而非攻击。在 Sophos 的实验中,加盐被应用于与拒绝方向最对齐的若干层(所研究的 7B 模型上为 L = {16, 17, 18, 19, 20})。

所报告的数据值得关注。面对在未修改基线模型上达到 100% 攻击成功率(ASR)的 Greedy Coordinate Gradient(GCG)后缀攻击,加盐将 ASR 降至 LLaMA-2-7B-Chat 上的 2.75% 和 Vicuna-7B 上的 1.35%,同时 MMLU 准确率仍处于不同运行之间的噪声范围内。相比之下,标准微调和系统提示改动仅能将 ASR 降到约 40–60%。

为何重要

模型同质化如今已成常态:成千上万的产品建立在少数几个基础模型之上,且几乎不做定制。共享表征意味着共享攻击面——一个只验证过一次的越狱,可能悄无声息地攻陷一整类下游应用,造成内部数据泄露或在整个机群规模上产生有害输出。迁移研究重新定义了这一现象:它不是运气不好,而是表征学习的结构性属性。这是坏消息,因为你无法用打补丁的方式去修正模型编码语言的方式;也是好消息,因为迁移可以从表征相似度中预测,并可通过改变几何结构来打破,而不必逐条追逐提示。

防御措施

打破共享几何结构。 加盐式微调旋转拒绝方向,使得预先计算并迁移而来的越狱落在错误的轴上。由于扰动针对每次部署各不相同,针对公开基础模型调校的攻击将不再匹配你模型的内部表征。

分层防御。 加盐并非银弹:它主要在 7B 开放权重模型上针对 GCG 进行评估,作者也将 AutoDAN、TAP 及更大模型列为开放问题。请将其与输入过滤和基于分类器的检测结合使用,而不要把任何单一控制视为充分。

不要只依赖提示层面的微调。 在同一组实验中,系统提示改动与普通微调仍让 40–60% 的越狱保持有效。请把它们视为阻力,而非保护。

优先处理高迁移类别。 人设型提示在模型间最易迁移;请将检测与红队工作向其倾斜,并关注任何可能夹带指令的、表面良性的内容。

减少不必要的同质化。 在可行处引入针对每次部署的差异,使得针对上游基础模型逆向构造的攻击无法泛化到你的实例。

状态

项目参考日期备注
迁移机制Angell 等人,arXiv:2506.129132025 年 6 月(2025 年 10 月 28 日修订)20 个开放权重模型,33 种攻击,每种 313 条提示
拒绝方向Arditi 等人,arXiv:2406.117172024 年拒绝由单一线性方向中介
LLM salting(防御)Sophos X-Ops,CAMLIS 20252025 年 10 月GCG ASR 100% → 2.75%(LLaMA-2-7B)/ 1.35%(Vicuna-7B)
测试攻击GCG — Zou 等人,arXiv:2307.150432023 年对抗性后缀攻击
开放问题AutoDAN、TAP、更大模型尚未在加盐下评估

Sources