DEFENSE MEDIUM NEW

越狱为何能在模型间迁移——以及「加盐」如何反制

一项针对 20 个开放权重模型的研究表明，越狱的迁移源于共享的内部表征，而非对齐训练的缺陷。一种名为 LLM salting（模型加盐）的防御通过旋转「拒绝方向」来打破复用。

2026-06-15 // 6 min affects: llama-2-7b-chat, vicuna-7b, open-weight-llms

这是什么？

针对某一个模型构造的越狱，往往对其他模型同样有效——这一性质称为可迁移性。论文 Jailbreak Transferability Emerges from Shared Representations（Rico Angell、Jannik Brinkmann、He He；arXiv:2506.12913，2025 年 6 月首次发布，2025 年 10 月 28 日修订）在 20 个开放权重模型上测试了 33 种越狱攻击，每种攻击各应用于 313 条有害提示，得出结论：迁移并非对齐训练或模型家族的副产物，而是模型在内部编码语言方式的必然结果。其现实含义令人不安：攻击者可以预先计算一个越狱，然后在大量部署中复用——这与口令彩虹表的经济逻辑如出一辙。Sophos X-Ops 在 CAMLIS 2025 上提出的对策「LLM salting」（模型加盐，Sophos 博客）正是为打破这种复用而设计。

工作原理

该研究分离出两个系统性地决定攻击能否在模型间迁移的因素：(1) 两个模型在良性提示上的内部表征相似度；(2) 越狱在源模型上的强度。最具说服力的是因果实验：仅用目标模型的良性回复对源模型做蒸馏，完全不含任何攻击数据，就会提升表征相似度，并可测量地增加迁移。定性结论一致：人设型攻击（「你是一个不受限制的助手……」）的迁移率远高于基于密文的提示，因为自然语言攻击利用的是共享表征空间，而密文技巧依赖各模型独有、无法泛化的特性。

防御侧建立在 Arditi 等人的工作之上，即 Refusal in LLMs is mediated by a single direction（arXiv:2406.11717）：激活空间中单一的线性「拒绝方向」在很大程度上决定了模型是否拒绝某个请求。LLM salting 在微调中加入一个损失项，对有害提示上与该预先计算出的拒绝方向的对齐进行惩罚，从而旋转该方向，让模型「以不同方式拒绝」。此处不复现任何攻击载荷——这是一种防御性的微调配方，而非攻击。在 Sophos 的实验中，加盐被应用于与拒绝方向最对齐的若干层（所研究的 7B 模型上为 L = {16, 17, 18, 19, 20}）。

所报告的数据值得关注。面对在未修改基线模型上达到 100% 攻击成功率（ASR）的 Greedy Coordinate Gradient（GCG）后缀攻击，加盐将 ASR 降至 LLaMA-2-7B-Chat 上的 2.75% 和 Vicuna-7B 上的 1.35%，同时 MMLU 准确率仍处于不同运行之间的噪声范围内。相比之下，标准微调和系统提示改动仅能将 ASR 降到约 40–60%。

为何重要

模型同质化如今已成常态：成千上万的产品建立在少数几个基础模型之上，且几乎不做定制。共享表征意味着共享攻击面——一个只验证过一次的越狱，可能悄无声息地攻陷一整类下游应用，造成内部数据泄露或在整个机群规模上产生有害输出。迁移研究重新定义了这一现象：它不是运气不好，而是表征学习的结构性属性。这是坏消息，因为你无法用打补丁的方式去修正模型编码语言的方式；也是好消息，因为迁移可以从表征相似度中预测，并可通过改变几何结构来打破，而不必逐条追逐提示。

防御措施

打破共享几何结构。 加盐式微调旋转拒绝方向，使得预先计算并迁移而来的越狱落在错误的轴上。由于扰动针对每次部署各不相同，针对公开基础模型调校的攻击将不再匹配你模型的内部表征。

分层防御。 加盐并非银弹：它主要在 7B 开放权重模型上针对 GCG 进行评估，作者也将 AutoDAN、TAP 及更大模型列为开放问题。请将其与输入过滤和基于分类器的检测结合使用，而不要把任何单一控制视为充分。

不要只依赖提示层面的微调。 在同一组实验中，系统提示改动与普通微调仍让 40–60% 的越狱保持有效。请把它们视为阻力，而非保护。

优先处理高迁移类别。 人设型提示在模型间最易迁移；请将检测与红队工作向其倾斜，并关注任何可能夹带指令的、表面良性的内容。

减少不必要的同质化。 在可行处引入针对每次部署的差异，使得针对上游基础模型逆向构造的攻击无法泛化到你的实例。

状态

项目	参考	日期	备注
迁移机制	Angell 等人，arXiv:2506.12913	2025 年 6 月（2025 年 10 月 28 日修订）	20 个开放权重模型，33 种攻击，每种 313 条提示
拒绝方向	Arditi 等人，arXiv:2406.11717	2024 年	拒绝由单一线性方向中介
LLM salting（防御）	Sophos X-Ops，CAMLIS 2025	2025 年 10 月	GCG ASR 100% → 2.75%（LLaMA-2-7B）/ 1.35%（Vicuna-7B）
测试攻击	GCG — Zou 等人，arXiv:2307.15043	2023 年	对抗性后缀攻击
开放问题	AutoDAN、TAP、更大模型	—	尚未在加盐下评估

越狱为何能在模型间迁移——以及「加盐」如何反制

这是什么？

工作原理

为何重要

防御措施

状态

Sources