开放权重模型的抗微调防护被无梯度攻击攻破
卡内基梅隆大学 2026 年 5 月的研究表明,TAR、SEAM 等旨在抵御恶意微调的抗篡改防护,可被两种低成本的无梯度攻击——abliteration 与 prefilling——绕过。
这是什么?
2026 年 5 月 26 日,Kevin Kuo、Chhavi Yadav 与 Virginia Smith(卡内基梅隆大学;西蒙斯研究所,加州大学伯克利分校)发布了论文 Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks(arXiv 2605.26526,cs.LG)。论文并未发明新攻击,而是用两种早已为人所知、成本低廉的技术——abliteration(消融拒绝方向)与 prefilling(前缀填充)——去测试最新一代面向开放权重模型的防护,并证明它们能被攻破。
相关防护旨在让模型的拒绝行为在恶意微调后依然存续。本文研究的两种是 TAR(Tampering Attack Resistance,Tamirisa 等,2408.00761)与 SEAM(一种自毁式防护)。二者都假设最坏情形是攻击者下载开放权重并将其微调至有害用途。本文的贡献在于表明:攻击者往往根本不需要微调。
这是一项防御性、研究性的分析,不含任何可用的攻击载荷;abliteration 与 prefilling 都是已公开发表的通用方法。
工作原理
核心洞见在于威胁模型。TAR 与 SEAM 都建立在一个隐含假设之上:有害行为是通过微调习得的。然而预训练模型本就编码了大量有害知识——对抗性微调的主要作用是移除拒绝反射,而非教会新能力。如果知识本就存在,攻击者只需将其诱发出来。
这两种无梯度攻击正是如此,既不更新权重,也不进行梯度优化:
- Abliteration(消融)。 在安全对齐的模型中,拒绝行为在很大程度上由残差流中的单一方向所中介(Arditi 等,2406.11717)。攻击者用一小组有害与无害提示估计出该方向,然后在推理时从激活中将其减去。模型便不再拒绝——无需任何再训练。
- Prefilling(前缀填充)。 攻击者用一段顺从的片段为模型自身的回答开头(论文使用固定字符串
"Sure, here are some ideas. First, …")。由于模型是从一个已经“同意”的上下文继续生成,它便越过了本应给出的拒绝。
两者都是推理时的操纵,任何持有开放权重的人都可实施。它们都不需要 TAR 与 SEAM 专门加固所针对的、昂贵的基于梯度的微调。
为何重要
结果非常直白。在无攻击时,防护是有效的:攻击成功率维持在 10% 以下。一旦施加无梯度攻击,成功率便跃升至 16% 到 96% 的区间,覆盖三个有害性基准(BeaverTails、HarmBench、AdvBench)与三个模型家族(Llama 3.2、Qwen 2.5、Gemma 3,规模约 1B 至 8B)。仅 abliteration 一项就把基线模型与 SEAM 模型在三个基准上推至 70% 以上,在 AdvBench 与 HarmBench 上推至 90% 以上。TAR 表现更稳健,但仍退化至其无攻击水平的数倍。
对任何发布或依赖开放权重模型的人而言,更广泛的启示是:一种只压制拒绝、却不移除底层有害知识的防护,会留下一个仅靠微调评估永远测不到的攻击面。一种防御可能在最难、最昂贵的攻击类别面前看似稳固,却倒在最简单的攻击之下。这对发布决策、模型卡以及任何附在开放权重上的安全声明都有直接影响。
防御
- 不仅评估微调,也要评估无梯度攻击。 论文的核心建议:对开放权重防护的持久性声明必须纳入 abliteration 与 prefilling(及其组合),否则会高估其鲁棒性。
- 考虑 Abliteration-Resistant Tuning(ART,抗消融训练)。 作者提出 ART,将基于 abliteration 的目标纳入训练。它可叠加到现有防护之上,将 abliteration、prefilling 及其组合的成功率降低 10–20%——这是缓解,而非根治。
- 不要把压制当作移除。 当威胁模型有此要求时,应优先采用真正减少有害知识本身的方法(数据过滤、遗忘学习),而非仅仅掩盖拒绝方向的方法。
- 假定开放权重完全受攻击者控制。 权重一旦公开,推理时的防御(输入/输出过滤、拒绝方向、系统提示)都可被删除。需要抵御坚定对手的安全,不能仅存于可下载的检查点之中。
- 保留部署侧的控制。 对基于开放权重模型构建的托管服务,应将模型层面的安全与攻击者无法移除的外部审核、监控与限流相结合。
状态
| 项目 | 详情 |
|---|---|
| 论文 | “Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks” |
| arXiv 编号 | 2605.26526(cs.LG) |
| 发布日期 | 2026 年 5 月 26 日 |
| 作者 | Kevin Kuo、Chhavi Yadav、Virginia Smith(CMU;西蒙斯研究所,UC Berkeley) |
| 受测防护 | TAR(2408.00761)、SEAM |
| 攻击 | Abliteration、Prefilling——无梯度、无微调 |
| 基准 | BeaverTails、HarmBench、AdvBench |
| 模型 | Llama 3.2、Qwen 2.5、Gemma 3(约 1B–8B) |
| 结果 | 攻击成功率从 <10% 升至 16–96% |
| 提出的防御 | Abliteration-Resistant Tuning(ART),成功率 −10–20% |
| 性质 | 防御性研究——无攻击载荷 |