RESEARCH MEDIUM NEW

开放权重模型的抗微调防护被无梯度攻击攻破

卡内基梅隆大学 2026 年 5 月的研究表明，TAR、SEAM 等旨在抵御恶意微调的抗篡改防护，可被两种低成本的无梯度攻击——abliteration 与 prefilling——绕过。

2026-06-17 // 5 min affects: llama-3.2, qwen-2.5, gemma-3, open-weight-llms

这是什么？

2026 年 5 月 26 日，Kevin Kuo、Chhavi Yadav 与 Virginia Smith（卡内基梅隆大学；西蒙斯研究所，加州大学伯克利分校）发布了论文 Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks（arXiv 2605.26526，cs.LG）。论文并未发明新攻击，而是用两种早已为人所知、成本低廉的技术——abliteration（消融拒绝方向）与 prefilling（前缀填充）——去测试最新一代面向开放权重模型的防护，并证明它们能被攻破。

相关防护旨在让模型的拒绝行为在恶意微调后依然存续。本文研究的两种是 TAR（Tampering Attack Resistance，Tamirisa 等，2408.00761）与 SEAM（一种自毁式防护）。二者都假设最坏情形是攻击者下载开放权重并将其微调至有害用途。本文的贡献在于表明：攻击者往往根本不需要微调。

这是一项防御性、研究性的分析，不含任何可用的攻击载荷；abliteration 与 prefilling 都是已公开发表的通用方法。

工作原理

核心洞见在于威胁模型。TAR 与 SEAM 都建立在一个隐含假设之上：有害行为是通过微调习得的。然而预训练模型本就编码了大量有害知识——对抗性微调的主要作用是移除拒绝反射，而非教会新能力。如果知识本就存在，攻击者只需将其诱发出来。

这两种无梯度攻击正是如此，既不更新权重，也不进行梯度优化：

Abliteration（消融）。 在安全对齐的模型中，拒绝行为在很大程度上由残差流中的单一方向所中介（Arditi 等，2406.11717）。攻击者用一小组有害与无害提示估计出该方向，然后在推理时从激活中将其减去。模型便不再拒绝——无需任何再训练。
Prefilling（前缀填充）。 攻击者用一段顺从的片段为模型自身的回答开头（论文使用固定字符串 "Sure, here are some ideas. First, …"）。由于模型是从一个已经“同意”的上下文继续生成，它便越过了本应给出的拒绝。

两者都是推理时的操纵，任何持有开放权重的人都可实施。它们都不需要 TAR 与 SEAM 专门加固所针对的、昂贵的基于梯度的微调。

为何重要

结果非常直白。在无攻击时，防护是有效的：攻击成功率维持在 10% 以下。一旦施加无梯度攻击，成功率便跃升至 16% 到 96% 的区间，覆盖三个有害性基准（BeaverTails、HarmBench、AdvBench）与三个模型家族（Llama 3.2、Qwen 2.5、Gemma 3，规模约 1B 至 8B）。仅 abliteration 一项就把基线模型与 SEAM 模型在三个基准上推至 70% 以上，在 AdvBench 与 HarmBench 上推至 90% 以上。TAR 表现更稳健，但仍退化至其无攻击水平的数倍。

对任何发布或依赖开放权重模型的人而言，更广泛的启示是：一种只压制拒绝、却不移除底层有害知识的防护，会留下一个仅靠微调评估永远测不到的攻击面。一种防御可能在最难、最昂贵的攻击类别面前看似稳固，却倒在最简单的攻击之下。这对发布决策、模型卡以及任何附在开放权重上的安全声明都有直接影响。

防御

不仅评估微调，也要评估无梯度攻击。 论文的核心建议：对开放权重防护的持久性声明必须纳入 abliteration 与 prefilling（及其组合），否则会高估其鲁棒性。
考虑 Abliteration-Resistant Tuning（ART，抗消融训练）。 作者提出 ART，将基于 abliteration 的目标纳入训练。它可叠加到现有防护之上，将 abliteration、prefilling 及其组合的成功率降低 10–20%——这是缓解，而非根治。
不要把压制当作移除。 当威胁模型有此要求时，应优先采用真正减少有害知识本身的方法（数据过滤、遗忘学习），而非仅仅掩盖拒绝方向的方法。
假定开放权重完全受攻击者控制。 权重一旦公开，推理时的防御（输入/输出过滤、拒绝方向、系统提示）都可被删除。需要抵御坚定对手的安全，不能仅存于可下载的检查点之中。
保留部署侧的控制。 对基于开放权重模型构建的托管服务，应将模型层面的安全与攻击者无法移除的外部审核、监控与限流相结合。

状态

项目	详情
论文	“Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks”
arXiv 编号	2605.26526（cs.LG）
发布日期	2026 年 5 月 26 日
作者	Kevin Kuo、Chhavi Yadav、Virginia Smith（CMU；西蒙斯研究所，UC Berkeley）
受测防护	TAR（2408.00761）、SEAM
攻击	Abliteration、Prefilling——无梯度、无微调
基准	BeaverTails、HarmBench、AdvBench
模型	Llama 3.2、Qwen 2.5、Gemma 3（约 1B–8B）
结果	攻击成功率从 <10% 升至 16–96%
提出的防御	Abliteration-Resistant Tuning（ART），成功率 −10–20%
性质	防御性研究——无攻击载荷

开放权重模型的抗微调防护被无梯度攻击攻破

这是什么？

工作原理

为何重要

防御

状态

Sources