系统:运行中
← 返回所有攻击
ADVERSARIAL MEDIUM NEW

SlotGCG:决定越狱成败的是对抗 token 的位置,而不仅是其内容

2026 年 6 月的一篇论文显示,当对抗 token 被放置在与注意力相关的插槽时,GCG 类越狱的成功率平均提升约 14%,并在输入过滤防御下仍保留 42% 的成功率。

2026-06-08 // 5 min affects: open-weight-llms

这是什么?

SlotGCG 是一种基于优化的越狱技术,于 2026 年 6 月 发表在 arXiv 上(2606.05609),作者为首尔东国大学的研究者。它重新审视了对抗后缀攻击中一个由来已久的假设:即后缀(提示词的末尾)是放置经过优化的对抗 token 的最佳位置。

这里的参照攻击是 GCG(贪婪坐标梯度,Zou et al., 2023):它在提示词末尾附加一串通过梯度优化的 token,以促使已对齐的模型服从有害请求。自那以后的所有 GCG 变体都把这些 token 放在末尾。SlotGCG 的结论简单却令人不安:对抗 token 插入的位置与其内容同样重要,而后缀往往并非最脆弱的位置。

工作原理

论文用**插槽(slot)**的概念将插入点一般化。对于长度为 L 的提示词,存在 L+1 个候选插槽——第一个 token 之前一个、每对 token 之间各一个、最后一个 token 之后一个。GCG 只使用最后一个插槽。

SlotGCG 则用 脆弱插槽分数(Vulnerable Slot Score,VSS) 对所有插槽评分——该指标估计每个位置对对抗插入的易感程度——然后将优化集中在得分最高的插槽上。该流程是攻击无关的:作者称它是一个位置搜索前端,可以挂接到任意基于优化的攻击之上,仅增加约 200 毫秒 的预处理开销。

此处不复现任何 payload——权威参考是论文本身。重要的是其概念形态:

经典 GCG:  [ 有害请求 ] [ 优化后缀 ]
                        └── 仅在此处

SlotGCG:   [ ... ] [REDACTED] [ ... ] [REDACTED] [ ... ]
                    └── 插入到 VSS 最高的插槽,
                        而这些通常并不是后缀

探索性研究中的两个结果才是真正的看点:

  • 脆弱插槽与模型的注意力一致。 最易被攻击的位置与模型对输入的注意力模式高度相关。即便插入的 token 发生变化,这些位置仍然脆弱——也就是说,弱点是位置的属性,而非某个特定”魔法字符串”的属性。作者认为,每条提示词本身都内含其专属的脆弱插槽。
  • 收益可量化。 在所测试的 GCG 类方法与模型上平均而言,选择高 VSS 插槽可使攻击成功率(ASR)提升约 14%,以更少的优化步数收敛,并且——对防御方至关重要——在输入过滤防御下仍多保留 42% 的成功率

为什么重要

重点不是”又一个越狱”。GCG 自 2023 年起就已公开。重点在于:一整类防御被隐性地调校在了错误的位置上。

许多实际护栏都假设对抗噪声位于提示词末尾:偏向末尾的困惑度检查、后缀剥离、“截断用户问题之后的一切”。SlotGCG 将扰动分散到贯穿整条提示词、与注意力相关的插槽上,这正是它在仅后缀攻击会失效的输入过滤下仍保留 42% 效力的原因。如果你的输入侧防御只针对原版 GCG 做过验证,那套验证或许并不能迁移。

注意力相关性对检测研究也很重要。它表明该脆弱性是结构性的——与 Transformer 如何对输入加权有关——而非某个优化后缀的偶然现象。这对基于原理的防御是好消息(存在可监控的信号),对做模式匹配的防御是坏消息(没有固定字符串可拦截)。

范围说明:GCG 与 SlotGCG 都是需要梯度访问的白盒攻击,因此直接目标是你自行托管或微调的开放权重模型。GCG 的原始工作表明优化后缀可迁移到闭源模型,但 SlotGCG 的位置搜索是白盒流程。应首先把它视为针对你所运营模型的、更锋利的红队工具,并把它当作”仅靠对齐不构成部署管控”的证据。

防御

  1. 不要只防守后缀。整条序列施加困惑度与异常检查,使用滑动窗口,而非只看末尾。SlotGCG 保留的 42% 成功率,正是因为聚焦后缀的过滤器漏掉了提示词中段的扰动。
  2. 做输入变换,而不仅是检测。 改写与重新分词(Jain et al., 2023)会破坏这类攻击所依赖的、脆弱且依赖位置的 token 排布,因为它们会移动或重写被瞄准的插槽。这会牺牲输出质量,应用于高风险路径。
  3. 监控注意力,而非字符串。 由于脆弱插槽与注意力集中度相关,针对注意力模式的异常检测比拉黑后缀是更持久的信号。它尚处研究阶段,但正是该结论所指向的方向。
  4. 分层防御。 将输入侧措施与输出侧的拒绝/安全分类器以及工具调用门控相结合,使被越狱的生成在造成危害或触发动作之前仍需通过第二道检查。
  5. 管控开放权重与微调部署。 白盒梯度访问是此攻击的前提。自托管模型才是现实目标:用运行时护栏与监控把它们围起来,而不要依赖其内置对齐。
  6. 用位置可变的攻击重测护栏。 如果你的红队框架只跑后缀式 GCG,请加入插槽可变的插入。一个能扛住原版 GCG 的护栏,在这里可能失效。

现状

项目参考日期备注
SlotGCGarXiv 2606.056092026-06位置搜索前端;VSS 指标;ASR +14%,输入过滤下 ASR +42%
GCG(基线)arXiv 2307.150432023-07仅后缀的对抗优化;SlotGCG 所打破的假设
基线防御arXiv 2309.006142023-09困惑度检测、改写、重新分词、对抗训练

给防御方的要点:输入过滤器的价值,取决于它所检查的位置。SlotGCG 提醒我们:“攻击在提示词末尾”始终只是一个假设——而护栏正是在假设之处悄然失守。

Sources