DEFENSE LOW NEW

越狱会留下痕迹:在大语言模型内部激活中检测攻击

2026 年 2 月的一篇论文及其 3 月的后续工作表明,越狱提示会在模型的隐藏激活中刻下可辨识的特征——从而能够在推理时检测,无需微调,也无需辅助的裁判模型。

2026-06-01 // 6 min affects: llama-3.1-8b, mistral, gpt-j, mamba2

这是什么?

大多数越狱防御都盯着文本:输入分类器、输出过滤器、指令层级规则。2026 年的一系列研究主张,更可靠的信号在更下一层——在模型自身的隐藏激活中。其核心论点是:越狱提示无论在表层如何包装,在流经 Transformer 各层时都会留下一致的潜空间痕迹,而这一痕迹可以被直接读取,用于标记该攻击。

两篇近期论文奠定了这一思路。Jailbreaking Leaves a Trace(Sri Durga Sai Sowmya Kadali 与 Evangelos E. Papalexakis,加州大学河滨分校;arXiv 2602.11495,2026 年 2 月)对 GPT-J、LLaMA、Mistral 以及状态空间模型 Mamba2 的内部表示进行逐层分析,识别出可重复的模式,将对抗性输入与良性输入区分开来。GUARD-SLM(Md Jueal Mia 等人,佛罗里达国际大学;arXiv 2603.28817,2026 年 3 月 28 日)在 7 个小型语言模型和 3 个大型模型、9 类攻击上报告了相同的效应。两者都建立在加州大学河滨分校团队 2025 年 10 月的前驱工作之上,即 Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection?。

工作原理

这种防御是观察性的,而非生成性的,因此没有需要删改的载荷。其流水线读取模型本就会产生的残差流:

阶段                         发生了什么
---------------------------  --------------------------------------------------
1. 捕获隐藏状态              对每个提示,在前向传播中收集逐层的隐藏表示
2. 投影到潜空间              对激活进行降维/分解(UCR 的工作对隐藏张量
                             采用张量分解)
3. 逐层打分                  轻量分类器从投影中估计每层的"越狱易感度"
4. 决策/干预                 标记该请求,或在推理时绕过易感度最高的层/注意力头

有两个特性使其颇具吸引力。其一,它既不需要微调,也不需要第二个充当裁判的大语言模型——检测器只是一个作用于模型本就会输出的激活的小型分类器,因此运行时开销极小。其二,它与架构无关:同一方法在稠密 Transformer(LLaMA、Mistral)和状态空间模型(Mamba2)上都能记录到信号,这表明该痕迹是对齐模型处理对抗意图方式的一种属性,而非某种设计的特例。

UCR 团队还测试了一个主动变体。在一个经过 abliterated 处理的 LLaMA 3.1 8B 上——即其安全拒答方向被外科式移除的模型——有选择地绕过被评分为最易感的层,阻断了 78% 的越狱尝试,同时在 94% 的良性提示上保留了良性行为,且完全在推理时完成。

为何重要

提示层面的防御在与改写的竞赛中处于下风:攻击者不断换措辞直到绕过过滤器。如果区分性信号转而存在于激活之中,攻击者就必须改变的不仅是措辞,还有模型对该请求所执行的内部计算——这是一个明显更难的目标。该效应在 abliterated 模型上依然成立,这一点值得注意,因为它意味着即便标准拒答机制已被移除,仍存在可利用的痕迹。

诚实的定位是:这是早期的、互补性的研究,而非已被解决的控制措施。这些高数值来自激活可直接访问的开放权重模型;你无法在仅通过网络访问的闭源 API 上运行它。78% 的阻断率也意味着大约每五次攻击仍有一次成功:它是一层防护,而非一堵墙。

防御措施

对于自托管开放权重模型的团队,这是对防护栈的一项实用补充:

对残差流进行插桩。 如果你提供开放权重模型,你已经拥有隐藏状态。把一个轻量的激活探针作为检测信号,接入你现有的日志与限流系统,而不是第一天就当作一个阻断式关卡。
将其用作纵深防御,而非替代。 保留输入/输出过滤和指令层级;基于表示的检测覆盖的是绕过文本过滤器的改写类攻击,而非那些过滤器本已拦下的情形。
关注误报预算。 在研究数据集上 94% 的良性保留率,并不等于生产环境中的 99.9%。在让探针拒绝请求之前,先用你自己的良性流量调校易感度阈值。
每次微调后重新校准。 潜在痕迹是模型特定的。一次新的微调、一个 LoRA 适配器或量化都可能改变承载信号的层,因此在更改权重时要重新拟合探针。
闭源模型用户:把这当作对供应商的诉求。 你无法自行读取 API 的激活——推动供应商暴露安全信号遥测,在此之前依靠输出侧的控制。

现状

项目	参考	日期	备注
前驱:内部逐层模式	arXiv 2510.06594(加州大学河滨分校)	2025-10	GPT-J、Mamba2;逐层行为各异
Jailbreaking Leaves a Trace	arXiv 2602.11495(加州大学河滨分校)	2026-02	张量潜空间框架;在 abliterated LLaMA 3.1 8B 上阻断 78% / 良性 94%
GUARD-SLM	arXiv 2603.28817(佛罗里达国际大学)	2026-03-28	9 类攻击 × 7 个 SLM + 3 个 LLM;基于激活的防御,无需重训练

要点在于防御者视角的转移。越狱研究在提示上花了两年;这些工作主张,攻击最持久的证据其实在提示所产生的激活之中——而在开放权重模型上,你几乎可以免费读取它。

越狱会留下痕迹:在大语言模型内部激活中检测攻击

这是什么?

工作原理

为何重要

防御措施

现状

Sources