超越「浅层安全」:序列中段注入仍能让已对齐的大模型偏航
2026 年 6 月 3 日的一篇 arXiv 论文表明,安全对齐不仅可在开头的若干 token 处被改写,也可在生成的任意步骤被改写——而隐藏状态中的拒绝方向并不能预测模型的鲁棒性。
这是什么?
2026 年 6 月 3 日,Kyungmin Park 与 Taesup Kim 发布了 Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories(arXiv:2606.04778,cs.AI/cs.CL/cs.LG)。该论文重新审视了自 2024 年以来塑造大模型安全思路的一项结论——「浅层安全」(shallow safety)——并指出它所描述的问题比现实更为狭窄。
「浅层安全」由 Qi 等人在 Safety Alignment Should Be Made More Than a Few Tokens Deep(arXiv:2406.05946)中命名,指的是已对齐模型的拒绝行为集中在输出的最初若干 token。一旦让模型越过这个开头——例如借助形如「当然,方法如下……」的助手预填充(prefill)(参见我们关于 sockpuppeting 的说明)——它往往会顺势配合地继续生成。
新论文的主张是:这种「首 token」弱点只是一个特例。在生成过程中任意位置(而不仅是开头)插入的短 token,都可能显著改变模型随后的安全行为。
工作原理
其威胁模型是对生成流的控制,而非某个巧妙的提示词。只要攻击者——或下游组件——能够在模型输出正在生成时向其中插入 token,它就成立:开放权重与自托管部署、接受助手预填充的 API,以及把中间文本重新拼接回上下文的流水线。
# 概念性示意——不含可用的 payload。
# 标记为 [INJECT] 的 token 是攻击者控制的短片段,
# 被插入到助手自身的输出流中。
t0 user: <看似无害的请求>
t1 assistant: 我无法帮助你做这件事,但是 [INJECT]
t2 assistant: <沿着被注入的方向继续...>
有两点发现使这项工作不只是对预填充结论的复述:
-
位置并不特殊。 在序列中段——远在「安全」的开头 token 之后——插入的短注入,仍能改变其余轨迹的走向。只加固首 token 的防御,会让生成的其余部分暴露在外。
-
隐藏状态并不能保证安全。 作者报告称,模型在隐藏状态中与拒绝方向的对齐程度并不能预测其对此类注入的鲁棒性。某个表征看上去可能「已对齐」,而在扰动之下生成的文本却走向相反方向。这对那些读取内部激活来判定回复是否安全的基于表征的防御是一个警示——Jailbreaking Leaves a Trace(arXiv:2602.11495)也探讨了这一方向。
论文提出的修复方案位于训练阶段:通过模拟序列中段扰动来构造生成轨迹,并直接在这些轨迹上对齐模型,而不仅仅在输出上对齐。在受扰动的过程上训练可提升对序列中段注入的鲁棒性,作者还报告称它能泛化到「浅层安全」研究最初发现的首 token 攻击。
为什么重要
许多生产环境的安全工具假设危险时刻在于提示词(输入过滤)或首个 token(预填充检查、开头 token 对齐)。本论文则主张:脆弱面是整条轨迹。对于运行开放权重或自托管模型的人——其生成流完全可控——这会大幅扩大攻击面,也削弱了「把单一隐藏状态探针当作安全信号」的可信度。
它还重新定义了一场防御层面的争论:鲁棒的对齐或许需要针对生成的过程来训练,而不仅是对其最终答案进行评分。
防御
- 不要信任位置。 在 API 边界处校验并约束助手消息序列;拒绝客户端提供的助手预填充,以及任何让不可信文本以模型输出身份重新进入的路径。这是预填充越狱的教训,被推广到整条生成流。
- 把隐藏状态安全探针当作一种信号,而非证据。 据本论文,激活中拒绝方向的对齐并不能保证扰动下的生成是安全的。请将任何表征层检测器与输出侧检查结合使用。
- 加入输出层与轨迹层的护栏。 对已完成与流式输出重新扫描,而不仅是提示词和首 token。
- 对训练模型者: 可考虑轨迹层对齐——如论文所述,在安全训练中让模型接触模拟的序列中段扰动。
- 保持威胁模型的诚实。 序列中段注入以控制生成流为前提(开放权重、自托管或支持预填充的 API)。禁止助手预填充的托管聊天端点会提高门槛,但本身并不能解决拼接回注的流水线问题。
状态
| 项目 | 详情 |
|---|---|
| 论文 | Inference-Time Vulnerability Beyond Shallow Safety(arXiv:2606.04778) |
| 发布 | 2026 年 6 月 3 日 |
| 类型 | 研究发现 + 训练阶段防御(未发布漏洞利用) |
| 基于 | Qi 等人,…More Than a Few Tokens Deep(arXiv:2406.05946) |
| 受影响 | 已对齐的大模型;开放权重 / 自托管场景下暴露最大 |