系统:运行中
← 返回所有攻击
ADVERSARIAL MEDIUM NEW

Rapid Poison:当反越狱防御沦为攻击面

2026 年 6 月 15 日的一篇 arXiv 论文显示,Rapid Response 防御中的扩增(proliferation)步骤可在 1% 的投毒率下被污染,迫使守卫分类器产生高达 100% 的误报或 96% 的漏报。

2026-06-19 // 7 min affects: llama-guard-4, prompt-guard-2, safety-classifiers, rapid-response-pipelines

这是什么?

2026 年 6 月 15 日,David Huang、Jaewon Chang、Avidan Shah、Prateek Mittal 与 Chawin Sitawarin 发布了 「Rapid Poison: Practical Poisoning Attacks Against the Rapid Response Framework」(arXiv:2606.16242,cs.LG)。它不是一种新的越狱方法,而是针对本应阻止越狱的那套防御的攻击。

攻击目标是 Rapid Response(RR),由 Peng 等人于 2024 年 11 月 提出。RR 是一种自适应防御:当一个新型越狱绕过守卫分类器时,攻击会被事后捕获,由一个独立的「扩增」模型将其改写为若干合成变体,再用这些变体微调分类器,使其泛化到整个攻击家族。原论文称其最强变体可将分布内攻击的成功率降低 240 倍以上。据称这种扩增被用于 Anthropic 的 ASL-3 部署护栏(2025 年 5 月),OpenAI 也提出了类似的智能体变体。新论文提出了一个简单的问题:如果攻击者反过来给这个循环喂料,会发生什么?

工作原理

核心洞见是:扩增是一把双刃剑。它把少数稀有的真实越狱样本上采样为大量训练样本,这同时也放大了攻击者对训练集的影响。作者采用了一个刻意收紧的威胁模型:对手只能修改越狱样本(正类),绝不能改动良性数据或标签。被投毒的参考样本仍必须显得真正有害,否则防御方自己的裁判模型会在扩增之前将其剔除。

为同时满足这两个约束,攻击使用一种条件式提示注入:当扩增模型在生成「相似示例」时表现为一种行为,而当防御方校验该参考确为越狱时则表现为另一种行为。其触发条件依赖于扩增任务本身固有的线索,论文认为若不改变合成数据生成的方式,这些线索就无法被剥离。此处不复现任何 payload 或模板;这仅是对一种已发表方法的概述。

这种投递方式可实现两个目标:

目标                  诱发的失效            机制(概念性)
-------------------  ---------------------  ------------------------------------------
定向投毒              误报                  带有所选特征(某种格式、主题、品牌名)的
                     (损害可用性)         良性输入被注入为 unsafe -> 分类器学到
                                            虚假捷径「特征 => unsafe」
基于概念的后门        漏报                  「Omission Attack」:从 unsafe 样本中移除某
                     (绕过安全)           一概念,于是模型把该概念的「存在」学成
                                            safe 信号 -> 把它加进越狱样本即可翻转分类

Omission Attack(遗漏攻击) 是其新意所在:由于所选概念只出现在安全数据中、从不出现在结构相似的被投毒 unsafe 数据中,分类器便错误地把它的存在与 safe 标签关联起来。

为什么重要

考虑到所需的访问权限,论文报告的数字相当惊人。在 1% 的投毒率下——即在 6,000 个样本的训练集中约 18 个被投毒的参考样本——攻击可达到高达 100% 的误报率高达 96% 的漏报率。针对格式的投毒在选择题与 JSON 输入上达到 100% 误报;针对实体的投毒将约 95–98% 提及某一产品的良性查询标记为 unsafe,却基本不波及相邻实体;基于概念的后门在有害查询上达到 96% 漏报,并迁移到训练中从未见过的触发器。测试以 Llama Guard 4(12B)Prompt Guard 2(86M) 为受害分类器,以 Gemini 2.5/3 作为扩增模型(作者指出 GPT 与 Claude 会拒绝执行扩增任务)。

更深层的教训令人不安:一种数据高效、却从未经控制的真实数据中学习的防御,会继承这些数据的信任问题。作者提出了一个三难困境——RR 无法同时实现快速适应、保持可用性的泛化,以及对训练数据被操纵的鲁棒性。

防御措施

论文评估了两种缓解手段,并坦言两者都不是完整的解决方案。

  • 在扩增之前审查参考样本。 用一个守卫 LLM 过滤进入的参考样本(类似 PromptArmor 的过滤器)能拦下很多,但并非全部——对被投毒参考的聚合漏报率约为 10%,在更难的模板上更低。干净样本与被投毒样本彼此相似,使校准变得困难。应将其视为纵深防御,而非一道关卡。
  • 使用抗注入的扩增模型。 将扩增模型换成对注入加固过的模型(Meta SecAlign 70B),可使针对性的误报率从 98% 降到 0%——但这是针对论文中的静态模板而言。作者提醒这只是一个下界:自适应攻击者会做得好得多。
  • 把安全流水线本身当作可攻击对象。 结构性结论是:基于扩增的循环必须在部署前加固。在「将成为训练标签的数据」与「由不可信第三方提交的数据」之间划分信任域,限制任何单个参考样本的放大倍数,并监控分类器所标记内容的分布是否突变。
  • 识别失效特征。 与某一特定格式、主题或实体相关的良性查询拒绝率骤升,或在某一不寻常概念出现时检测率悄然下降,都与这类投毒一致,值得告警。

状态

项目详情
论文arXiv:2606.16242,发表于 2026-06-15
被攻击的防御Rapid Response 扩增流水线(Peng 等人,2024)
威胁模型攻击者只修改越狱样本;不控制标签与良性数据
投毒率约占训练集 1%(约 18 个参考样本)
报告影响高达 100% 误报;高达 96% 漏报
测试分类器Llama Guard 4(12B)、Prompt Guard 2(86M)
披露作者称已通知可能受影响的相关方,并刻意未提供可操作的实施步骤

重点不是说 Rapid Response「失效了」,而是:一种在未经控制的真实数据上训练的防御,本身就是一个攻击目标——任何自适应安全机制都应在部署之前、而非之后,作为攻击面接受红队检验。

Sources