系统:运行中
← 返回所有攻击
JAILBREAK MEDIUM

IICL:用 10 个示例让模式补全压过安全对齐

2026 年 4 月的一篇 arXiv 论文把上下文学习反过来对付模型:约十个抽象算子示例,就能让 GPT-5.4 补全一个其内容过滤器从未察觉的有害模式。

2026-06-17 // 6 min affects: gpt-5.4, openai-models, in-context-learning-llms

这是什么?

2026 年 4 月 21 日,一篇题为 《Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4》(arXiv:2604.19461)的论文提出了 IICL——一类不与模型安全训练正面对抗、而是利用上下文学习赖以运作的同一机制来绕过它的越狱手法。该技术被收录进 Adversa AI 的 2026 年 6 月 GenAI 安全综述,本文也由此发现这一选题。

其核心是对齐未能化解的一种结构性张力:语言模型既被训练去拒绝有害请求,又被训练去补全其上下文中出现的模式。IICL 让后一种冲动去对抗前一种。攻击者不直接索取有害内容,而是把任务包装成一个抽象的模式补全练习;面向识别有害请求而调校的内容级安全过滤器,对这种看似无害的格式化任务从不触发。

这与 many-shot 越狱 不同——后者把数百个明确的有害问答对塞进长上下文。IICL 仅靠结构性改写、约十个示例即可奏效。

工作原理

已发表的方法定义了两个抽象算子——例如一个用于”产生”某个值、另一个用于”验证”它——并给出一小组示例,隐式地教会一种映射:无害输入对应有效结果。随后要求模型为一个新的输入产生输出,使得验证算子仍然有效。由于有害内容被包装成抽象的算子求值而非直接请求,安全分类器读到的表层看起来像格式化或符号推理任务,于是模式补全占据主导。

此处不复现任何算子、示例或 payload:这是对一项已发表且经同行评审方法的概述,而非可用的操作配方。

让该论文对防御有用的是其消融实验。在 对 10 个 OpenAI 模型进行的 3,479 次探测 和一项七实验消融中,作者分离出真正起作用的要素:

Component                         Effect on bypass (reported)
--------------------------------  --------------------------------------
Abstract operator framing         Required. Identical examples in plain
                                  question/answer format -> 0% bypass
Semantic operator naming          100% bypass (50/50, p < 0.001)
Example ordering                  Interleaved benign/target: 76%
                                  Harmful-first: 6%
Sampling temperature              No meaningful effect (46-56%, T=0.0-1.0)
HarmBench (vs GPT-5.4)            24.0% bypass with detailed (~619-word)
                                  responses, vs 0.0% for direct queries

有两点尤为突出。其一,承载攻击的是呈现方式:把同样的示例以普通问答形式给出时,绕过率为 0%——所以并非”示例泄露了有害内容”,而是抽象结构关闭了过滤器。其二,温度无关紧要,这意味着它不是运营方可以调走的采样偶然,而是模型解析该模式方式的一种属性。

为什么重要

大多数已部署的护栏检查的是请求:用户是否在索取被禁止的内容?IICL 生成的文本在构造上从不被表述为被禁止的请求。这就击败了最常见的第一道防线——输入分类器——并且代价低、单轮即可完成,无需 many-shot 攻击所需的长上下文窗口。

但要点同样需要注意。这是针对 OpenAI 模型的基准研究,并非现实世界中报告过的事件,而 HarmBench 上 24% 的绕过率远非全面。然而结构性结论才是关键:它记录的是一弱点——上下文学习与对齐之间的冲突——而非某个脆弱的孤立提示。最接近的前人工作、Guo 等人 2025 年的”Involuntary Jailbreak”采用了相关的算子式呈现,但属于无目标的自我提示;IICL 使之有目标且可度量。任何进行上下文学习的模型在原理上都暴露于同一张力之下,因此即便超出所测模型,理解该技术也有价值。

防御

  1. 不要只依赖输入/请求分类器。 IICL 的设计正是要让请求永远读不出有害意味。把输入过滤器当作一层,而非控制本身。

  2. 对实际输出而非呈现方式做分类。模型实际生成的内容上做安全评估,与任务如何被提出无关。一段直读即有害的回答,即使以”算子求值”的形式到来,也应被拦截。

  3. 把模式补全脚手架当作结构信号来标记。 定义自定义算子、并提供大量交错的无害/目标示例对的输入,对正常流量而言是异常形态。结构性检测(示例密度、算子定义、交错排布)能在单行都不有害时抓住其形态。

  4. 把安全推到表层形式之下。 表示层与轨迹层的安全——不依赖请求措辞的对齐——才是持久的修复。包含抽象呈现与模式补全攻击的对抗训练能抬高下限;基于表层模式的拒绝则不能。

  5. 限制被越狱的模型能什么。 如果模型驱动工具或动作,施加最小权限与人工确认,使内容安全的绕过不致变成能力的绕过。不要让致命三要素——私有数据、不可信输入与外泄通道——在一个可被诱导配合的模型背后凑齐。

  6. 用结构性改写而非仅直接的有害提示做红队测试。 把 IICL 式(算子/模式补全)测试加入评估套件。一个能拦下”教我怎么做 X”的护栏,仍可能对”补全这个模式让验证器返回是”门户大开。

状态

项目参考日期备注
IICL 论文arXiv:2604.194612026-04-21few-shot 模式补全 vs 安全对齐
模型10 个 OpenAI 模型3,479 次探测,七实验消融
主要结果HarmBench 上对 GPT-5.4 绕过率 24.0%直接查询为 0.0%;语义命名在孤立组件上达 100%
前人工作Guo 等,“Involuntary Jailbreak”2025算子式呈现,但为无目标自我提示
相关Many-shot 越狱(Anthropic)2024数百个明确示例;IICL 仅需约 10 个
现实状态基准研究;无现实世界事件报告

教训不是某个模型坏了,而是上下文学习与安全对齐可以被互相调转矛头,只读请求的护栏会漏掉它。请防御输出与结构,而不仅仅是措辞。

Sources