系统:运行中
← 返回所有攻击
JAILBREAK CRITICAL

Many-shot 越狱:用 256 个示例绕过任何对齐

Anthropic 研究人员表明,用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。

2026-05-15 // 6 分钟 affects: claude-3, gpt-4-turbo, gemini-1.5

这个把戏

拿一个上下文窗口 200K+ token 的模型。把它塞满 256 个虚假示例,其中一个”助手”愉快地回答有害问题。然后问你真正的有害问题。

模型,被上下文模式引导,服从了。

为什么有效

LLM 进行上下文学习。示例越多,模式越强。安全训练事后应用于模型输出 —— 但当 256 个示例在直接上下文中向模型展示”我在这里就是这样回答的”,新模式占据主导地位。

数据

Anthropic 的论文记录了攻击成功率从一个示例时的 <5% 攀升到 256 个示例时的 约80%,跨多个伤害类别。

防御

  • 限制安全关键应用的有效上下文长度
  • 即使在长上下文中也对输出重新应用安全分类
  • 训练模型检测上下文模式操纵

这从根本上是 transformer 处理长上下文方式的架构问题。补丁是缓解措施,不是解决方案。

Sources