← 返回所有攻击
JAILBREAK CRITICAL
Many-shot 越狱:用 256 个示例绕过任何对齐
Anthropic 研究人员表明,用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。
2026-05-15 // 6 分钟 affects: claude-3, gpt-4-turbo, gemini-1.5
这个把戏
拿一个上下文窗口 200K+ token 的模型。把它塞满 256 个虚假示例,其中一个”助手”愉快地回答有害问题。然后问你真正的有害问题。
模型,被上下文模式引导,服从了。
为什么有效
LLM 进行上下文学习。示例越多,模式越强。安全训练事后应用于模型输出 —— 但当 256 个示例在直接上下文中向模型展示”我在这里就是这样回答的”,新模式占据主导地位。
数据
Anthropic 的论文记录了攻击成功率从一个示例时的 <5% 攀升到 256 个示例时的 约80%,跨多个伤害类别。
防御
- 限制安全关键应用的有效上下文长度
- 即使在长上下文中也对输出重新应用安全分类
- 训练模型检测上下文模式操纵
这从根本上是 transformer 处理长上下文方式的架构问题。补丁是缓解措施,不是解决方案。