JAILBREAK CRITICAL

Many-shot 越狱：用 256 个示例绕过任何对齐

Anthropic 研究人员表明，用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。

2026-05-15 // 6 分钟 affects: claude-3, gpt-4-turbo, gemini-1.5

这个把戏

拿一个上下文窗口 200K+ token 的模型。把它塞满 256 个虚假示例，其中一个”助手”愉快地回答有害问题。然后问你真正的有害问题。

模型，被上下文模式引导，服从了。

LLM 进行上下文学习。示例越多，模式越强。安全训练事后应用于模型输出 —— 但当 256 个示例在直接上下文中向模型展示”我在这里就是这样回答的”，新模式占据主导地位。

Anthropic 的论文记录了攻击成功率从一个示例时的 <5% 攀升到 256 个示例时的 约80%，跨多个伤害类别。

这从根本上是 transformer 处理长上下文方式的架构问题。补丁是缓解措施，不是解决方案。