← 返回类别
JAILBREAK
(3)3 个攻击.
JAILBREAK MEDIUM NEW
Sockpuppeting:一行 prefill 越狱 11 个生产级大模型
在请求的最后一条消息中以 assistant 角色注入一行文本,即可让 10 个主流模型中的 7 个生成有害内容。真正的修复并不在模型一侧,而是 API 层对消息顺序的校验。
2026-05-28//8 分钟
JAILBREAK MEDIUM
数学编码越狱:当集合论绕过大语言模型安全防线
2026年5月5日发布的一篇arXiv论文表明,将有害提示重写为集合论或形式逻辑问题,可在八个前沿模型上以46%–56%的成功率绕过安全训练——但前提是由辅助大语言模型完成深度重写。
2026-05-25//8 分钟
JAILBREAK CRITICAL
Many-shot 越狱:用 256 个示例绕过任何对齐
Anthropic 研究人员表明,用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。
2026-05-15//6 分钟