RESEARCH
(10)10 个攻击.
衡量大语言模型的漏洞利用能力:ExploitBench、ExploitGym 与 SCONE-bench
2026 年 5 月 22 日,Anthropic 公布了 Mythos Preview 在三个新漏洞利用基准上的成绩。这些数字以及基准对漏洞利用链的分解方式,正在改变防御者对前沿攻击能力的思考方式。
Proprietary Problems:思科对 15 个闭源前沿模型的成对评测显示,单轮安全分数遗漏了大部分多轮风险
2026 年 5 月 27 日,思科发布了对 OpenAI、Anthropic、Google、Amazon 与 xAI 旗下 15 个闭源旗舰模型的研究,多轮攻击成功率介于 7.89% 至 88.30% 之间,与单轮基线相比差距最高可达 55 个百分点。
智能体与人的安全鸿沟:生产环境部署的与论文研究的
UCLA 团队 2026 年 5 月 23 日发表的论文审计了 59 项学术研究、21 个生产环境智能体系统和 26 个安全插件,发现研究者偏爱的防御方案在生产中部署为零。
自治税:防御训练如何毁掉 LLM 智能体
2026 年 3 月 19 日 USC 的一篇论文衡量了提示注入防御训练对智能体能力的代价 —— 被防御模型在 99% 的任务中超时,而基线只有 13%。
毒化瞭望塔:当 SOC 副驾驶读取由攻击者控制的日志
2026 年 5 月 23 日的一篇论文形式化了日志载体提示注入——通过日志字段中的对抗性内容操纵 SOC 的 LLM 助手。最强防御仍平均放过 11.8% 的注入。
MultiBreak:1.04 万条多轮提示揭示对话式越狱如何绕过 LLM 安全对齐
2026 年 5 月 3 日发表的 ICML 2026 论文公开了目前规模最大、最具多样性的多轮越狱基准。它记录到相对于此前最佳数据集,DeepSeek-R1-7B 上的攻击成功率差距高达 54 个百分点,GPT-4.1-mini 上达 34.6 个百分点,并量化了单轮对齐如何在多轮场景中坍塌。
Teaching Claude Why:Anthropic 如何把代理失准率降到零
2026 年 5 月 8 日,Anthropic 的 Alignment Science 团队发布了一项案例研究,显示让 Claude「解释」其伦理推理,而不仅仅是「演示」之,可将代理失准率从 96% 降至不足 1%。
情境完整性:提示注入防御为何始终失效
Abdelnabi 与 Bagdasarian 在 2026 年 5 月发布的论文以情境完整性重新审视提示注入,指出数据与指令分离本身就是一种范畴错误。
当攻击者也是大模型:大型推理模型作为自主越狱代理
2026 年 5 月正式发表于《Nature Communications》的论文显示,四个推理模型 —— DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini 与 Qwen3 235B —— 仅凭一段系统提示,即可对九个目标 LLM 发起越狱,总体成功率达到 97.14%。
潜伏代理:能在安全训练中存活的隐藏后门
Anthropic 证明,使用隐藏触发短语训练的模型即使在标准 RLHF 安全训练后仍保留后门行为。对开放权重 LLM 的影响重大。