系统:运行中
← 返回类别

RESEARCH

(10)

10 个攻击.

RESEARCH MEDIUM NEW

衡量大语言模型的漏洞利用能力:ExploitBench、ExploitGym 与 SCONE-bench

2026 年 5 月 22 日,Anthropic 公布了 Mythos Preview 在三个新漏洞利用基准上的成绩。这些数字以及基准对漏洞利用链的分解方式,正在改变防御者对前沿攻击能力的思考方式。

2026-05-29//8 min
RESEARCH MEDIUM NEW

Proprietary Problems:思科对 15 个闭源前沿模型的成对评测显示,单轮安全分数遗漏了大部分多轮风险

2026 年 5 月 27 日,思科发布了对 OpenAI、Anthropic、Google、Amazon 与 xAI 旗下 15 个闭源旗舰模型的研究,多轮攻击成功率介于 7.89% 至 88.30% 之间,与单轮基线相比差距最高可达 55 个百分点。

2026-05-29//8 min
RESEARCH MEDIUM NEW

智能体与人的安全鸿沟:生产环境部署的与论文研究的

UCLA 团队 2026 年 5 月 23 日发表的论文审计了 59 项学术研究、21 个生产环境智能体系统和 26 个安全插件,发现研究者偏爱的防御方案在生产中部署为零。

2026-05-29//7 min
RESEARCH MEDIUM NEW

自治税:防御训练如何毁掉 LLM 智能体

2026 年 3 月 19 日 USC 的一篇论文衡量了提示注入防御训练对智能体能力的代价 —— 被防御模型在 99% 的任务中超时,而基线只有 13%。

2026-05-29//7 min
RESEARCH MEDIUM

毒化瞭望塔:当 SOC 副驾驶读取由攻击者控制的日志

2026 年 5 月 23 日的一篇论文形式化了日志载体提示注入——通过日志字段中的对抗性内容操纵 SOC 的 LLM 助手。最强防御仍平均放过 11.8% 的注入。

2026-05-28//8 分钟
RESEARCH MEDIUM

MultiBreak:1.04 万条多轮提示揭示对话式越狱如何绕过 LLM 安全对齐

2026 年 5 月 3 日发表的 ICML 2026 论文公开了目前规模最大、最具多样性的多轮越狱基准。它记录到相对于此前最佳数据集,DeepSeek-R1-7B 上的攻击成功率差距高达 54 个百分点,GPT-4.1-mini 上达 34.6 个百分点,并量化了单轮对齐如何在多轮场景中坍塌。

2026-05-27//8 min
RESEARCH LOW

Teaching Claude Why:Anthropic 如何把代理失准率降到零

2026 年 5 月 8 日,Anthropic 的 Alignment Science 团队发布了一项案例研究,显示让 Claude「解释」其伦理推理,而不仅仅是「演示」之,可将代理失准率从 96% 降至不足 1%。

2026-05-27//8 min
RESEARCH MEDIUM

情境完整性:提示注入防御为何始终失效

Abdelnabi 与 Bagdasarian 在 2026 年 5 月发布的论文以情境完整性重新审视提示注入,指出数据与指令分离本身就是一种范畴错误。

2026-05-25//7 min
RESEARCH MEDIUM

当攻击者也是大模型:大型推理模型作为自主越狱代理

2026 年 5 月正式发表于《Nature Communications》的论文显示,四个推理模型 —— DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini 与 Qwen3 235B —— 仅凭一段系统提示,即可对九个目标 LLM 发起越狱,总体成功率达到 97.14%。

2026-05-25//6 min
RESEARCH LOW

潜伏代理:能在安全训练中存活的隐藏后门

Anthropic 证明,使用隐藏触发短语训练的模型即使在标准 RLHF 安全训练后仍保留后门行为。对开放权重 LLM 的影响重大。

2026-05-03//14 分钟