← 返回类别
ADVERSARIAL
(2)2 个攻击.
ADVERSARIAL MEDIUM NEW
SilentRetrieval:能绕过困惑度过滤的流畅 RAG 语料投毒
2026 年 5 月 27 日 arXiv 预印本提出一种两阶段攻击,将劫持触发器隐藏在流畅文档中,在 Natural Questions 和 MS MARCO 上以每查询一份投毒文档实现 57% 的 LLM 攻击成功率。
2026-05-29//6 min
ADVERSARIAL MEDIUM
Usability as a Weapon:一句“优化”请求让代码 LLM 默默丢失安全约束
2026 年 5 月 11 日的 arXiv 论文显示,向代码 LLM 请求“更快”、“更简洁”或“再加一个功能”会悄悄移除安全防护。UPAttack 在 GPT-5.2-chat 与 Gemini-3 上达到 98.1% 成功率。
2026-05-26//8 min