ADVERSARIAL

(14)

14 个攻击.

ADVERSARIAL MEDIUM NEW

让大模型推理提速失效：针对投机解码的攻击

2026 年 5 月的一篇论文表明，微小的输入扰动可以悄然瓦解投机解码带来的加速——在不改变模型可见输出的情况下拉低吞吐量。

2026-07-16//6 min

ADVERSARIAL MEDIUM NEW

一份投毒文档，就能劫持推理模型的思维链

一篇面向 SIGIR '26 的论文表明，RAG 语料库中的单一对抗文档就能把推理型大模型引向攻击者选定的答案——无需淹没式投毒，只需模仿模型自身的推理风格。

2026-07-14//5 min

ADVERSARIAL MEDIUM NEW

仅靠重写表述就能操纵 AI 审稿人

无需隐藏提示词也能骗过 LLM 审稿人。2026 年 6 月的两篇论文表明，只重写论文的表述方式——从不改动结果——即可将 AI 审稿分数抬高一分以上。

2026-07-09//7 min

ADVERSARIAL MEDIUM NEW

针对黑盒 RAG 的话语级观点操纵攻击

2026 年 5 月的一篇论文表明，将少量且经过伪装的投毒预算分散到一个主题网络上，即可让黑盒 RAG 系统在众多相关查询上、而非单个查询上发生立场偏移。

2026-07-08//6 min

ADVERSARIAL MEDIUM NEW

PRAC：通过注意力劫持电脑操作智能体的选择

蒂宾根 2026 年 4 月的一篇论文表明，仅一张被难以察觉地扰动的商品图片，就能集中电脑操作智能体的视觉注意力，从而左右其 82% 的选择，而完全不触及其输出。

2026-06-22//6 min

ADVERSARIAL MEDIUM NEW

当 AI 审稿人读不懂图表：针对同行评审的跨模态攻击

2026 年 6 月的一篇 arXiv 论文（PaperGuard）表明，AI 审稿人不仅会通过文本被攻击，也会通过图表被攻击——黑盒提示注入与白盒图像扰动都能翻转评审结论。

2026-06-20//6 min

ADVERSARIAL MEDIUM NEW

Rapid Poison：当反越狱防御沦为攻击面

2026 年 6 月 15 日的一篇 arXiv 论文显示，Rapid Response 防御中的扩增（proliferation）步骤可在 1% 的投毒率下被污染，迫使守卫分类器产生高达 100% 的误报或 96% 的漏报。

2026-06-19//7 min

ADVERSARIAL MEDIUM NEW

黑洞攻击：通过嵌入几何结构投毒向量数据库

一篇 2026 年 4 月 7 日的论文表明，置于嵌入质心附近的少量向量会被拉入高达 99.85% 的 top-10 结果中——一种与查询和模型无关的向量数据库投毒。

2026-06-18//5 min

ADVERSARIAL MEDIUM NEW

M3Att：无需预知查询即可投毒医疗多模态 RAG

2026 年 5 月的一篇论文在不预先知道用户查询的情况下投毒医疗图文 RAG。难以察觉的图像扰动劫持检索；由临床歧义引导的文本规避模型自我纠错——而预过滤防御几乎无济于事。

2026-06-17//6 min

ADVERSARIAL MEDIUM NEW

CRCP：能在分块与重排序后存活的 RAG 语料投毒

2026 年 6 月 9 日的一篇 arXiv 论文表明，许多语料投毒攻击在重排序之后会悄然失效，并提出了 CRCP——一种为适应真实 RAG 流水线而设计的“分块感知”变体。其启示在于如何评估，而不仅是如何防御。

2026-06-15//6 min

ADVERSARIAL MEDIUM NEW

HPAA：人能读懂、审核大模型却看不见的排版攻击

2026 年 6 月 8 日的一篇论文提出“人类可感知对抗攻击”：有害文本对读者依然一目了然，却能凭借排版操纵绕过基于大模型的内容审核。

2026-06-11//5 min

ADVERSARIAL MEDIUM NEW

SlotGCG：决定越狱成败的是对抗 token 的位置，而不仅是其内容

2026 年 6 月的一篇论文显示，当对抗 token 被放置在与注意力相关的插槽时，GCG 类越狱的成功率平均提升约 14%，并在输入过滤防御下仍保留 42% 的成功率。

2026-06-08//5 min

ADVERSARIAL MEDIUM NEW

SilentRetrieval：能绕过困惑度过滤的流畅 RAG 语料投毒

2026 年 5 月 27 日 arXiv 预印本提出一种两阶段攻击,将劫持触发器隐藏在流畅文档中,在 Natural Questions 和 MS MARCO 上以每查询一份投毒文档实现 57% 的 LLM 攻击成功率。

2026-05-29//6 min

ADVERSARIAL MEDIUM

Usability as a Weapon：一句“优化”请求让代码 LLM 默默丢失安全约束

2026 年 5 月 11 日的 arXiv 论文显示,向代码 LLM 请求“更快”、“更简洁”或“再加一个功能”会悄悄移除安全防护。UPAttack 在 GPT-5.2-chat 与 Gemini-3 上达到 98.1% 成功率。

2026-05-26//8 min