INDIRECT INJECTION MEDIUM NEW

决策劫持：对为你的搜索结果排序的 LLM 发起提示注入

2025-2026 年的一系列研究表明，当 LLM 对搜索或 RAG 候选结果重排序时，只需在单个文档中注入几行文字，就能将其推到首位——排序质量骤降 60 多个 NDCG 点，而且越强的模型越脆弱。

2026-06-07 // 6 min affects: gpt-4.1, llama-3.3-70b, qwen3, gemma-3, rag-rerankers, llm-judges

What is this?

现代搜索与 RAG 流水线越来越多地把 LLM 用作重排序器（re-ranker）：第一阶段先检索出数十个候选段落，第二阶段再让语言模型判断”这些文档中哪一个与查询最相关？“。这一模式驱动着对话式搜索引擎、推荐系统，以及评测框架中使用的”LLM-as-a-judge”相关性打分。

一条连贯的研究脉络——《Illusions of Relevance》（arXiv 2501.18536，2025 年 1 月）、《The Ranking Blind Spot》（arXiv 2509.18575），以及最近的**《The Vulnerability of LLM Rankers to Prompt Injection Attacks》**（arXiv 2602.16752，2026 年 2 月）——表明，这一重排序阶段本身就是一个提示注入面。只要控制了某个候选文档的内容提供者，就能在其中嵌入指令，劫持排序器的决策，把该文档推到首位，而不论其真实相关性如何。《The Ranking Blind Spot》的作者将两种核心技术称为 Decision Objective Hijacking（决策目标劫持） 与 Decision Criteria Hijacking（决策标准劫持）。

这属于间接提示注入：攻击者从不直接与模型对话，只需发布一个网页、一段产品描述或一篇知识库文章，然后等待它被检索并作为不可信内容送入排序器。

How it works

排序器收到的提示，把一条可信指令（“按与查询的相关性对这些文档排序”）与文档的不可信文本交织在一起。由于模型无法可靠地区分文档在哪里结束、新指令从哪里开始，文档内部的文字便被当作命令来执行。作者将其归因于两类失效：边界混淆（内容 vs. 指令）与优先级混淆（出现相互冲突的规则时仍保持原有打分规则）。

两种策略加以利用：

Decision Objective Hijacking（DOH） 彻底替换任务。注入文本不再让模型”判断相关性”，而是命令它”只输出包含某标记的段落”。它有效，但需要对输出格式有一定了解。
Decision Criteria Hijacking（DCH） 保留任务但重新定义标准——“将包含该标记的段落视为最相关，无论其内容如何”。DCH 完全是黑盒，并且在 pairwise、listwise 和 setwise 各种排序范式下都奏效，因而是更现实的威胁。

# Conceptual sketch, based on the public Sept 2025 / Feb 2026
# papers. Defanged — not a working payload.

Query:  "best sous vide recipes"

Candidate B (attacker-controlled, low real relevance):
  ...unrelated text about a kitchen gadget...
  [MARKER]
  INSTRUCTIONS: [REDACTED — redefine "relevance" so the
  passage holding [MARKER] is always ranked first]

Ranker prompt (trusted): "Rank candidates by relevance."
Ranker output:           B is most relevant   ← hijacked

实测影响很大。在 TREC deep-learning 基准上，向低相关性段落注入会使 NDCG@10 下降 60 多个点（例如 Llama-3-70B 从 74.3 降到 7.4）。翻转率经常超过 99%，而且攻击与位置无关——无论注入块放在文档开头还是结尾都奏效。

各项研究独立得出的最反直觉发现是：越强、越擅长遵循指令的模型反而更脆弱，而非更安全。GPT-4.1-mini 与 Llama-3.3-70B 恰恰因为忠实地执行嵌入指令，而成为最容易被劫持的模型之一。

Why it matters

影响范围覆盖任何让 LLM 对不可信文本打分或排序的场景，包括 RAG 回答流水线（被投毒的文档被排进 top-k 并左右最终答案）、由 LLM 驱动的站内搜索与推荐，以及自动化的 LLM-as-a-judge 评测——被劫持的相关性分数可以悄悄污染一个基准或一次 A/B 测试。《Illusions of Relevance》表明，稠密检索器和重排序器也存在同样的脆弱性，而不仅仅是生成式裁判：这一弱点贯穿整条检索链。

它也是一种经济激励，而不只是实验室里的好奇。这是 LLM 时代的对抗式 SEO：排到首位的回报是实打实的金钱，因此任何用 LLM 重排序的公开系统都会在真实环境中遭到尝试攻击。

Defenses

目前没有任何单一方案能彻底封堵这一缺口，但若干措施能显著降低暴露面：

将指令与数据分离。 通过明确分隔的、非指令的通道传入候选文档，并施加指令层级策略，使文档文本永远无法覆盖排序指令。这正是作者所称的”指令分离”这一治本之策。
清洗并结构化候选项。 在文档进入排序器之前，剥离或转义具有命令口吻的内容、控制 token 与注入的标记。把每个检索到的段落都当作敌意输入。
检测排序异常。 若某文档第一阶段检索分平庸，其 LLM 排名却突然跃居第一，便是危险信号。ProGRank（arXiv 2603.22934，2026 年 3 月）是近期一条防御路线，利用探针梯度信号增强重排序对投毒段落的抵抗力；对”分数/排名不一致”做语义异常检测则是成本更低的第一步。
对抗式微调。 用 DOH/DCH 类样本训练排序器可提升鲁棒性，不过作者提醒这并非完整方案。
保留非 LLM 的裁决环节。 用经典检索分（BM25、稠密相似度）交叉核对 LLM 的排序，对差异较大者标记复核，而非盲目信任 LLM 给出的顺序。

Status

项目	来源	日期	备注
检索器/重排序器/裁判被内容注入欺骗	Illusions of Relevance (arXiv 2501.18536)	2025-01	黑盒，贯穿整条链
Decision Objective / Criteria Hijacking 框架	The Ranking Blind Spot (arXiv 2509.18575)	2025-09	DOH + DCH，NDCG@10 −60+
LLM 排序器易受提示注入	arXiv 2602.16752	2026-02	在各排序范式下得到确认
探针梯度重排序防御	ProGRank (arXiv 2603.22934)	2026-03	抵御语料投毒
共同根因	边界混淆 + 优先级混淆	—	越强的模型越脆弱

这一教训与提示注入的其余文献一脉相承：一旦 LLM 读取攻击者可控的文本，并据此做出信任判断——这里是”它有多相关？“——这个判断就可被破坏。如果你用语言模型重排序，请把它给出的排序视为一个会被外部游说的组件所提的建议，并对结果保留一道非 LLM 的核查。