DEFENSE MEDIUM NEW

防御性误导：为何拦截自动化越狱反而可能适得其反

2026 年 6 月的一篇论文对攻击者的自动评判器建模，指出可预测的拒绝会喂养其搜索循环——并提出用受控误导取代单纯拦截。

2026-06-21 // 6 min affects: refusal-based-guardrails, llm-safety-filters, agentic-ai-systems

这是什么？

2026 年 6 月 18 日，Reza Soosahabi 与 Vivek Namsani 发表了 Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems（arXiv:2606.20470）。论文研究了一个随着攻击者自动化而愈发重要的防御盲区：当一次越狱或提示注入活动由另一个模型驱动时——即一个不断探测、改写提示并对回复打分的自动评判器——护栏说「不」的方式本身也成为了攻击面的一部分。

核心论点略显反直觉：传统的检测并拦截（detect-and-block）防御，可能让攻击成功率（ASR）随着查询预算增长而趋近于 1。原因不在于过滤器薄弱，而在于可预测的拒绝是一种干净的信号。每一次被拦截的尝试都在告诉自动评判器「你越来越接近了——继续变异、再试一次」，从而高效地把搜索引向那些最终能绕过的提示。

工作原理

论文用一个三部分的概率模型来刻画这种博弈：目标系统、其防御机制，以及攻击者的自动评判器。评判器的职责是判断哪些候选提示有希望、值得再做一轮改写。

检测并拦截对该评判器而言是可读的。拒绝是一致且易于分类的，因此评判器能可靠地把「被拦截」与「未被拦截」区分开并沿梯度推进。只要查询足够多，自动化工具就会收敛——而现代自动化攻击既快又便宜。配套的红队分析 LLM Jailbreaking in 2026（2026 年 3 月 25 日）记录了其规模：基于模糊测试的流水线约七次查询即可达到约 99% 的成功率，推理模型还能自主开展多轮攻击。面对这样的预算，一个完全一致的拒绝反而成了负担。

论文提出的替代方案是检测并误导（detect-and-misdirect）。当系统检测到一次很可能是恶意的交互时，它不返回可被识别的拒绝，而是返回一个受控的、不具操作性的回复——安全、看似可信，却是经过刻意设计的误导。其目标是污染攻击者的评判器：通过降低评判器所选候选项的正向预测值（positive predictive value），搜索便再也无法判断哪些提示真正奏效。论文表明，这会带来一个有界的渐近 ASR，而非趋向确定的 ASR。

他们的概念验证是 CMPE——Contextual Misdirection via Progressive Engagement——一种轻量的对话式误导方法，用安全但具策略性误导性的回复替换可预测的拒绝文本。在越狱基准上，作者报告 CMPE 将 ASR 上界估计值最多降低两个数量级，并在 PAIR 与 GPTFuzz 攻击框架的端到端运行中几乎消除了经核实的攻击成功。需要说明：其贡献是一项分析加一个概念验证，而非现成产品；论文未公开任何攻击 payload。

为何重要

这颠覆了一种防御直觉。团队往往把清晰、一致的拒绝视为黄金标准。面对人类攻击者，这没问题；但面对自动化攻击者，可预测性恰恰是优化器所渴望的——拒绝变成了搜索的免费监督信号。论文把其中的经济学说明白了：当攻击者是一个紧凑的检测/改写/打分循环时，防御者必须思考每个回复泄露了什么信息，而不只是它是否拦下了这一条提示。

这也契合 2026 年的共识：仅靠输入过滤站不住脚。我们曾报道过为何自适应攻击会击穿静态防御、检测器是如何被规避的，以及防注入包装器的防御三难困境。误导与诸如面向智能体的蜜标陷阱等欺骗手段一脉相承：两者都接受部分对抗性输入终将抵达，并力图让攻击者的反馈变得不可靠，而非承诺拦下一切。

防御

论文本身即一项防御提议，但它给出了若干具体而审慎的工程取舍。

把拒绝当作一个信息通道。 审计你的护栏泄露了什么。如果被拦截的尝试与被放行的尝试完全可区分，自动评判器就能加以利用。在不损害正常用户的前提下，让失败回复有所变化、加以混淆。
对已检测到的滥用考虑受控误导——务必谨慎。 对高置信度的恶意交互，一个不具操作性、含糊其辞的回复可以让攻击者的评判器失去信号。这必须以可靠检测为前提：对误报实施误导会损害真实用户的体验，因此它应置于强分类器与明确策略之后。
不要放弃输出监控。 误导抬高的是搜索的成本；它不能替代对有害补全的拦截。请保留输出侧的过滤与日志记录。
加入速率限制与预算意识。 既然失效模式是「ASR 随查询预算上升」，那么约束并对该预算计价（速率限制、按密钥配额、对探测模式的异常检测）就直接针对了该机制。
保留架构层兜底。 正如红队分析所言，长久的问题在于系统在越狱之后是否仍然安全：最小权限、沙箱化与输出门控能在无论哪条提示得手的情况下限制爆炸半径——参见 lethal trifecta。
衡量你的评判器，而不仅是你的过滤器。 用自动化攻击者（PAIR、GPTFuzz 之类的循环）评估防御，并跟踪 ASR 如何随查询预算扩展——静态的一次性通过率恰恰掩盖了本文所述的失效。可与超越二元通过/失败的打分如何改变结论作对比。

状态

项目	参考	日期	备注
Analyzing Defensive Misdirection…	arXiv:2606.20470	2026-06-18	概率模型；检测并拦截下 ASR 随预算趋近 1；检测并误导将其约束
CMPE 概念验证	同一论文	2026-06-18	ASR 上界最多降低约 2 个数量级；对 PAIR/GPTFuzz 的核实成功率近乎为零
自动化攻击背景	redteams.ai 分析	2026-03-25	模糊测试/推理模型攻击；基于拒绝的防御失效；主张架构层防御

要点不是「停止拦截」——而是说，可预测的拦截在面对自动化、由模型驱动的攻击者时是一种薄弱姿态，因为可预测性本身就是可被利用的。设计系统在失败时透露什么，并以一个会优化的对手而非单条提示来衡量防御，才是 2026 年更诚实的检验。

本文出于防御与教育目的总结公开研究，不复现任何利用代码。

防御性误导：为何拦截自动化越狱反而可能适得其反

这是什么？

工作原理

为何重要

防御

状态

Sources