防御性误导:为何拦截自动化越狱反而可能适得其反
2026 年 6 月的一篇论文对攻击者的自动评判器建模,指出可预测的拒绝会喂养其搜索循环——并提出用受控误导取代单纯拦截。
这是什么?
2026 年 6 月 18 日,Reza Soosahabi 与 Vivek Namsani 发表了 Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems(arXiv:2606.20470)。论文研究了一个随着攻击者自动化而愈发重要的防御盲区:当一次越狱或提示注入活动由另一个模型驱动时——即一个不断探测、改写提示并对回复打分的自动评判器——护栏说「不」的方式本身也成为了攻击面的一部分。
核心论点略显反直觉:传统的检测并拦截(detect-and-block)防御,可能让攻击成功率(ASR)随着查询预算增长而趋近于 1。原因不在于过滤器薄弱,而在于可预测的拒绝是一种干净的信号。每一次被拦截的尝试都在告诉自动评判器「你越来越接近了——继续变异、再试一次」,从而高效地把搜索引向那些最终能绕过的提示。
工作原理
论文用一个三部分的概率模型来刻画这种博弈:目标系统、其防御机制,以及攻击者的自动评判器。评判器的职责是判断哪些候选提示有希望、值得再做一轮改写。
检测并拦截对该评判器而言是可读的。拒绝是一致且易于分类的,因此评判器能可靠地把「被拦截」与「未被拦截」区分开并沿梯度推进。只要查询足够多,自动化工具就会收敛——而现代自动化攻击既快又便宜。配套的红队分析 LLM Jailbreaking in 2026(2026 年 3 月 25 日)记录了其规模:基于模糊测试的流水线约七次查询即可达到约 99% 的成功率,推理模型还能自主开展多轮攻击。面对这样的预算,一个完全一致的拒绝反而成了负担。
论文提出的替代方案是检测并误导(detect-and-misdirect)。当系统检测到一次很可能是恶意的交互时,它不返回可被识别的拒绝,而是返回一个受控的、不具操作性的回复——安全、看似可信,却是经过刻意设计的误导。其目标是污染攻击者的评判器:通过降低评判器所选候选项的正向预测值(positive predictive value),搜索便再也无法判断哪些提示真正奏效。论文表明,这会带来一个有界的渐近 ASR,而非趋向确定的 ASR。
他们的概念验证是 CMPE——Contextual Misdirection via Progressive Engagement——一种轻量的对话式误导方法,用安全但具策略性误导性的回复替换可预测的拒绝文本。在越狱基准上,作者报告 CMPE 将 ASR 上界估计值最多降低两个数量级,并在 PAIR 与 GPTFuzz 攻击框架的端到端运行中几乎消除了经核实的攻击成功。需要说明:其贡献是一项分析加一个概念验证,而非现成产品;论文未公开任何攻击 payload。
为何重要
这颠覆了一种防御直觉。团队往往把清晰、一致的拒绝视为黄金标准。面对人类攻击者,这没问题;但面对自动化攻击者,可预测性恰恰是优化器所渴望的——拒绝变成了搜索的免费监督信号。论文把其中的经济学说明白了:当攻击者是一个紧凑的检测/改写/打分循环时,防御者必须思考每个回复泄露了什么信息,而不只是它是否拦下了这一条提示。
这也契合 2026 年的共识:仅靠输入过滤站不住脚。我们曾报道过为何自适应攻击会击穿静态防御、检测器是如何被规避的,以及防注入包装器的防御三难困境。误导与诸如面向智能体的蜜标陷阱等欺骗手段一脉相承:两者都接受部分对抗性输入终将抵达,并力图让攻击者的反馈变得不可靠,而非承诺拦下一切。
防御
论文本身即一项防御提议,但它给出了若干具体而审慎的工程取舍。
- 把拒绝当作一个信息通道。 审计你的护栏泄露了什么。如果被拦截的尝试与被放行的尝试完全可区分,自动评判器就能加以利用。在不损害正常用户的前提下,让失败回复有所变化、加以混淆。
- 对已检测到的滥用考虑受控误导——务必谨慎。 对高置信度的恶意交互,一个不具操作性、含糊其辞的回复可以让攻击者的评判器失去信号。这必须以可靠检测为前提:对误报实施误导会损害真实用户的体验,因此它应置于强分类器与明确策略之后。
- 不要放弃输出监控。 误导抬高的是搜索的成本;它不能替代对有害补全的拦截。请保留输出侧的过滤与日志记录。
- 加入速率限制与预算意识。 既然失效模式是「ASR 随查询预算上升」,那么约束并对该预算计价(速率限制、按密钥配额、对探测模式的异常检测)就直接针对了该机制。
- 保留架构层兜底。 正如红队分析所言,长久的问题在于系统在越狱之后是否仍然安全:最小权限、沙箱化与输出门控能在无论哪条提示得手的情况下限制爆炸半径——参见 lethal trifecta。
- 衡量你的评判器,而不仅是你的过滤器。 用自动化攻击者(PAIR、GPTFuzz 之类的循环)评估防御,并跟踪 ASR 如何随查询预算扩展——静态的一次性通过率恰恰掩盖了本文所述的失效。可与超越二元通过/失败的打分如何改变结论作对比。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| Analyzing Defensive Misdirection… | arXiv:2606.20470 | 2026-06-18 | 概率模型;检测并拦截下 ASR 随预算趋近 1;检测并误导将其约束 |
| CMPE 概念验证 | 同一论文 | 2026-06-18 | ASR 上界最多降低约 2 个数量级;对 PAIR/GPTFuzz 的核实成功率近乎为零 |
| 自动化攻击背景 | redteams.ai 分析 | 2026-03-25 | 模糊测试/推理模型攻击;基于拒绝的防御失效;主张架构层防御 |
要点不是「停止拦截」——而是说,可预测的拦截在面对自动化、由模型驱动的攻击者时是一种薄弱姿态,因为可预测性本身就是可被利用的。设计系统在失败时透露什么,并以一个会优化的对手而非单条提示来衡量防御,才是 2026 年更诚实的检验。
本文出于防御与教育目的总结公开研究,不复现任何利用代码。