系统:运行中
← 返回所有攻击
DEFENSE MEDIUM NEW

监督是有容量的:当更多的审批反而让智能体更不安全

2026 年 6 月 8 日的一篇 arXiv 论文,把智能体审批关卡背后的人类审核者建模为一种会疲劳的有限资源,并表明升级更多动作反而会降低真实安全性,并打开一种淹没式攻击。

2026-06-11 // 7 min affects: llm-agents, ai-coding-assistants, human-in-the-loop-guards

这是什么?

2026 年 6 月 8 日,Emre Turan 在 arXiv(cs.AI,CC BY 4.0 许可)发布了 Oversight Has a Capacity: Calibrating Agent Guards to a Subjective, Fatiguing Human,并在 github.com/turangenesis/headroom 公开了代码与数据。这不是一个新的漏洞利用,而是对几乎每个智能体部署都默认依赖、却从未真正检验过的一个设计假设的度量:人类在环(human-in-the-loop)审批关卡。

随着 LLM 智能体从”建议代码”走向”执行代码”——deployrm -rf、推送到 main、读取密钥——各类框架都提供了”暂停高风险动作并询问人类”的原语(如 LangGraph 的 interrupt() 及其同类)。论文的论点是:关卡本身是容易的部分。困难的部分是决定暂停哪些动作的升级策略,而该领域在评估这一策略时所依据的两个假设都是错的:以为”高风险”存在一个客观真值标签,以及以为审核者是一个完美且随时可用的预言机。

工作原理

作者手工标注了 125 个对抗性加权的编码智能体动作,并进行了三项度量。

首先,不存在单一的真值。三个人格审核者对同一批动作标注,仅达到中等一致性(Fleiss κ = 0.52);“务实型”人格判定 87 个动作安全,而”谨慎型”只判定 45 个安全,分歧集中在有争议的中间地带。守卫无法用单一的客观真值来评分——一致性上限才是诚实的标尺。

其次,把守卫表述为非对称代价下的选择性分类,使其极限变得可度量。在”漏放危险”对”误报”为 50:1 的代价下,使代价最小化的策略坍缩为”几乎升级一切”:要达到零漏放危险,需要近 100% 的误报率。在困难、含糊的输入上,守卫根本无法安全地自行决定,因此必须依赖人类。

第三,也是核心结论——当把审核者建模为内生的(在某个容量内可靠,之后随升级负荷增加而疲劳)时,真实安全性随升级率呈倒 U 形。升级太少:守卫会自动放行危险;升级太多:超负荷的审核者机械盖章。安全最优的升级率落在全量升级之下。在仿真中,当审核者容量为 25 时,最优点升级 64% 的动作、放过 42% 的危险,而全量升级则放过 57%。作者明确指出:这是关于一条合理疲劳曲线的建模结论,并非针对真实人类的研究。

为什么重要

同一疲劳动态本身就是一个攻击面。攻击者把一个恶意动作埋进一串良性的”填充”动作中;每个被升级的填充都在消耗审核者的注意力,于是当恶意调用出现时,疲惫的人类直接点了”批准”。在朴素的偏执策略下(升级 88% 的常规动作),仿真攻击成功率攀升至约 80% 的机械盖章上限——仅 50 个填充动作时就已达 40%。而一个感知负荷的策略只升级 26%,可让审核者保持清醒,把攻击成功率维持在 0%,直到填充量足够大(约为余量的 2 倍)后才开始上升。防御”买来的是余量,而非不死之身”。

实务上的重新定位:智能体监督不仅是一个分类问题(“哪个动作有风险?”),更是一个资源分配问题。人类注意力是有限的,一个升级常规动作的策略,花掉的正是真正危险的动作所需要的预算。这关系到任何运行编码智能体、CI 集成智能体,或任何由人类大规模审批智能体工具调用的系统。

防御措施

  • 把升级率当作可调参数,而非最大值。 “升级一切”并非安全的默认设置;一旦审核者疲劳成为现实,它可能严格劣于某个中间升级率。请度量守卫的风险–覆盖曲线,而不要凭直觉猜测。
  • 采用感知负荷的升级策略。 抑制对常规、低风险动作的升级,把审核者的注意力留给真正含糊的情形——这既能找到倒 U 形的最优点,又能剥夺攻击者发动淹没式攻击所需的填充负荷。
  • 显式地为审核者注意力做预算。 限制每名审核者每班次的升级数量,轮换审核者,并把升级队列深度作为安全信号来监控——这正是成熟 SOC 早已采用的抗告警疲劳纪律。
  • 不要再假定存在”高风险”的真值标签。 以审核者间一致性进行校准,接受存在争议的中间地带,并用一份你公开记录(而非暗中调参)的代价矩阵来选择运行点。
  • 有意识地选择评分模型。 守卫的质量取决于其背后的模型(论文测得 Sonnet 相对 Haiku 有适度提升)、阈值和攻击组合——因此一旦其中任何一项发生变化,就要重新度量。

现状

这项工作是基于单一的 125 个编码智能体动作数据集的建模与度量研究,用人格代替了人类标注者;倒 U 形与淹没式攻击结果都是从一条有文献依据(但尚未根据真人拟合)的疲劳曲线仿真得来。作者引用了已有成果——疲劳感知的”学习延迟决策”、负荷约束下的代价敏感延迟,以及 SOC 中的告警疲劳攻击——并将其贡献定位为:在智能体动作把关这一场景中,把这些思想统一落地并加以度量。代码与数据均已公开;用真人拟合疲劳曲线的研究被列为未来工作。

Sources