DEFENSE MEDIUM NEW

监督是有容量的：当更多的审批反而让智能体更不安全

2026 年 6 月 8 日的一篇 arXiv 论文，把智能体审批关卡背后的人类审核者建模为一种会疲劳的有限资源，并表明升级更多动作反而会降低真实安全性，并打开一种淹没式攻击。

2026-06-11 // 7 min affects: llm-agents, ai-coding-assistants, human-in-the-loop-guards

这是什么？

2026 年 6 月 8 日，Emre Turan 在 arXiv（cs.AI，CC BY 4.0 许可）发布了 Oversight Has a Capacity: Calibrating Agent Guards to a Subjective, Fatiguing Human，并在 github.com/turangenesis/headroom 公开了代码与数据。这不是一个新的漏洞利用，而是对几乎每个智能体部署都默认依赖、却从未真正检验过的一个设计假设的度量：人类在环（human-in-the-loop）审批关卡。

随着 LLM 智能体从”建议代码”走向”执行代码”——deploy、rm -rf、推送到 main、读取密钥——各类框架都提供了”暂停高风险动作并询问人类”的原语（如 LangGraph 的 interrupt() 及其同类）。论文的论点是：关卡本身是容易的部分。困难的部分是决定暂停哪些动作的升级策略，而该领域在评估这一策略时所依据的两个假设都是错的：以为”高风险”存在一个客观真值标签，以及以为审核者是一个完美且随时可用的预言机。

工作原理

作者手工标注了 125 个对抗性加权的编码智能体动作，并进行了三项度量。

首先，不存在单一的真值。三个人格审核者对同一批动作标注，仅达到中等一致性（Fleiss κ = 0.52）；“务实型”人格判定 87 个动作安全，而”谨慎型”只判定 45 个安全，分歧集中在有争议的中间地带。守卫无法用单一的客观真值来评分——一致性上限才是诚实的标尺。

其次，把守卫表述为非对称代价下的选择性分类，使其极限变得可度量。在”漏放危险”对”误报”为 50:1 的代价下，使代价最小化的策略坍缩为”几乎升级一切”：要达到零漏放危险，需要近 100% 的误报率。在困难、含糊的输入上，守卫根本无法安全地自行决定，因此必须依赖人类。

第三，也是核心结论——当把审核者建模为内生的（在某个容量内可靠，之后随升级负荷增加而疲劳）时，真实安全性随升级率呈倒 U 形。升级太少：守卫会自动放行危险；升级太多：超负荷的审核者机械盖章。安全最优的升级率落在全量升级之下。在仿真中，当审核者容量为 25 时，最优点升级 64% 的动作、放过 42% 的危险，而全量升级则放过 57%。作者明确指出：这是关于一条合理疲劳曲线的建模结论，并非针对真实人类的研究。

为什么重要

同一疲劳动态本身就是一个攻击面。攻击者把一个恶意动作埋进一串良性的”填充”动作中；每个被升级的填充都在消耗审核者的注意力，于是当恶意调用出现时，疲惫的人类直接点了”批准”。在朴素的偏执策略下（升级 88% 的常规动作），仿真攻击成功率攀升至约 80% 的机械盖章上限——仅 50 个填充动作时就已达 40%。而一个感知负荷的策略只升级 26%，可让审核者保持清醒，把攻击成功率维持在 0%，直到填充量足够大（约为余量的 2 倍）后才开始上升。防御”买来的是余量，而非不死之身”。

实务上的重新定位：智能体监督不仅是一个分类问题（“哪个动作有风险？”），更是一个资源分配问题。人类注意力是有限的，一个升级常规动作的策略，花掉的正是真正危险的动作所需要的预算。这关系到任何运行编码智能体、CI 集成智能体，或任何由人类大规模审批智能体工具调用的系统。

防御措施

把升级率当作可调参数，而非最大值。 “升级一切”并非安全的默认设置；一旦审核者疲劳成为现实，它可能严格劣于某个中间升级率。请度量守卫的风险–覆盖曲线，而不要凭直觉猜测。
采用感知负荷的升级策略。 抑制对常规、低风险动作的升级，把审核者的注意力留给真正含糊的情形——这既能找到倒 U 形的最优点，又能剥夺攻击者发动淹没式攻击所需的填充负荷。
显式地为审核者注意力做预算。 限制每名审核者每班次的升级数量，轮换审核者，并把升级队列深度作为安全信号来监控——这正是成熟 SOC 早已采用的抗告警疲劳纪律。
不要再假定存在”高风险”的真值标签。 以审核者间一致性进行校准，接受存在争议的中间地带，并用一份你公开记录（而非暗中调参）的代价矩阵来选择运行点。
有意识地选择评分模型。 守卫的质量取决于其背后的模型（论文测得 Sonnet 相对 Haiku 有适度提升）、阈值和攻击组合——因此一旦其中任何一项发生变化，就要重新度量。

现状

这项工作是基于单一的 125 个编码智能体动作数据集的建模与度量研究，用人格代替了人类标注者；倒 U 形与淹没式攻击结果都是从一条有文献依据（但尚未根据真人拟合）的疲劳曲线仿真得来。作者引用了已有成果——疲劳感知的”学习延迟决策”、负荷约束下的代价敏感延迟，以及 SOC 中的告警疲劳攻击——并将其贡献定位为：在智能体动作把关这一场景中，把这些思想统一落地并加以度量。代码与数据均已公开；用真人拟合疲劳曲线的研究被列为未来工作。

监督是有容量的：当更多的审批反而让智能体更不安全

这是什么？

工作原理

为什么重要

防御措施

现状

Sources