系统:运行中
← 返回所有攻击
AGENTS MEDIUM NEW

推理扩展型拒绝服务:当 AI 护栏成为攻击面

2026 年 6 月的一篇论文表明,单个投毒文档即可让基于推理的 AI 护栏陷入无尽的思考循环,使共享智能体工作流减速最高达 148 倍。攻击目标是可用性,而非完整性。

2026-06-17 // 5 min affects: langgraph, browsergym, openhands, osworld, reasoning-based-guardrails

这是什么?

2026 年 6 月 15 日,CSO Online 报道了来自香港科技大学及合作者的一篇新论文(arXiv 2606.14517),描述了一种**推理扩展型拒绝服务(reasoning-extension DoS)**攻击。攻击者不再尝试绕过 AI 智能体的安全层,而是将其反过来加以利用:单个投毒文档让基于推理的护栏陷入持续的”思考”循环,不断消耗时间与算力,直到护栏——以及依赖它的智能体——彻底停摆。

关键的视角转变在于:这种攻击针对的是可用性,而非完整性。迄今为止大多数 LLM 安全研究——提示注入、越狱、数据外泄——都是让模型产生错误输出。而这里是让安全检查变得极其缓慢,从而使系统无法使用。正如研究者所言:“护栏推理越强,它推理的时间就越长。“

工作原理

基于推理的护栏本身就是 LLM。论文中提到的”推理型”安全分类器会在允许智能体继续之前,检查每一个候选输入或动作,并”思考”它是否安全。正是这种审议过程构成了漏洞。

攻击在文档、网页或其他不可信输入中植入某种内容,它并不试图越狱护栏,而只是诱导护栏的推理过程不断扩张:更多步骤、更多自我检查、更多 token,才能给出裁决。由于恶意输入通过常规数据通道进入,它抵达护栏的方式与任何合法文档别无二致。

正常流程:    不可信文档 --> 护栏简短推理 --> 裁决 --> 智能体继续
遭受攻击:    投毒文档   --> 护栏推理……再推理……再推理 --> 停滞

此处不复现任何可利用的载荷;重点在于机制本身。研究者在四个广泛使用的智能体框架上测量了减速幅度:

框架报告的减速幅度
LangGraph148 倍
BrowserGym131 倍
OpenHands36.3 倍
OSWorld18 倍

有两项发现使其远超单个智能体层面的困扰。其一,该技术可迁移:为某个开源模型设计的提示在八个不同的 LLM 家族上同样有效,因此攻击者无需详细了解某个特定的专有护栏。其二,在共享部署中,“单个投毒文档即可使共享护栏基础设施饱和,让同处一处的智能体陷入资源饥饿,并瘫痪整个系统”——将集中式安全控制平面变成单点故障。

为何重要

许多机构正通过将多个智能体路由经过单一共享安全层来整合 AI 治理。这有利于策略一致性,但带来了集中化风险。正如 IDC 的 Sakshi Grover 对 CSO 所言:“护栏型 DoS 无需攻破任何东西;它只需在关键时刻让系统无法使用。“对于自动理赔处理、AI 辅助事件响应或实时欺诈检测等工作流,即便是短暂的资源耗尽也可能造成实质后果。

研究结果中还内含一个令人不安的权衡:安全推理越强,这类 DoS 的攻击面就越大。论文发现,更大的推理模型往往花更多时间去遵循被注入的推理结构,反而放大而非缓解了攻击。“给护栏加更多推理”这一惯常直觉,可能让可用性更糟。

防御

这是一类关于推理型护栏如何部署的弱点,而非可用补丁修复的单一漏洞。论文及同期引用的分析师指出了若干架构层面的缓解措施。

  • 将护栏基础设施与智能体算力解耦。 若安全层与其保护的智能体运行在同一资源池上,耗尽它就会拖垮一切。将其隔离,使停滞的护栏能优雅降级,而非让同处一处的负载陷入饥饿。
  • 采用分级或异步的护栏检查。 将昂贵的深度推理保留给真正含糊的输入;其余走快速通道。避免在每个动作的关键路径上放置无界的推理步骤。
  • 限定推理深度并监控异常。 严格的 token 或步数上限有所帮助,但论文警告它们只会让行为在 fail-open 与 fail-closed 之间切换——因此应配合对异常推理深度或延迟的监控,以标记将护栏推入循环的输入。
  • 对安全栈进行面向可用性的红队测试,而不仅是有害输出。 大多数 AI 红队针对的是错误输出。应加入针对护栏本身的资源耗尽与延迟测试。
  • 将 AI 控制平面视为关键基础设施。 像对待身份服务和 API 网关那样,施以同样的弹性、可扩展性与容错纪律。请注意,研究者发现传统的提示注入过滤器仍然脆弱:仅靠输入过滤在此并非防御。

状态

项目来源日期备注
论文发布arXiv 2606.145172026-06针对推理型护栏的推理扩展型 DoS
媒体报道CSO Online2026-06-15报告减速最高达 148 倍
测试框架LangGraph、BrowserGym、OpenHands、OSWorld2026-06减速 18 倍至 148 倍
跨模型迁移论文2026-06在 8 个 LLM 家族上有效
厂商回应OpenAI、Anthropic2026-06-15未立即向 CSO 置评

更深层的教训正如 IDC 的 Grover 所总结:AI 治理基础设施正在成为关键基础设施,而”架构选择正变得与模型安全选择同等重要”。一个推理更多的护栏并不会自动更安全:如果能让它无休止地推理,就能让它崩溃。

Sources