推理扩展型拒绝服务:当 AI 护栏成为攻击面
2026 年 6 月的一篇论文表明,单个投毒文档即可让基于推理的 AI 护栏陷入无尽的思考循环,使共享智能体工作流减速最高达 148 倍。攻击目标是可用性,而非完整性。
这是什么?
2026 年 6 月 15 日,CSO Online 报道了来自香港科技大学及合作者的一篇新论文(arXiv 2606.14517),描述了一种**推理扩展型拒绝服务(reasoning-extension DoS)**攻击。攻击者不再尝试绕过 AI 智能体的安全层,而是将其反过来加以利用:单个投毒文档让基于推理的护栏陷入持续的”思考”循环,不断消耗时间与算力,直到护栏——以及依赖它的智能体——彻底停摆。
关键的视角转变在于:这种攻击针对的是可用性,而非完整性。迄今为止大多数 LLM 安全研究——提示注入、越狱、数据外泄——都是让模型产生错误输出。而这里是让安全检查变得极其缓慢,从而使系统无法使用。正如研究者所言:“护栏推理越强,它推理的时间就越长。“
工作原理
基于推理的护栏本身就是 LLM。论文中提到的”推理型”安全分类器会在允许智能体继续之前,检查每一个候选输入或动作,并”思考”它是否安全。正是这种审议过程构成了漏洞。
攻击在文档、网页或其他不可信输入中植入某种内容,它并不试图越狱护栏,而只是诱导护栏的推理过程不断扩张:更多步骤、更多自我检查、更多 token,才能给出裁决。由于恶意输入通过常规数据通道进入,它抵达护栏的方式与任何合法文档别无二致。
正常流程: 不可信文档 --> 护栏简短推理 --> 裁决 --> 智能体继续
遭受攻击: 投毒文档 --> 护栏推理……再推理……再推理 --> 停滞
此处不复现任何可利用的载荷;重点在于机制本身。研究者在四个广泛使用的智能体框架上测量了减速幅度:
| 框架 | 报告的减速幅度 |
|---|---|
| LangGraph | 148 倍 |
| BrowserGym | 131 倍 |
| OpenHands | 36.3 倍 |
| OSWorld | 18 倍 |
有两项发现使其远超单个智能体层面的困扰。其一,该技术可迁移:为某个开源模型设计的提示在八个不同的 LLM 家族上同样有效,因此攻击者无需详细了解某个特定的专有护栏。其二,在共享部署中,“单个投毒文档即可使共享护栏基础设施饱和,让同处一处的智能体陷入资源饥饿,并瘫痪整个系统”——将集中式安全控制平面变成单点故障。
为何重要
许多机构正通过将多个智能体路由经过单一共享安全层来整合 AI 治理。这有利于策略一致性,但带来了集中化风险。正如 IDC 的 Sakshi Grover 对 CSO 所言:“护栏型 DoS 无需攻破任何东西;它只需在关键时刻让系统无法使用。“对于自动理赔处理、AI 辅助事件响应或实时欺诈检测等工作流,即便是短暂的资源耗尽也可能造成实质后果。
研究结果中还内含一个令人不安的权衡:安全推理越强,这类 DoS 的攻击面就越大。论文发现,更大的推理模型往往花更多时间去遵循被注入的推理结构,反而放大而非缓解了攻击。“给护栏加更多推理”这一惯常直觉,可能让可用性更糟。
防御
这是一类关于推理型护栏如何部署的弱点,而非可用补丁修复的单一漏洞。论文及同期引用的分析师指出了若干架构层面的缓解措施。
- 将护栏基础设施与智能体算力解耦。 若安全层与其保护的智能体运行在同一资源池上,耗尽它就会拖垮一切。将其隔离,使停滞的护栏能优雅降级,而非让同处一处的负载陷入饥饿。
- 采用分级或异步的护栏检查。 将昂贵的深度推理保留给真正含糊的输入;其余走快速通道。避免在每个动作的关键路径上放置无界的推理步骤。
- 限定推理深度并监控异常。 严格的 token 或步数上限有所帮助,但论文警告它们只会让行为在 fail-open 与 fail-closed 之间切换——因此应配合对异常推理深度或延迟的监控,以标记将护栏推入循环的输入。
- 对安全栈进行面向可用性的红队测试,而不仅是有害输出。 大多数 AI 红队针对的是错误输出。应加入针对护栏本身的资源耗尽与延迟测试。
- 将 AI 控制平面视为关键基础设施。 像对待身份服务和 API 网关那样,施以同样的弹性、可扩展性与容错纪律。请注意,研究者发现传统的提示注入过滤器仍然脆弱:仅靠输入过滤在此并非防御。
状态
| 项目 | 来源 | 日期 | 备注 |
|---|---|---|---|
| 论文发布 | arXiv 2606.14517 | 2026-06 | 针对推理型护栏的推理扩展型 DoS |
| 媒体报道 | CSO Online | 2026-06-15 | 报告减速最高达 148 倍 |
| 测试框架 | LangGraph、BrowserGym、OpenHands、OSWorld | 2026-06 | 减速 18 倍至 148 倍 |
| 跨模型迁移 | 论文 | 2026-06 | 在 8 个 LLM 家族上有效 |
| 厂商回应 | OpenAI、Anthropic | 2026-06-15 | 未立即向 CSO 置评 |
更深层的教训正如 IDC 的 Grover 所总结:AI 治理基础设施正在成为关键基础设施,而”架构选择正变得与模型安全选择同等重要”。一个推理更多的护栏并不会自动更安全:如果能让它无休止地推理,就能让它崩溃。