AGENTS MEDIUM NEW

推理扩展型拒绝服务：当 AI 护栏成为攻击面

2026 年 6 月的一篇论文表明，单个投毒文档即可让基于推理的 AI 护栏陷入无尽的思考循环，使共享智能体工作流减速最高达 148 倍。攻击目标是可用性，而非完整性。

2026-06-17 // 5 min affects: langgraph, browsergym, openhands, osworld, reasoning-based-guardrails

这是什么？

2026 年 6 月 15 日，CSO Online 报道了来自香港科技大学及合作者的一篇新论文（arXiv 2606.14517），描述了一种**推理扩展型拒绝服务（reasoning-extension DoS）**攻击。攻击者不再尝试绕过 AI 智能体的安全层，而是将其反过来加以利用：单个投毒文档让基于推理的护栏陷入持续的”思考”循环，不断消耗时间与算力，直到护栏——以及依赖它的智能体——彻底停摆。

关键的视角转变在于：这种攻击针对的是可用性，而非完整性。迄今为止大多数 LLM 安全研究——提示注入、越狱、数据外泄——都是让模型产生错误输出。而这里是让安全检查变得极其缓慢，从而使系统无法使用。正如研究者所言：“护栏推理越强，它推理的时间就越长。“

工作原理

基于推理的护栏本身就是 LLM。论文中提到的”推理型”安全分类器会在允许智能体继续之前，检查每一个候选输入或动作，并”思考”它是否安全。正是这种审议过程构成了漏洞。

攻击在文档、网页或其他不可信输入中植入某种内容，它并不试图越狱护栏，而只是诱导护栏的推理过程不断扩张：更多步骤、更多自我检查、更多 token，才能给出裁决。由于恶意输入通过常规数据通道进入，它抵达护栏的方式与任何合法文档别无二致。

正常流程：    不可信文档 --> 护栏简短推理 --> 裁决 --> 智能体继续
遭受攻击：    投毒文档   --> 护栏推理……再推理……再推理 --> 停滞

此处不复现任何可利用的载荷；重点在于机制本身。研究者在四个广泛使用的智能体框架上测量了减速幅度：

框架	报告的减速幅度
LangGraph	148 倍
BrowserGym	131 倍
OpenHands	36.3 倍
OSWorld	18 倍

有两项发现使其远超单个智能体层面的困扰。其一，该技术可迁移：为某个开源模型设计的提示在八个不同的 LLM 家族上同样有效，因此攻击者无需详细了解某个特定的专有护栏。其二，在共享部署中，“单个投毒文档即可使共享护栏基础设施饱和，让同处一处的智能体陷入资源饥饿，并瘫痪整个系统”——将集中式安全控制平面变成单点故障。

为何重要

许多机构正通过将多个智能体路由经过单一共享安全层来整合 AI 治理。这有利于策略一致性，但带来了集中化风险。正如 IDC 的 Sakshi Grover 对 CSO 所言：“护栏型 DoS 无需攻破任何东西；它只需在关键时刻让系统无法使用。“对于自动理赔处理、AI 辅助事件响应或实时欺诈检测等工作流，即便是短暂的资源耗尽也可能造成实质后果。

研究结果中还内含一个令人不安的权衡：安全推理越强，这类 DoS 的攻击面就越大。论文发现，更大的推理模型往往花更多时间去遵循被注入的推理结构，反而放大而非缓解了攻击。“给护栏加更多推理”这一惯常直觉，可能让可用性更糟。

防御

这是一类关于推理型护栏如何部署的弱点，而非可用补丁修复的单一漏洞。论文及同期引用的分析师指出了若干架构层面的缓解措施。

将护栏基础设施与智能体算力解耦。 若安全层与其保护的智能体运行在同一资源池上，耗尽它就会拖垮一切。将其隔离，使停滞的护栏能优雅降级，而非让同处一处的负载陷入饥饿。
采用分级或异步的护栏检查。 将昂贵的深度推理保留给真正含糊的输入；其余走快速通道。避免在每个动作的关键路径上放置无界的推理步骤。
限定推理深度并监控异常。 严格的 token 或步数上限有所帮助，但论文警告它们只会让行为在 fail-open 与 fail-closed 之间切换——因此应配合对异常推理深度或延迟的监控，以标记将护栏推入循环的输入。
对安全栈进行面向可用性的红队测试，而不仅是有害输出。 大多数 AI 红队针对的是错误输出。应加入针对护栏本身的资源耗尽与延迟测试。
将 AI 控制平面视为关键基础设施。 像对待身份服务和 API 网关那样，施以同样的弹性、可扩展性与容错纪律。请注意，研究者发现传统的提示注入过滤器仍然脆弱：仅靠输入过滤在此并非防御。

状态

项目	来源	日期	备注
论文发布	arXiv 2606.14517	2026-06	针对推理型护栏的推理扩展型 DoS
媒体报道	CSO Online	2026-06-15	报告减速最高达 148 倍
测试框架	LangGraph、BrowserGym、OpenHands、OSWorld	2026-06	减速 18 倍至 148 倍
跨模型迁移	论文	2026-06	在 8 个 LLM 家族上有效
厂商回应	OpenAI、Anthropic	2026-06-15	未立即向 CSO 置评

更深层的教训正如 IDC 的 Grover 所总结：AI 治理基础设施正在成为关键基础设施，而”架构选择正变得与模型安全选择同等重要”。一个推理更多的护栏并不会自动更安全：如果能让它无休止地推理，就能让它崩溃。

推理扩展型拒绝服务：当 AI 护栏成为攻击面

这是什么？

工作原理

为何重要

防御

状态

Sources