RESEARCH MEDIUM NEW

NIST 证明：任何有限护栏都挡不住所有越狱

一位 NIST 科学家借助哥德尔不完备性逻辑证明：任何有限的 AI 护栏集合都能被某个提示绕过——这是持续监测与更新安全模型的论据。

2026-06-16 // 6 min affects: llm-guardrails, content-safety-classifiers, llm-agents

这是什么？

2026 年 6 月 9 日，美国国家标准与技术研究院（NIST）发布新闻稿，介绍了高级科学家、对抗性机器学习专家 Apostol Vassilev 的一项同行评审成果。在论文 《Robust AI Security and Alignment: A Sisyphean Endeavor?》（IEEE Security & Privacy，2026 年 5 月，DOI 10.1109/MSEC.2026.3678214）中，Vassilev 给出数学证明：没有任何有限的护栏集合能够普遍稳健地抵御对抗性提示。对于任何固定的安全规则集合，总存在某个提示能让模型无视这些规则——剩下的只是把它找出来。

这既非漏洞披露，也没有可用的攻击载荷。它是对一种防御思路的结构性、可证明的限制——而业界很大一部分仍把这种思路当作一次性可解决的问题来对待。我们报道它，是因为该结论重新定义了团队应如何分配安全投入，也因为它为一种此前仅靠经验论据支持的转向奠定了严谨基础——包括 OWASP 提出的、防御方应当以机器速度遏制提示注入而非等待”修复”的主张。

工作原理

论证延伸了 库尔特·哥德尔 1931 年发表的不完备性定理。哥德尔证明：任何建立在有限公理之上的一致形式系统，都无法证明其中可表达的所有真命题；你可以添加公理来填补缺口，但每次添加都会重新引出同样的问题。Vassilev 把这一点映射到 AI 安全：AI 设计者编写的护栏正是这样一个有限规则集合，因此总会存在规则未覆盖的某个输入。

LLM 的两项特性使这一缺口不仅停留在理论上，而是可被实际利用：

特性                            对护栏的影响
------------------------------  --------------------------------------------
自然语言输入                    针对有限规则集合的合规检查"无限模糊"——
                                有害意图能以无穷多种方式藏在明文里。

指令与数据共用同一通道          模型在可信规则与不可信输入之间没有可靠的
                                内部边界，因此输入可能变成指令。

关键在于：该证明是存在性结论，而非操作配方。它表明对任何固定防御都存在一个可绕过的提示，但并未给攻击者任何构造方法。在 Vassilev 的框架下，这会迫使对手转向 类似零日漏洞的发现 ——去寻找别人尚不知晓的弱点——而非复用已公开的技术。这与反注入封装层防御三难困境背后的结构性事实相同，也是为什么追求可证明护栏的方法选择约束智能体能做什么，而不是承诺模型永不被骗。

为什么重要

这一结论给”一劳永逸”的安全模型划下底线：上线模型、加挂分类器、宣布安全问题已解决。如果完整且固定的防御在数学上不可能，那么任何”对所有对抗性提示都稳健”的说法都因构造而虚假；静态护栏集合只是一张快照，会随着攻击者的探测而退化。

经验性发现也指向同一方向。Help Net Security 的报道引用斯坦福可信 AI 研究实验室的结论：模型层护栏单独使用并不充分——微调攻击在 72% 的情况下绕过了 Claude Haiku，在 57% 的情况下绕过了 GPT-4o——这与看似无害的微调会削弱安全性这一更广泛的模式相呼应。提示注入位居 OWASP 2025 LLM Top 10 之首，正是因为模型难以区分指令与数据。该证明解释了这一切为何并非暂时性的工程缺陷。

防御

Vassilev 给出的处方不是绝望，而是模型的转变——从寻求永久修复，转向 持续监测与更新 的姿态，包含三个要素：

**持续红队。**组建团队（及自动化框架），抢在攻击者之前不断挖掘新的对抗性提示。这里的经济学偏向速度——参见智能体红队如何把数周压缩为数小时。
**持续加固。**针对每个新发现的提示更新护栏，并将对抗性测试套件接入 CI/CD，使模型替换、提示改动和智能体重配置都能自动重跑攻击套件。
**运营韧性。**假定漏洞终将命中。优先收敛影响半径、快速恢复——最小化工具权限、使用临时凭据、运行时遏制，而非事后查日志。
**超越固定规则。**将输入/输出过滤与表征层或行为层信号相结合，例如基于内部状态的越狱检测，并接受每一层只是抬高成本、而非保证全覆盖。
**设定诚实预期。**Vassilev 明确的目标是一种经济均衡：让发现新漏洞的成本超过攻击者愿意付出的代价。这是部分且持续的安全，而非终点。

状态

项目	详情
作者	Apostol Vassilev，NIST 高级科学家
论文	《Robust AI Security and Alignment: A Sisyphean Endeavor?》，IEEE Security & Privacy，2026 年 5 月（DOI 10.1109/MSEC.2026.3678214）
NIST 新闻稿	2026 年 6 月 9 日
媒体报道	Help Net Security，2026 年 6 月 10 日
性质	数学证明（基于哥德尔）——无攻击载荷、无攻击方法
要点	固定护栏无法普遍稳健；应采用持续监测与更新

持久的教训是：AI 安全如同哥德尔的数学，没有一个有限公理集合能将其彻底封闭。护栏仍然值得构建——它们抬高了攻击者的成本——但应被视为需要维护的过程，而非可以完工的边界。诚实的目标是让攻击在经济上不划算，然后永不停步。

NIST 证明：任何有限护栏都挡不住所有越狱

这是什么？

工作原理

为什么重要

防御

状态

Sources