NIST 证明:任何有限护栏都挡不住所有越狱
一位 NIST 科学家借助哥德尔不完备性逻辑证明:任何有限的 AI 护栏集合都能被某个提示绕过——这是持续监测与更新安全模型的论据。
这是什么?
2026 年 6 月 9 日,美国国家标准与技术研究院(NIST)发布新闻稿,介绍了高级科学家、对抗性机器学习专家 Apostol Vassilev 的一项同行评审成果。在论文 《Robust AI Security and Alignment: A Sisyphean Endeavor?》(IEEE Security & Privacy,2026 年 5 月,DOI 10.1109/MSEC.2026.3678214)中,Vassilev 给出数学证明:没有任何有限的护栏集合能够普遍稳健地抵御对抗性提示。对于任何固定的安全规则集合,总存在某个提示能让模型无视这些规则——剩下的只是把它找出来。
这既非漏洞披露,也没有可用的攻击载荷。它是对一种防御思路的结构性、可证明的限制——而业界很大一部分仍把这种思路当作一次性可解决的问题来对待。我们报道它,是因为该结论重新定义了团队应如何分配安全投入,也因为它为一种此前仅靠经验论据支持的转向奠定了严谨基础——包括 OWASP 提出的、防御方应当以机器速度遏制提示注入而非等待”修复”的主张。
工作原理
论证延伸了 库尔特·哥德尔 1931 年发表的不完备性定理。哥德尔证明:任何建立在有限公理之上的一致形式系统,都无法证明其中可表达的所有真命题;你可以添加公理来填补缺口,但每次添加都会重新引出同样的问题。Vassilev 把这一点映射到 AI 安全:AI 设计者编写的护栏正是这样一个有限规则集合,因此总会存在规则未覆盖的某个输入。
LLM 的两项特性使这一缺口不仅停留在理论上,而是可被实际利用:
特性 对护栏的影响
------------------------------ --------------------------------------------
自然语言输入 针对有限规则集合的合规检查"无限模糊"——
有害意图能以无穷多种方式藏在明文里。
指令与数据共用同一通道 模型在可信规则与不可信输入之间没有可靠的
内部边界,因此输入可能变成指令。
关键在于:该证明是存在性结论,而非操作配方。它表明对任何固定防御都存在一个可绕过的提示,但并未给攻击者任何构造方法。在 Vassilev 的框架下,这会迫使对手转向 类似零日漏洞的发现 ——去寻找别人尚不知晓的弱点——而非复用已公开的技术。这与反注入封装层防御三难困境背后的结构性事实相同,也是为什么追求可证明护栏的方法选择约束智能体能做什么,而不是承诺模型永不被骗。
为什么重要
这一结论给”一劳永逸”的安全模型划下底线:上线模型、加挂分类器、宣布安全问题已解决。如果完整且固定的防御在数学上不可能,那么任何”对所有对抗性提示都稳健”的说法都因构造而虚假;静态护栏集合只是一张快照,会随着攻击者的探测而退化。
经验性发现也指向同一方向。Help Net Security 的报道引用斯坦福可信 AI 研究实验室的结论:模型层护栏单独使用并不充分——微调攻击在 72% 的情况下绕过了 Claude Haiku,在 57% 的情况下绕过了 GPT-4o——这与看似无害的微调会削弱安全性这一更广泛的模式相呼应。提示注入位居 OWASP 2025 LLM Top 10 之首,正是因为模型难以区分指令与数据。该证明解释了这一切为何并非暂时性的工程缺陷。
防御
Vassilev 给出的处方不是绝望,而是模型的转变——从寻求永久修复,转向 持续监测与更新 的姿态,包含三个要素:
- **持续红队。**组建团队(及自动化框架),抢在攻击者之前不断挖掘新的对抗性提示。这里的经济学偏向速度——参见智能体红队如何把数周压缩为数小时。
- **持续加固。**针对每个新发现的提示更新护栏,并将对抗性测试套件接入 CI/CD,使模型替换、提示改动和智能体重配置都能自动重跑攻击套件。
- **运营韧性。**假定漏洞终将命中。优先收敛影响半径、快速恢复——最小化工具权限、使用临时凭据、运行时遏制,而非事后查日志。
- **超越固定规则。**将输入/输出过滤与表征层或行为层信号相结合,例如基于内部状态的越狱检测,并接受每一层只是抬高成本、而非保证全覆盖。
- **设定诚实预期。**Vassilev 明确的目标是一种经济均衡:让发现新漏洞的成本超过攻击者愿意付出的代价。这是部分且持续的安全,而非终点。
状态
| 项目 | 详情 |
|---|---|
| 作者 | Apostol Vassilev,NIST 高级科学家 |
| 论文 | 《Robust AI Security and Alignment: A Sisyphean Endeavor?》,IEEE Security & Privacy,2026 年 5 月(DOI 10.1109/MSEC.2026.3678214) |
| NIST 新闻稿 | 2026 年 6 月 9 日 |
| 媒体报道 | Help Net Security,2026 年 6 月 10 日 |
| 性质 | 数学证明(基于哥德尔)——无攻击载荷、无攻击方法 |
| 要点 | 固定护栏无法普遍稳健;应采用持续监测与更新 |
持久的教训是:AI 安全如同哥德尔的数学,没有一个有限公理集合能将其彻底封闭。护栏仍然值得构建——它们抬高了攻击者的成本——但应被视为需要维护的过程,而非可以完工的边界。诚实的目标是让攻击在经济上不划算,然后永不停步。
Sources
- → https://www.nist.gov/news-events/news/2026/06/nist-mathematical-proof-supports-transition-continuous-monitor-and-update
- → https://www.helpnetsecurity.com/2026/06/10/broken-ai-guardrails-research/
- → https://doi.org/10.1109/MSEC.2026.3678214
- → https://techxplore.com/news/2026-06-mathematical-proof-reveals-ai-guardrails.html