智能体安全是系统问题:把模型当作不可信组件
2026 年 5 月一篇立场论文(Google、UCSD、威斯康星大学麦迪逊分校)主张:智能体安全应从模型内部移到系统层面——把大模型视为不可信组件,并在其外围强制安全不变量。
这是什么?
2026 年 5 月 18 日,来自 Google、加州大学圣地亚哥分校、威斯康星大学麦迪逊分校、Meta FAIR、康奈尔大学与 EmbraceTheRed 的一组研究者发表了题为 Agent Security is a Systems Problem 的立场论文(arXiv:2605.18991,CC BY 4.0 许可)。其论点只有一句话:驱动智能体的 AI 模型必须被当作不可信组件,安全不变量应当在其外围的系统层面强制执行,而非置于模型内部。
这一框架有意区别于当前主流做法——后者把模型当作安全的首要对象,试图通过对齐与训练让其变得鲁棒。作者中不乏对抗式机器学习与系统安全领域的知名学者,他们指出这正是该领域曾经输掉过一次的赌注:在视觉模型的「经典对抗式机器学习」时代,基于模型的防御被一次又一次绕过。该论文被 Adversa AI 2026 年 6 月的智能体安全汇编列为当月值得一读的文章之一。
工作原理
论文将数十年的系统安全原理映射到智能体上。其所依托的标准架构由四部分组成:攻击者无法影响其完整性的可信计算基(TCB)、声明何为允许的安全策略、TCB 内部针对该策略逐一核验每个请求的引用监视器,以及安全边界另一侧的不可信系统。在这一骨架之上,作者重申了智能体经常违反的五条原则:
| 原则 | 其要求 |
|---|---|
| 最小权限 | 组件只获得完成任务所需的权限,不多给 |
| TCB 抗篡改 | 可信内核不能被不可信输入修改 |
| 完全中介 | 每个跨越边界的请求都被核验——没有任何请求能绕过监视器 |
| 安全信息流 | 敏感数据不得泄露到不可信目的地,即便通过侧信道 |
| 人是薄弱环节 | 机制必须假定用户、管理员与开发者都会犯错 |
为了证明这是描述性而非抽象的论断,作者分析了十一个真实、已公开的、针对生产环境智能体的攻击,并将每一个对应到它所违反的原则。这份清单读来像一部 2025–2026 年的事件日志:Microsoft Copilot 数据外泄、Cursor 的「AgentFlayer」、Claude Code 外泄、Devin AI 端口暴露与密钥泄露、ChatGPT 长期记忆「SpAIware」、ChatGPT Operator 提示注入、DeepSeek 账户接管、Terminal DiLLMa、Amp 任意命令执行,以及「AI ClickFix」。在论文的表 1 中,每一例都违反了安全信息流,且多数同时违反两条或更多原则——这正是要点所在:它们不是十一个互不相干的漏洞,而是同一种缺失的架构被观察了十一次。
其中两个详解示例具有启发性,却并不具可操作性。在 ChatGPT 记忆一案中,藏于不可信文档中的间接提示注入把攻击者指令写入了应用本应可信的「记忆」存储(TCB 抗篡改失效),应用无论用户是否请求都可联系任意服务器(最小权限),随后会话数据通过一个被渲染图片的 URL 泄露出去(安全信息流)。在 Claude Code 一案中,注入到代码文件里的指令让智能体读取 .env 文件,并通过列入白名单的 ping 将密钥外带,其 DNS 解析承载了数据——智能体拥有超出任务所需的 shell 访问权,敏感数据进入了不可信的解析器。
论文更难的一半解释了为何这并不容易修复。智能体无法干净地套入经典架构。传统应用是单一用途的,开发者可以在安装时写好固定策略。而智能体接收开放式的自然语言目标,在运行时组合工具,跟随它所发现的链接,并在过程中细化欠规范的任务——因此其策略是模糊、动态、以散文表述的。作者将其比作 Web 上的动态代码加载,浏览器用内容安全策略(CSP)、同源策略、<iframe> 沙箱与子资源完整性(SRI)驯服了它。智能体却一概没有:一条指令的来源难以确定,而像指令层级这类机制的隔离至多是概率性的。更糟的是,用「安全 LLM」充当引用监视器,等于把你想要逃离的问题又请了回来——一个概率性的、没有形式契约、且自身可被攻击的 TCB。
为什么重要
这篇论文是一个框架,而非一剂修复,其价值恰在于此。如果你接受基于模型的指令与数据分离「终将被持续攻击者绕过」——这是作者明确提出的猜想,与致命三要素以及关于提示注入的上下文完整性论证一致——那么只把精力投入到让模型更鲁棒,便是错误的预算分配。杠杆在于模型外围的脚手架。
论文还为防御者提供了共同词汇。「我们的智能体被提示注入了」难以据此行动;而「此次事件违反了最小权限与安全信息流,且我们的引用监视器对 ping 工具未做到完全中介」则准确指出了该构建哪一项控制。十一例攻击的表格,把一年的头条新闻转化为一份可在自家部署上逐项检验的失效模式清单。
论文结尾点名了三个它承认尚未解决的研究难题:(1)可证明的指令与数据分离(智能体版的 W⊕X 内存保护,很可能必要但不充分);(2)可验证的策略生成——把模糊的自然语言意图翻译为确定性监视器可强制执行、且带正确性保证的形式化最小权限策略;以及**(3)信息流控制**——在大模型把多源数据混入上下文之后仍能将其拆解开来。三者今天都尚不可用。任何宣称「免疫提示注入」的说法,都应被视为对现有技术水平的夸大。
防御
论文给出的处方是在模型之外实施纵深防御。具体而言:
-
默认把模型当作不可信。 假定智能体摄入的任何输入——文档、网页、工具输出、日历事件、通知——都可能携带敌意指令,且模型可能照做。在架构上确保被攻陷的模型能被收束,而不致酿成大祸。这与「把智能体当作进程」的立场一致。
-
按任务而非按会话强制最小权限。 Claude Code 的
ping一案就是最小权限失效:在任务并不需要时,智能体仍持有宽泛的 shell 访问权。将工具访问限定在当前子目标,事后即予收回。可参见二选一规则模式作为实用约束。 -
在每个有后果的动作路径上放置确定性引用监视器。 力求完全中介:出站网络、文件写入、shell 执行与密钥读取都应跨越同一个核查点,由其查询显式策略。避免让某个 LLM 成为该决策的唯一裁决者。
-
在出口处加上信息流控制。 十一例攻击大多终结于某个外泄通道。为敏感来源打标签,并阻断或净化从高可信数据流向低可信目的地的流——被渲染图片的 URL、DNS 查询、webhook、出站 HTTP。这也是诸如 OpenAI 数据外泄锁定等厂商举措的精神所在。
-
为人这一薄弱环节而设计。 一个歪曲所批准内容的审批弹窗,或频繁到让用户机械点过的弹窗,都不是控制。把人工复核留给高影响半径的动作,并让提示如实说明将真正发生什么。
-
不要坐等未解决的部分。 可证明的指令/数据分离、可验证的策略生成与完整的信息流控制都是研究难题。在它们落地之前,用粗粒度但确定性的边界来弥补:沙箱化执行、在智能体之下强制执行的网络白名单,以及最小权限凭证。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| 立场论文发表 | arXiv:2605.18991v1 [cs.CR] | 2026-05-18 | Google、UCSD、UW–Madison、Meta FAIR、康奈尔、EmbraceTheRed;CC BY 4.0 |
| 分析的真实攻击 | 论文 §2.2 + 附录 A | 2024–2026 | 11 个代表性案例对应到 5 条原则;全部违反安全信息流 |
| 点名的开放问题 | 论文 §3 | 2026-05-18 | 指令/数据分离、可验证策略生成、信息流控制——均未解决 |
| 社区转载 | Adversa AI 2026 年 6 月汇编 | 2026-06-01 | 归入「文章」:智能体安全是系统问题,而非模型问题 |
要点不是一种新攻击,而是一次重新归类:过去一年的智能体事件并非各大实验室终将训练掉的模型鲁棒性问题,而是该领域早已懂得如何推理的系统安全问题——只是尚未为智能体把工程做完。