系统:运行中
← 返回所有攻击
DEFENSE LOW NEW

构建安全智能体:以「计划与策略」防御提示注入

NVIDIA 的一篇立场论文(2026 年 3 月 31 日)认为间接提示注入无法仅在模型层面解决,并提出一种「计划与策略」系统架构,约束智能体可以观察和决定的范围。

2026-06-16 // 5 min affects: llm-agents, tool-using-agents, mcp-clients, rag-systems

这是什么?

2026 年 3 月 31 日,来自 NVIDIA 及合作机构的研究者发表了 Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks(arXiv:2603.30016)。这是一篇立场论文,而非新型攻击:其出发点是,间接提示注入——隐藏在被检索的邮件、网页或工具输出中的恶意指令,由 Greshake 等人在 Not what you’ve signed up for(2023)中首次形式化——很难仅靠模型层面来解决。作者转而追问:应当如何构建模型之外的系统,才能让单一注入字符串无法升级为危险动作。

他们的答案是一种基于两个概念——计划(plan)与策略(policy)——的架构,以及关于安全决策应当置于何处的三条设计立场。共同作者之一 Kai Greshake 也参与了最初那篇间接注入论文,这使得该立场尤为引人注目:当初命名这一问题的人,如今主张解决之道在于架构。

工作原理

论文引入了一套分析智能体的术语。计划描述智能体打算做什么:一个有序序列(或更一般地说,一个有向图),其中每一步都是带有输入与输出的具体动作——例如 GET_RECENT_EMAIL(sender=Alice) -> emails; SUMMARIZE(emails) -> summary; DRAFT_REPLY(summary) -> draft策略描述智能体被允许做什么:一个作用于步骤与执行历史的谓词,将每个动作标记为允许或不允许,从而导出智能体可以合法执行的计划子集。策略的范围从全局静态访问控制规则(「智能体绝不读取用户无权访问的数据」)到依赖上下文的信息流约束。

该参考架构将这些概念连接为彼此独立的模块,而非单一的整体模型:

  1. 编排器(Orchestrator)(一个 LLM)将高层任务转化为初始的计划与策略。
  2. **计划/策略审批器(Plan/Policy Approver)**审查该计划与策略、给出反馈,并可在目标含糊时上报给人类。
  3. 执行器(Executor)(一个 LLM)将已批准的计划转化为具体动作,例如带参数的工具调用。
  4. **策略执行器(Policy Enforcer)**在每个被提议的动作抵达环境之前,通过基于规则的检查、LLM 裁判或对高风险步骤的人工确认,批准或拦截该动作。
  5. 环境(Environment)(API、网络、文件系统)只执行已批准的动作并返回响应,而响应可能触发计划或策略的更新。

关键在于:来自环境的反馈会经过若干检查点(论文称之为「盾牌」),系统在此可以传递原始文本、将其转换或过滤为更安全的表示,或监测异常——从而使不可信的工具输出绝不会悄然变成新的指令。

为何重要

大多数已部署的智能体将上述所有角色合并到单一模型中,由它在同一条无差别的 token 流里完成规划、判定何者被允许并采取行动——这恰恰是间接注入得以奏效的条件,因为模型无法可靠地区分可信指令与不可信数据。通过将计划与策略显式化、并由独立组件来强制执行,该架构缩小了攻击面:被检索邮件中的注入指令也许能污染执行器所提议的动作,但它仍须通过一个与该内容独立配置的策略执行器。作者还警告,当前的基准测试可能制造一种「对实用性与安全性的虚假感受」,因为它们往往孤立地测试模型,而非那个真正会保护生产环境智能体的端到端系统。

防御

这篇论文的贡献本身就是一份防御蓝图,针对构建智能体系统的实践者,归纳为三条立场:

  • 动态且具安全意识的重新规划。 静态的一次性计划在真实环境中会失效。系统应能在上下文演变时同时更新计划与策略——但要将每次更新都视为一次安全事件,而非自由改写。
  • 仅在必须之处使用 LLM,并加以约束。 凡是可以形式化的(访问控制、允许清单)都应交由基于规则的程序化检查处理。把 LLM 的判断保留给真正困难、依赖上下文的决策——当 LLM 确需做出安全决策时,要严格限定它能观察什么、以及它被允许决定什么。受约束的输入与狭窄的决策范围,会让模型更难被操纵。
  • 将人机交互视为核心设计要素。 含糊的情形不可避免,因此人工监督不能事后附加。尚待解决的挑战是:在不牺牲安全性与实用性的前提下,降低人工介入的频率。

这些立场与 2026 年更广泛的防御共识一致——包括 Design Patterns for Securing LLM Agents against Prompt Injections 以及 Meta 的「Agents Rule of Two」——即最小权限、隔离不可信内容、确定性的出口控制,都应属于系统架构,而非仅靠模型权重。

现状

这是一篇社区立场论文(arXiv:2603.30016,发表于 2026 年 3 月 31 日),并非漏洞披露,因此没有补丁或 CVE。作者将该架构描述为未来智能体系统的「骨架」,并呼吁建立评估完整系统而非孤立模型的基准。对于当下部署智能体的团队,实践要点是:将规划、策略与执行相分离;尽可能让策略检查保持程序化;并将任何用于安全决策的模型约束到尽可能狭窄的输入与权限。

Sources