DEFENSE LOW NEW

构建安全智能体：以「计划与策略」防御提示注入

NVIDIA 的一篇立场论文（2026 年 3 月 31 日）认为间接提示注入无法仅在模型层面解决，并提出一种「计划与策略」系统架构，约束智能体可以观察和决定的范围。

2026-06-16 // 5 min affects: llm-agents, tool-using-agents, mcp-clients, rag-systems

这是什么？

2026 年 3 月 31 日，来自 NVIDIA 及合作机构的研究者发表了 Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks（arXiv:2603.30016）。这是一篇立场论文，而非新型攻击：其出发点是，间接提示注入——隐藏在被检索的邮件、网页或工具输出中的恶意指令，由 Greshake 等人在 Not what you’ve signed up for（2023）中首次形式化——很难仅靠模型层面来解决。作者转而追问：应当如何构建模型之外的系统，才能让单一注入字符串无法升级为危险动作。

他们的答案是一种基于两个概念——计划（plan）与策略（policy）——的架构，以及关于安全决策应当置于何处的三条设计立场。共同作者之一 Kai Greshake 也参与了最初那篇间接注入论文，这使得该立场尤为引人注目：当初命名这一问题的人，如今主张解决之道在于架构。

工作原理

论文引入了一套分析智能体的术语。计划描述智能体打算做什么：一个有序序列（或更一般地说，一个有向图），其中每一步都是带有输入与输出的具体动作——例如 GET_RECENT_EMAIL(sender=Alice) -> emails; SUMMARIZE(emails) -> summary; DRAFT_REPLY(summary) -> draft。策略描述智能体被允许做什么：一个作用于步骤与执行历史的谓词，将每个动作标记为允许或不允许，从而导出智能体可以合法执行的计划子集。策略的范围从全局静态访问控制规则（「智能体绝不读取用户无权访问的数据」）到依赖上下文的信息流约束。

该参考架构将这些概念连接为彼此独立的模块，而非单一的整体模型：

编排器（Orchestrator）（一个 LLM）将高层任务转化为初始的计划与策略。
**计划/策略审批器（Plan/Policy Approver）**审查该计划与策略、给出反馈，并可在目标含糊时上报给人类。
执行器（Executor）（一个 LLM）将已批准的计划转化为具体动作，例如带参数的工具调用。
**策略执行器（Policy Enforcer）**在每个被提议的动作抵达环境之前，通过基于规则的检查、LLM 裁判或对高风险步骤的人工确认，批准或拦截该动作。
环境（Environment）（API、网络、文件系统）只执行已批准的动作并返回响应，而响应可能触发计划或策略的更新。

关键在于：来自环境的反馈会经过若干检查点（论文称之为「盾牌」），系统在此可以传递原始文本、将其转换或过滤为更安全的表示，或监测异常——从而使不可信的工具输出绝不会悄然变成新的指令。

为何重要

大多数已部署的智能体将上述所有角色合并到单一模型中，由它在同一条无差别的 token 流里完成规划、判定何者被允许并采取行动——这恰恰是间接注入得以奏效的条件，因为模型无法可靠地区分可信指令与不可信数据。通过将计划与策略显式化、并由独立组件来强制执行，该架构缩小了攻击面：被检索邮件中的注入指令也许能污染执行器所提议的动作，但它仍须通过一个与该内容独立配置的策略执行器。作者还警告，当前的基准测试可能制造一种「对实用性与安全性的虚假感受」，因为它们往往孤立地测试模型，而非那个真正会保护生产环境智能体的端到端系统。

防御

这篇论文的贡献本身就是一份防御蓝图，针对构建智能体系统的实践者，归纳为三条立场：

动态且具安全意识的重新规划。 静态的一次性计划在真实环境中会失效。系统应能在上下文演变时同时更新计划与策略——但要将每次更新都视为一次安全事件，而非自由改写。
仅在必须之处使用 LLM，并加以约束。 凡是可以形式化的（访问控制、允许清单）都应交由基于规则的程序化检查处理。把 LLM 的判断保留给真正困难、依赖上下文的决策——当 LLM 确需做出安全决策时，要严格限定它能观察什么、以及它被允许决定什么。受约束的输入与狭窄的决策范围，会让模型更难被操纵。
将人机交互视为核心设计要素。 含糊的情形不可避免，因此人工监督不能事后附加。尚待解决的挑战是：在不牺牲安全性与实用性的前提下，降低人工介入的频率。

这些立场与 2026 年更广泛的防御共识一致——包括 Design Patterns for Securing LLM Agents against Prompt Injections 以及 Meta 的「Agents Rule of Two」——即最小权限、隔离不可信内容、确定性的出口控制，都应属于系统架构，而非仅靠模型权重。

现状

这是一篇社区立场论文（arXiv:2603.30016，发表于 2026 年 3 月 31 日），并非漏洞披露，因此没有补丁或 CVE。作者将该架构描述为未来智能体系统的「骨架」，并呼吁建立评估完整系统而非孤立模型的基准。对于当下部署智能体的团队，实践要点是：将规划、策略与执行相分离；尽可能让策略检查保持程序化；并将任何用于安全决策的模型约束到尽可能狭窄的输入与权限。

构建安全智能体：以「计划与策略」防御提示注入

这是什么？

工作原理

为何重要

防御

现状

Sources