RESEARCH MEDIUM NEW

智能体攻击究竟从哪里进入：一份基于 247 篇论文的威胁面地图

2026 年 6 月一项汇总 247 篇论文的研究测量了 LLM 智能体攻击的落点。用户提示只是众多攻击面之一——真正占主导的是网页内容、工具输出等中介通道。

2026-06-18 // 7 min affects: llm-agents, tool-using-agents, web-agents, coding-agents, multi-agent-systems

这是什么？

2026 年 6 月，一篇题为 Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation（arXiv:2606.10749）的知识系统化（SoK）论文发布。它以基于生命周期、面向系统的框架汇总了 247 篇论文，并做了大多数威胁清单不会做的事：统计攻击究竟从哪里进入智能体的执行循环。其成果是一份对 2026 年年中智能体攻击面的量化地图，而非又一份攻击名称分类表。

对防御者而言，核心结论纠正了一种直觉。人们本能地把用户提示视为危险输入。但语料库表明，用户提示只是众多攻击面之一，更具代表性的风险来自中介通道：智能体浏览的网页、它所调用工具返回的输出，以及检索（retrieval）引入的文档。

这是对研究关注度的一次快照，而非对所有真实风险的最终排名。但这种关注度本身就有价值：它指出了该领域认定的结构性弱点所在。

工作原理

该研究围绕三个相互作用的属性来组织智能体安全：信息流、被委派的权限和持久状态。它不仅问智能体看到了什么输入，更问因为看到了它，智能体现在被允许做什么。攻击因此按其进入循环的入口点以及所利用的状态转换来定位。

当语料库按威胁面编码时，分布很具体（一篇论文可能涉及多个攻击面）：

威胁面                    论文数      含义
──────────────────        ──────      ─────────────────────────────────
用户提示                  82          来自用户的直接指令
网页内容                  55          浏览时抓取的页面
工具输出                  54          被调用工具/API 返回的结果
检索内容                  37          来自 RAG / 检索索引的证据
文件 / 代码               >=25        被读取、执行或修改的本地工件
规划循环                  >=25        中间推理 / 轨迹
记忆 / 草稿区             >=25        智能体为后续保留的状态
智能体间通道              >=25        智能体之间传递的消息

「用户提示」是最频繁的攻击面，达 82 篇——但网页内容（55）、工具输出（54）和检索内容（37）合在一起，描绘出一个大得多、且中介化的攻击面。这些通道承载与任务相关、却不具权威的内容：智能体把它当作证据摄入，随后又把其中嵌入的指令当作可执行命令。这就是核心缺陷——数据与控制之间、以及低权威观测与高权威指令之间分离的丧失。

攻击家族的计数印证了同样的形态。在威胁模型编码中，提示注入出现在 142 篇论文中，间接提示注入出现在 86 篇中。按部署场景细分：网页浏览中提示注入出现 71 次、间接注入 44 次；软件工程智能体则为 32 次和 16 次。在这批文献中，提示注入并非众多攻击之一——它是不可信内容转化为危险控制的主导机制。这与从业者在 2026 年 6 月独立报告的情况一致：提示注入仍是生产环境中大多数智能体故障的根源。

该研究的第二个贡献，是把最危险的事件呈现为状态转换而非组件。危害通常发生在：不可信内容被重新解读为规划约束时，临时计划变为已提交的行动时，或被存储的轨迹日后被复用为可信上下文时。这也是为何记忆投毒与多智能体传染被标记为新兴前沿——它们是同一控制流问题的延迟与传播形态。

为何重要

三点具体启示。

该领域年轻且以预印本为主：请校准你的信心。 语料库从 2023 年的 3 篇增长到 2024 年的 42 篇、2025 年的 121 篇，到 2026 年 4 月 27 日又新增 81 篇（占总量 32.79%）。arXiv 占 169 篇（68.42%）。术语、威胁模型与评估协议仍在变动。请把每条论断当作有日期、有版本的观测，而非已确立的结论——这正是该研究本身所倡导的纪律。

证据集中于单智能体，但多智能体风险正在上升。 单智能体系统占 200 篇（80.97%）；多智能体系统占 47 篇（19.03%）。多智能体占比从 2024 年的 9.52% 升至 2025 年的 23.97%。如果你的路线图涉及会向其他智能体委派或传递消息的智能体，那么你正进入当前证据基础覆盖最少的那部分攻击面——智能体间通道、协调失败，以及恶意指令在智能体之间的传播。

防御无法叠加组合，基准也漏掉了难点。 该研究发现，当前防御是有用的构件，但组合性很弱；现有基准对长时程、有状态、对部署敏感的风险覆盖不足。这在实践中意味着：在单轮注入基准上拿到漂亮分数，几乎说明不了一个有状态、用工具、多步骤的智能体是否扛得住。

防御

该研究的处方可直接转化为一份架构检查清单。这些都不是需要恐惧的新型漏洞，而是需要构建的边界。

默认把中介通道视为不可信。 网页内容、工具输出和检索文档承载的是数据，而非指令。在它们到达规划上下文之前，剥离或隔离其中类指令的内容，绝不让被检索或被浏览的文本悄无声息地以指令身份重新进入循环。
强制显式的指令层级与来源合法性。 结构性缺陷在于智能体把低权威观测当作高权威命令。按来源（用户、工具、网页、记忆）为每个片段打标签，并让模型策略以该标签为条件，使「来源」——而不仅是「内容」——决定什么可被执行。
把权限控制放在行动边界上。 由于智能体以攻击者并不拥有的被委派权限行事，持久的检查点在工具执行处：按行动进行能力校验、按工具实行最小权限、对高后果行动要求人工确认。这约束了危险的计划到行动转换，而非试图把每个输入都彻底净化干净。
让持久状态具备来源意识。 记忆与草稿区是一条延迟的控制流通道：今天写入的投毒内容，明天可能被当作「可信」上下文取回。记录每段记忆的来源，让其过期或重新校验，绝不自动把存储的轨迹提升为可信指令。
警惕「致命三要素」。 经典的高风险组合——可访问私有数据、暴露于不可信内容、具备对外通信路径——仍是应当避免或严格管控的配置，正如 Simon Willison 所阐述。这份 247 篇论文的地图，实质上就是该三要素如何跨各攻击面被利用的详尽记录。
以你实际运行的部署形态来评估。 单轮注入分数无法预测多步骤、有状态或多智能体的行为。请显式测试长时程轨迹、记忆复用与智能体间传播，因为研究指出，无论是防御还是基准，那里都最薄弱。

状态

项目	参考	日期	备注
Toward Secure LLM Agents（SoK）	arXiv 2606.10749	2026-06	247 篇论文；生命周期 + 系统框架
语料增长	同上	2023–2026	3 -> 42 -> 121 篇；至 2026-04-27 新增 81 篇
按攻击面计数	同上	2026-06	用户提示 82，网页 55，工具输出 54，检索 37
按攻击家族计数	同上	2026-06	提示注入 142，间接 86
多智能体占比	同上	2024-2026	9.52% -> 23.97% -> 17.28%（部分）
生产环境佐证	Help Net Security / OWASP	2026-06-11	提示注入仍是首要根源

实践教训不是智能体不可用，而是危险输入很少是用户提示。一旦模型开始浏览、调用工具、检索、记忆并与其他智能体对话，这些通道中的每一条都是入口——真正重要的边界不是「这段文本是否恶意」，而是「智能体是否被允许据其行动」。请为状态转换而设计，而不只是为输入而设计。

智能体攻击究竟从哪里进入：一份基于 247 篇论文的威胁面地图

这是什么？

工作原理

为何重要

防御

状态

Sources