系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

智能体攻击究竟从哪里进入:一份基于 247 篇论文的威胁面地图

2026 年 6 月一项汇总 247 篇论文的研究测量了 LLM 智能体攻击的落点。用户提示只是众多攻击面之一——真正占主导的是网页内容、工具输出等中介通道。

2026-06-18 // 7 min affects: llm-agents, tool-using-agents, web-agents, coding-agents, multi-agent-systems

这是什么?

2026 年 6 月,一篇题为 Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation(arXiv:2606.10749)的知识系统化(SoK)论文发布。它以基于生命周期、面向系统的框架汇总了 247 篇论文,并做了大多数威胁清单不会做的事:统计攻击究竟从哪里进入智能体的执行循环。其成果是一份对 2026 年年中智能体攻击面的量化地图,而非又一份攻击名称分类表。

对防御者而言,核心结论纠正了一种直觉。人们本能地把用户提示视为危险输入。但语料库表明,用户提示只是众多攻击面之一,更具代表性的风险来自中介通道:智能体浏览的网页、它所调用工具返回的输出,以及检索(retrieval)引入的文档。

这是对研究关注度的一次快照,而非对所有真实风险的最终排名。但这种关注度本身就有价值:它指出了该领域认定的结构性弱点所在。

工作原理

该研究围绕三个相互作用的属性来组织智能体安全:信息流被委派的权限持久状态。它不仅问智能体看到了什么输入,更问因为看到了它,智能体现在被允许做什么。攻击因此按其进入循环的入口点以及所利用的状态转换来定位。

当语料库按威胁面编码时,分布很具体(一篇论文可能涉及多个攻击面):

威胁面                    论文数      含义
──────────────────        ──────      ─────────────────────────────────
用户提示                  82          来自用户的直接指令
网页内容                  55          浏览时抓取的页面
工具输出                  54          被调用工具/API 返回的结果
检索内容                  37          来自 RAG / 检索索引的证据
文件 / 代码               >=25        被读取、执行或修改的本地工件
规划循环                  >=25        中间推理 / 轨迹
记忆 / 草稿区             >=25        智能体为后续保留的状态
智能体间通道              >=25        智能体之间传递的消息

「用户提示」是最频繁的攻击面,达 82 篇——但网页内容(55)、工具输出(54)和检索内容(37)合在一起,描绘出一个大得多、且中介化的攻击面。这些通道承载与任务相关、却不具权威的内容:智能体把它当作证据摄入,随后又把其中嵌入的指令当作可执行命令。这就是核心缺陷——数据与控制之间、以及低权威观测与高权威指令之间分离的丧失。

攻击家族的计数印证了同样的形态。在威胁模型编码中,提示注入出现在 142 篇论文中,间接提示注入出现在 86 篇中。按部署场景细分:网页浏览中提示注入出现 71 次、间接注入 44 次;软件工程智能体则为 32 次和 16 次。在这批文献中,提示注入并非众多攻击之一——它是不可信内容转化为危险控制的主导机制。这与从业者在 2026 年 6 月独立报告的情况一致:提示注入仍是生产环境中大多数智能体故障的根源。

该研究的第二个贡献,是把最危险的事件呈现为状态转换而非组件。危害通常发生在:不可信内容被重新解读为规划约束时,临时计划变为已提交的行动时,或被存储的轨迹日后被复用为可信上下文时。这也是为何记忆投毒与多智能体传染被标记为新兴前沿——它们是同一控制流问题的延迟传播形态。

为何重要

三点具体启示。

该领域年轻且以预印本为主:请校准你的信心。 语料库从 2023 年的 3 篇增长到 2024 年的 42 篇、2025 年的 121 篇,到 2026 年 4 月 27 日又新增 81 篇(占总量 32.79%)。arXiv 占 169 篇(68.42%)。术语、威胁模型与评估协议仍在变动。请把每条论断当作有日期、有版本的观测,而非已确立的结论——这正是该研究本身所倡导的纪律。

证据集中于单智能体,但多智能体风险正在上升。 单智能体系统占 200 篇(80.97%);多智能体系统占 47 篇(19.03%)。多智能体占比从 2024 年的 9.52% 升至 2025 年的 23.97%。如果你的路线图涉及会向其他智能体委派或传递消息的智能体,那么你正进入当前证据基础覆盖最少的那部分攻击面——智能体间通道、协调失败,以及恶意指令在智能体之间的传播。

防御无法叠加组合,基准也漏掉了难点。 该研究发现,当前防御是有用的构件,但组合性很弱;现有基准对长时程、有状态、对部署敏感的风险覆盖不足。这在实践中意味着:在单轮注入基准上拿到漂亮分数,几乎说明不了一个有状态、用工具、多步骤的智能体是否扛得住。

防御

该研究的处方可直接转化为一份架构检查清单。这些都不是需要恐惧的新型漏洞,而是需要构建的边界。

  1. 默认把中介通道视为不可信。 网页内容、工具输出和检索文档承载的是数据,而非指令。在它们到达规划上下文之前,剥离或隔离其中类指令的内容,绝不让被检索或被浏览的文本悄无声息地以指令身份重新进入循环。

  2. 强制显式的指令层级与来源合法性。 结构性缺陷在于智能体把低权威观测当作高权威命令。按来源(用户、工具、网页、记忆)为每个片段打标签,并让模型策略以该标签为条件,使「来源」——而不仅是「内容」——决定什么可被执行。

  3. 把权限控制放在行动边界上。 由于智能体以攻击者并不拥有的被委派权限行事,持久的检查点在工具执行处:按行动进行能力校验、按工具实行最小权限、对高后果行动要求人工确认。这约束了危险的计划到行动转换,而非试图把每个输入都彻底净化干净。

  4. 让持久状态具备来源意识。 记忆与草稿区是一条延迟的控制流通道:今天写入的投毒内容,明天可能被当作「可信」上下文取回。记录每段记忆的来源,让其过期或重新校验,绝不自动把存储的轨迹提升为可信指令。

  5. 警惕「致命三要素」。 经典的高风险组合——可访问私有数据、暴露于不可信内容、具备对外通信路径——仍是应当避免或严格管控的配置,正如 Simon Willison 所阐述。这份 247 篇论文的地图,实质上就是该三要素如何跨各攻击面被利用的详尽记录。

  6. 以你实际运行的部署形态来评估。 单轮注入分数无法预测多步骤、有状态或多智能体的行为。请显式测试长时程轨迹、记忆复用与智能体间传播,因为研究指出,无论是防御还是基准,那里都最薄弱。

状态

项目参考日期备注
Toward Secure LLM Agents(SoK)arXiv 2606.107492026-06247 篇论文;生命周期 + 系统框架
语料增长同上2023–20263 -> 42 -> 121 篇;至 2026-04-27 新增 81 篇
按攻击面计数同上2026-06用户提示 82,网页 55,工具输出 54,检索 37
按攻击家族计数同上2026-06提示注入 142,间接 86
多智能体占比同上2024-20269.52% -> 23.97% -> 17.28%(部分)
生产环境佐证Help Net Security / OWASP2026-06-11提示注入仍是首要根源

实践教训不是智能体不可用,而是危险输入很少是用户提示。一旦模型开始浏览、调用工具、检索、记忆并与其他智能体对话,这些通道中的每一条都是入口——真正重要的边界不是「这段文本是否恶意」,而是「智能体是否被允许据其行动」。请为状态转换而设计,而不只是为输入而设计。

Sources