RESEARCH MEDIUM NEW

迈向安全的 LLM 智能体：一篇综述 247 篇论文的 SoK，把智能体安全重构为系统问题

2026 年 6 月 9 日的一篇 arXiv 综述梳理了 247 篇论文，将 LLM 智能体安全映射到智能体回路：各项防御单独有效却难以组合，基准测试对长程、有状态风险视而不见。

2026-06-18 // 6 min affects: llm-agents, tool-use, multi-agent-systems, coding-agents, web-agents

这是什么？

Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation 是一篇知识系统化（SoK）综述，于 2026 年 6 月 9 日发布在 arXiv（arXiv:2606.10749），作者为凌宇辰、余胜成、陈振宇、方春融（南京大学与慕尼黑工业大学），面向 ACM TOSEM。它将 2023 年 1 月至 2026 年 4 月 27 日间发表的 247 篇论文综合为一幅可审计、反映该领域真实面貌的地图。

其核心论点正是本站反复强调的：一旦语言模型被接入一个会规划、调用工具、保存记忆并作用于外部世界的回路，安全就不再是不安全文本的问题，而成为一个软件与系统问题——信任边界、被委派的权限、持久状态。这篇综述的价值不在于某个孤立攻击，而在于它绘制的地图，以及这张地图所暴露出的空白。

工作原理

作者通过一条可审计的混合流程构建语料库——在六个数据库中检索、一个受限的 LLM 辅助扩展步骤（用于扩大召回，绝非纳入裁决者）以及引文滚雪球——随后对每篇论文进行人工编码。一套 PRISMA 式流程将 275 条经审计的记录归并为规范化后的 247 篇。每篇论文都按智能体回路的各阶段打标签：输入、规划、决策、工具执行、输出、记忆/状态、监控与多智能体协调。

这条生命周期视角正是其贡献所在。综述不是孤立地罗列攻击，而是追踪不可信信息如何变成控制决策、该决策如何与被委派的权限相遇，以及状态的持久性如何随时间改变系统的安全属性。四个研究问题构成了综合框架：如何对智能体安全建模（RQ1）、哪些威胁面占主导（RQ2）、存在哪些防御及其代价（RQ3）、以及如何评估安全主张（RQ4）。

语料库本身就讲述了一条轨迹。它从 2023 年的 3 篇增长到 2024 年的 42 篇、2025 年的 121 篇，到 2026 年 4 月 27 日又收录 81 篇——已占总数的三分之一。而 68% 的语料是 arXiv 预印本，仅有少数发表于 NDSS、CCS 或 ICSE。该领域增长迅速，却仍处于前标准化阶段：术语、威胁模型与评估协议尚未定型。

为什么重要

有三个发现值得带入设计评审。

第一，实证重心仍是提示注入与由工具介导的控制流劫持——研究和基准测试最多的攻击面。但综述指出，持久状态污染（被投毒的记忆、长时上下文）与多智能体传播才是真实部署所面临、而文献综合不足的上升中隐患。

第二，**防御难以组合。**单独来看，护栏、权限控制、隔离与溯源跟踪各自有效。叠加起来却无法干净相加：它们保护不同资产、假设不同信任模型，综述未发现任何可直接拼装的收敛、可组合安全栈。某项防御的良好结果几乎说明不了整体。

第三，**基准测试衡量了错误的窗口。**多数仍在受限的单轮环境中报告即时攻击成功率，使长程行为、有状态的记忆/协调风险以及权限敏感动作被低估——且很少同时衡量安全性、效用、延迟与成本。在基准中看似强健的防御，在有状态的部署中仍可能脆弱。

防御

综述自身的处方是架构性的，可归纳为四根工程支柱，可用来检验任何设计。

**让信任边界显式化。**将工具输出、检索到的文档、记忆条目以及智能体间消息当作不可信数据，而非指令。模型自身无法可靠地区分二者，因此边界必须存在于系统中，与指令层级和 spotlighting 一脉相承。

**施加有原则的权限控制。**将每次工具调用限定到最小权限、默认拒绝，并把能力绑定到任务而非会话。只有当被劫持的步骤仍持有广泛权限时，控制流劫持才会升级为真实危害。

**以溯源管理状态。**持久记忆与长上下文如今已是攻击面。追踪每个存储项的来源、对写入加以把关，并把被污染的记忆条目视为能左右未来决策，而不仅是当前这一轮。

**为部署而评估，而非为演示。**选择（或构建）能锻炼长程、有状态记忆与协调的基准，并在攻击成功率之外报告效用与成本。由于防御并非免费组合，请端到端地测试你所交付的整套栈——而非孤立地测试每个控制项。OWASP 的智能体风险分类法是检验覆盖面的有用参照。

状态

项目	参考	日期	备注
综述（SoK）	arXiv:2606.10749v1	2026-06-09	生命周期 / 系统框架，ACM TOSEM
语料规模	247 篇论文	2023-01 → 2026-04-27	275 审计 → 251 保留 → 247 规范化
增长	3 → 42 → 121 篇	2023 / 2024 / 2025	至 2026-04-27 +81（约 33%）
会议/期刊分布	68% arXiv 预印本	—	领域仍前标准化
主导攻击面	提示注入、控制流劫持	—	研究/基准最多
新兴攻击面	状态污染、多智能体传播	—	综合不足
配套网站	LLMAgentSecuritySurvey	2026	可浏览语料库

要点不是一种新攻击，而是一种纪律：安全的 LLM 智能体需要显式的信任边界、有原则的权限控制、带溯源的状态，以及与智能体真实部署方式相匹配的评估——综述坦承，该领域尚不具备能同时兑现这四点的安全栈。

迈向安全的 LLM 智能体：一篇综述 247 篇论文的 SoK，把智能体安全重构为系统问题

这是什么？

工作原理

为什么重要

防御

状态

Sources