系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

迈向安全的 LLM 智能体:一篇综述 247 篇论文的 SoK,把智能体安全重构为系统问题

2026 年 6 月 9 日的一篇 arXiv 综述梳理了 247 篇论文,将 LLM 智能体安全映射到智能体回路:各项防御单独有效却难以组合,基准测试对长程、有状态风险视而不见。

2026-06-18 // 6 min affects: llm-agents, tool-use, multi-agent-systems, coding-agents, web-agents

这是什么?

Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation 是一篇知识系统化(SoK)综述,于 2026 年 6 月 9 日发布在 arXiv(arXiv:2606.10749),作者为凌宇辰、余胜成、陈振宇、方春融(南京大学与慕尼黑工业大学),面向 ACM TOSEM。它将 2023 年 1 月至 2026 年 4 月 27 日间发表的 247 篇论文综合为一幅可审计、反映该领域真实面貌的地图。

其核心论点正是本站反复强调的:一旦语言模型被接入一个会规划、调用工具、保存记忆并作用于外部世界的回路,安全就不再是不安全文本的问题,而成为一个软件与系统问题——信任边界、被委派的权限、持久状态。这篇综述的价值不在于某个孤立攻击,而在于它绘制的地图,以及这张地图所暴露出的空白。

工作原理

作者通过一条可审计的混合流程构建语料库——在六个数据库中检索、一个受限的 LLM 辅助扩展步骤(用于扩大召回,绝非纳入裁决者)以及引文滚雪球——随后对每篇论文进行人工编码。一套 PRISMA 式流程将 275 条经审计的记录归并为规范化后的 247 篇。每篇论文都按智能体回路的各阶段打标签:输入、规划、决策、工具执行、输出、记忆/状态、监控与多智能体协调。

这条生命周期视角正是其贡献所在。综述不是孤立地罗列攻击,而是追踪不可信信息如何变成控制决策、该决策如何与被委派的权限相遇,以及状态的持久性如何随时间改变系统的安全属性。四个研究问题构成了综合框架:如何对智能体安全建模(RQ1)、哪些威胁面占主导(RQ2)、存在哪些防御及其代价(RQ3)、以及如何评估安全主张(RQ4)。

语料库本身就讲述了一条轨迹。它从 2023 年的 3 篇增长到 2024 年的 42 篇、2025 年的 121 篇,到 2026 年 4 月 27 日又收录 81 篇——已占总数的三分之一。而 68% 的语料是 arXiv 预印本,仅有少数发表于 NDSS、CCS 或 ICSE。该领域增长迅速,却仍处于前标准化阶段:术语、威胁模型与评估协议尚未定型。

为什么重要

有三个发现值得带入设计评审。

第一,实证重心仍是提示注入与由工具介导的控制流劫持——研究和基准测试最多的攻击面。但综述指出,持久状态污染(被投毒的记忆、长时上下文)与多智能体传播才是真实部署所面临、而文献综合不足的上升中隐患。

第二,**防御难以组合。**单独来看,护栏、权限控制、隔离与溯源跟踪各自有效。叠加起来却无法干净相加:它们保护不同资产、假设不同信任模型,综述未发现任何可直接拼装的收敛、可组合安全栈。某项防御的良好结果几乎说明不了整体。

第三,**基准测试衡量了错误的窗口。**多数仍在受限的单轮环境中报告即时攻击成功率,使长程行为、有状态的记忆/协调风险以及权限敏感动作被低估——且很少同时衡量安全性、效用、延迟与成本。在基准中看似强健的防御,在有状态的部署中仍可能脆弱。

防御

综述自身的处方是架构性的,可归纳为四根工程支柱,可用来检验任何设计。

**让信任边界显式化。**将工具输出、检索到的文档、记忆条目以及智能体间消息当作不可信数据,而非指令。模型自身无法可靠地区分二者,因此边界必须存在于系统中,与指令层级spotlighting 一脉相承。

**施加有原则的权限控制。**将每次工具调用限定到最小权限、默认拒绝,并把能力绑定到任务而非会话。只有当被劫持的步骤仍持有广泛权限时,控制流劫持才会升级为真实危害。

**以溯源管理状态。**持久记忆与长上下文如今已是攻击面。追踪每个存储项的来源、对写入加以把关,并把被污染的记忆条目视为能左右未来决策,而不仅是当前这一轮。

**为部署而评估,而非为演示。**选择(或构建)能锻炼长程、有状态记忆与协调的基准,并在攻击成功率之外报告效用与成本。由于防御并非免费组合,请端到端地测试你所交付的整套栈——而非孤立地测试每个控制项。OWASP 的智能体风险分类法是检验覆盖面的有用参照。

状态

项目参考日期备注
综述(SoK)arXiv:2606.10749v12026-06-09生命周期 / 系统框架,ACM TOSEM
语料规模247 篇论文2023-01 → 2026-04-27275 审计 → 251 保留 → 247 规范化
增长3 → 42 → 121 篇2023 / 2024 / 2025至 2026-04-27 +81(约 33%)
会议/期刊分布68% arXiv 预印本领域仍前标准化
主导攻击面提示注入、控制流劫持研究/基准最多
新兴攻击面状态污染、多智能体传播综合不足
配套网站LLMAgentSecuritySurvey2026可浏览语料库

要点不是一种新攻击,而是一种纪律:安全的 LLM 智能体需要显式的信任边界、有原则的权限控制、带溯源的状态,以及与智能体真实部署方式相匹配的评估——综述坦承,该领域尚不具备能同时兑现这四点的安全栈。

Sources