系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

智能体与人的安全鸿沟:生产环境部署的与论文研究的

UCLA 团队 2026 年 5 月 23 日发表的论文审计了 59 项学术研究、21 个生产环境智能体系统和 26 个安全插件,发现研究者偏爱的防御方案在生产中部署为零。

2026-05-29 // 7 min affects: llm-agents, mcp-clients, ai-coding-assistants, rag-pipelines, browser-agents

这是什么?

2026 年 5 月 23 日,三位 UCLA 研究者 —— Peiran Wang、Ying Li 和 Yuan Tian —— 发布了 Reframing LLM Agent Security as an Agent–Human Interaction Problem(arXiv:2605.24309)。该论文既不是新的攻击,也不是新的防御方案。它是对 2026 年现场如何防御智能体的系统性审计,截止 2026 年 4 月,覆盖了 59 篇学术论文、21 个生产环境智能体系统以及 26 个安全插件。这是今年发表的、关于智能体安全研究与已部署系统之间差距的最清晰快照之一。

工作机制

Wang 等人观察到,几乎所有生产环境的智能体 —— Claude Code、Cursor、Copilot、Gemini CLI、ChatGPT Agent、Microsoft 365 Copilot、基于 MCP 的助手 —— 都在回路中的某个位置安置了人类。论文将这些 智能体–人类交互(AHI)机制分为五类:

  • 策略规范(Policy specification) —— 用户预先编写规则(“绝不推送到 main”、“禁止网络出站”)。被 21 个生产系统中至少 14 个采用。
  • 运行时审批(Runtime approval) —— 智能体在每次敏感操作前询问”我能执行这条命令 / 发送这封邮件 / 调用这个工具吗?“同样被 21 个系统中 14 个以上采用。
  • 范围配置(Scope configuration) —— 用户选择允许智能体触及的文件、工具、主机或域名白名单。同样占据主导地位。
  • 意图锚定(Intent anchoring) —— 系统在执行前尝试将每个动作绑定到可验证的用户意图。学术界研究密集,但审计中生产部署为零
  • 信任标注(Trust labeling) —— 类似信息流控制,在进入上下文的每个 token 上加信任格或来源标签。同样研究密集,同样生产部署为零

差距非常残酷:实践者真正部署的三类机制学术关注甚少,而研究者偏爱的两类机制尚未跨过任何一款已交付产品的门槛。论文将原因归结为认知负担。信任标注尤其要求用户在与其心智模型不匹配的粒度上推理数据来源 —— 每个 token 加标签,每条数据流被追踪。策略规范和范围配置虽然更粗糙,却与运维人员既有的思维方式一致。

随后作者形式化了主流方案的失效模式。运行时审批扩展到长时智能体会话时,会产生审批疲劳:2026 年的编码智能体一次任务可能触发数十次工具调用,用户要么对每个对话框机械地点确认,要么干脆关闭对话框。作者将此现象列为 2025-2026 年若干间接注入事件的根因:智能体按规矩请求确认,人类按习惯点击”同意”,而该请求的上下文早已被污染。

为什么重要

这种重构对任何部署智能体的团队都有两个实际后果。

其一,它重新定位了设计问题。问题不再是 能否信任 LLM 做决策?,而是 在人类的意图对齐工作流中,LLM 在哪里能以最低风险贡献最大杠杆? 这是一个带有安全后果的 UX 问题,与 Meta 的 Agents Rule of Two 和 Simon Willison 的 lethal trifecta 已经隐含的方向一致:防御是架构性的,而非行为性的。

其二,这解释了为什么许多 论文层面无懈可击 的防御在审计中失败。意图锚定假设用户会以结构化形式表达意图。信任标注假设用户会就标签进行推理。这两个假设都经不起一次真实的编码智能体会话。2025 年 12 月发表的 SoK Trust-Authorization Mismatch in LLM Agent Interactions(arXiv:2512.06914)从另一个角度得出了类似结论:用户以为自己执行的授权模型与智能体实际执行的授权模型经常出现系统性偏差。

防御

论文是描述性的,而非规定性的,但审计结果为 2026 年中期部署智能体的团队提供了一份具体清单:

  • 默认采用范围配置,而非运行时审批。 一个被正确限制范围的智能体可以减少审批提示数量 —— 这是对抗疲劳的唯一办法。
  • 将策略规范视为一等工件。 进行版本控制、代码评审,与智能体一起交付 —— 像对待 IAM 策略那样对待它。
  • 将运行时审批保留给不可逆操作。 数据库写入、资金移动、代码合并、对外发送。其余的应当能由策略提前判定。
  • 不要单独依赖意图锚定或信任标注。 它们是有价值的研究方向,但根据审计,尚未产品化。应将其叠加在三种主流机制之上,而非取而代之。
  • 度量审批疲劳。 记录每次会话的审批数量和点击通过率。95% 的机械点击通过率,比任何分类器输出都更能反映安全状态。

状态

项目日期状态
论文提交(arXiv:2605.24309)2026 年 5 月 23 日公开预印本
生产系统审计2026 年 4 月21 个系统、26 个插件
学术语料2022-202659 篇论文
相关 SoK(Trust-Authorization Mismatch)2025 年 12 月arXiv:2512.06914
行业对 AHI 框架的采纳待定讨论阶段

该论文为预印本,截至撰文之时尚未经过同行评审。其经验性贡献 —— 对 21 个生产系统的审计 —— 是今天对防御者最直接有用的部分,也是在修订中最不可能发生变化的部分。

Sources