系统:运行中
← 返回所有攻击
AGENTS MEDIUM NEW

SABER:编码智能体即使拒绝恶意提示,仍会在操作安全上失败

2026 年 5 月 31 日的一项基准测试以真实工作区的最终状态、而非提示拒绝来评估 LLM 编码智能体。即便是最优模型,也有超过一半的运行留下有害的违规。

2026-06-11 // 6 min affects: llm-coding-agents, autonomous-agents, agent-runtimes

这是什么?

2026 年 5 月 31 日,Qi Hu 及其合著者发表了 SABER: Benchmarking Operational Safety of LLM Coding Agents in Stateful Project Workspaces(arXiv:2606.01317,cs.SE / cs.CR)。SABER 衡量的是大多数安全基准所忽视的内容:不是模型是否拒绝一条不安全的指令,而是当智能体执行完整个动作序列之后,一个真实的项目工作区处于什么状态。该基准及其执行框架已公开发布

核心结论令人不安。据作者所述,即便是表现最好的模型,也会在超过 54% 的运行中留下有害的安全违规。拒绝训练——我们通常称之为”对齐”——并不能可靠地保护文件系统、git 历史,或智能体在过程中触及的依赖。

工作原理

经典的 LLM 安全评估是单轮的:你发送一条提示,检查回复是拒绝还是服从。对于编码智能体而言,这一框架就失效了——危害很少是单独一句话,而几乎总是一系列工具调用所累积的副作用

SABER 把评估单元重新聚焦于环境,而非回复

提示拒绝基准                      SABER(操作安全)
-----------                       ------------------
输入提示                          真实的智能体项目
   |                                 |
模型回复                          多步动作序列
   |                                 |  (编辑、运行、安装、删除……)
"是否拒绝?" 是/否                工作区最终状态
                                     |
                                  检查:什么被破坏了?
                                     |
                                  按成因对违规分类

智能体被置于一个真实、带状态的项目中,被要求完成正常的开发工作。随后 SABER 检查环境的最终状态,寻找有害结果——破坏性的文件操作、不安全的依赖变更、超出请求范围的副作用——而不是去聊天记录里寻找一句礼貌的拒绝。关键在于,它并不止步于二元的通过/失败:违规会按成因分类,从而能为每个模型构建安全画像,而非一个单一数字。作者指出,不同模型之间的画像差异明显,因此”哪个智能体最安全”取决于你最在意哪一类错误

这里不需要任何漏洞利用或攻击载荷。SABER 中的损害来自普通任务执行的出错,这恰恰使它成为一把有用的防御标尺,而非一种攻击技术。

为何重要

编码智能体如今以真实权限运行:它们编辑源代码、执行 shell 命令、安装软件包并向仓库提交,且每一步往往只有有限的人工审查。OWASP Top 10 for Agentic Applications(2026) 正是把这类风险——过度自主与不安全的工具使用——列在其清单的前列。

SABER 的贡献在于表明:一个模型可以彬彬有礼——拒绝每一条明显恶意的提示——却仍然有一半以上的几率通过普通的操作失误破坏工作区。如果你的风险模型假设”智能体拒绝了坏东西,所以我们是安全的”,那你衡量的就是错误的边界。54%+ 这一数字是在精心构造的测试集上的基准结果,并非生产事故率,但方向是清晰的:拒绝行为与操作安全是不同的属性,而当前的对齐主要优化的是前者。

防御

该基准是一种测量工具,但它直接指向已被充分确立的缓解措施。把智能体的运行时——而非它的良好意图——当作控制面:

  • 工具层最小权限。 将文件系统、网络和 shell 访问限定在任务的严格范围内。一个无法在工作目录之外执行 rm -rf 的智能体,无论如何推理,都无法留下那一类违规。
  • 沙箱化工作区。 在一次性的容器或 worktree 中运行智能体会话,使被破坏的最终状态被丢弃、而非合并。Design Patterns for Securing LLM Agents(2025 年 6 月)的工作提出了相同的架构论点:约束智能体能做什么,而不是信任它会规矩行事。
  • 对不可逆效果设卡。 对破坏性或超范围的操作——删除、强制推送、移除依赖、访问密钥——在效果落点而非提示处,要求显式的人工批准。
  • 以最终状态而非记录来评估。 为你部署的每个智能体在 CI 中采用操作安全测试(SABER 式),并随时间跟踪按成因划分的违规画像,而非一个单一的拒绝分数。
  • 保留审计轨迹。 记录完整的动作序列,使有害的最终状态能够追溯到造成它的那一步并回滚。

状态

项目详情
发表arXiv:2606.01317,2026 年 5 月 31 日提交
类型防御性基准 / 评估(cs.SE、cs.CR)
关键发现最佳被评估模型的有害安全违规率 > 54%
代码公开可用——github.com/sssr-lab/saber
可操作的漏洞利用无——操作安全测量,并非攻击

注:以上数字与日期取自该论文于 2026 年 5 月 31 日在 arXiv 上发布的摘要。此处略去具体模型名称,因为摘要未予披露;完整评估集合请参阅论文。

Sources