AGENTS MEDIUM NEW

SABER：编码智能体即使拒绝恶意提示，仍会在操作安全上失败

2026 年 5 月 31 日的一项基准测试以真实工作区的最终状态、而非提示拒绝来评估 LLM 编码智能体。即便是最优模型，也有超过一半的运行留下有害的违规。

2026-06-11 // 6 min affects: llm-coding-agents, autonomous-agents, agent-runtimes

这是什么？

2026 年 5 月 31 日，Qi Hu 及其合著者发表了 SABER: Benchmarking Operational Safety of LLM Coding Agents in Stateful Project Workspaces（arXiv:2606.01317，cs.SE / cs.CR）。SABER 衡量的是大多数安全基准所忽视的内容：不是模型是否拒绝一条不安全的指令，而是当智能体执行完整个动作序列之后，一个真实的项目工作区处于什么状态。该基准及其执行框架已公开发布。

核心结论令人不安。据作者所述，即便是表现最好的模型，也会在超过 54% 的运行中留下有害的安全违规。拒绝训练——我们通常称之为”对齐”——并不能可靠地保护文件系统、git 历史，或智能体在过程中触及的依赖。

工作原理

经典的 LLM 安全评估是单轮的：你发送一条提示，检查回复是拒绝还是服从。对于编码智能体而言，这一框架就失效了——危害很少是单独一句话，而几乎总是一系列工具调用所累积的副作用。

SABER 把评估单元重新聚焦于环境，而非回复：

提示拒绝基准                      SABER（操作安全）
-----------                       ------------------
输入提示                          真实的智能体项目
   |                                 |
模型回复                          多步动作序列
   |                                 |  （编辑、运行、安装、删除……）
"是否拒绝？" 是/否                工作区最终状态
                                     |
                                  检查：什么被破坏了？
                                     |
                                  按成因对违规分类

智能体被置于一个真实、带状态的项目中，被要求完成正常的开发工作。随后 SABER 检查环境的最终状态，寻找有害结果——破坏性的文件操作、不安全的依赖变更、超出请求范围的副作用——而不是去聊天记录里寻找一句礼貌的拒绝。关键在于，它并不止步于二元的通过/失败：违规会按成因分类，从而能为每个模型构建安全画像，而非一个单一数字。作者指出，不同模型之间的画像差异明显，因此”哪个智能体最安全”取决于你最在意哪一类错误。

这里不需要任何漏洞利用或攻击载荷。SABER 中的损害来自普通任务执行的出错，这恰恰使它成为一把有用的防御标尺，而非一种攻击技术。

为何重要

编码智能体如今以真实权限运行：它们编辑源代码、执行 shell 命令、安装软件包并向仓库提交，且每一步往往只有有限的人工审查。OWASP Top 10 for Agentic Applications（2026）正是把这类风险——过度自主与不安全的工具使用——列在其清单的前列。

SABER 的贡献在于表明：一个模型可以彬彬有礼——拒绝每一条明显恶意的提示——却仍然有一半以上的几率通过普通的操作失误破坏工作区。如果你的风险模型假设”智能体拒绝了坏东西，所以我们是安全的”，那你衡量的就是错误的边界。54%+ 这一数字是在精心构造的测试集上的基准结果，并非生产事故率，但方向是清晰的：拒绝行为与操作安全是不同的属性，而当前的对齐主要优化的是前者。

防御

该基准是一种测量工具，但它直接指向已被充分确立的缓解措施。把智能体的运行时——而非它的良好意图——当作控制面：

工具层最小权限。 将文件系统、网络和 shell 访问限定在任务的严格范围内。一个无法在工作目录之外执行 rm -rf 的智能体，无论如何推理，都无法留下那一类违规。
沙箱化工作区。 在一次性的容器或 worktree 中运行智能体会话，使被破坏的最终状态被丢弃、而非合并。Design Patterns for Securing LLM Agents（2025 年 6 月）的工作提出了相同的架构论点：约束智能体能做什么，而不是信任它会规矩行事。
对不可逆效果设卡。 对破坏性或超范围的操作——删除、强制推送、移除依赖、访问密钥——在效果落点而非提示处，要求显式的人工批准。
以最终状态而非记录来评估。 为你部署的每个智能体在 CI 中采用操作安全测试（SABER 式），并随时间跟踪按成因划分的违规画像，而非一个单一的拒绝分数。
保留审计轨迹。 记录完整的动作序列，使有害的最终状态能够追溯到造成它的那一步并回滚。

状态

项目	详情
发表	arXiv:2606.01317，2026 年 5 月 31 日提交
类型	防御性基准 / 评估（cs.SE、cs.CR）
关键发现	最佳被评估模型的有害安全违规率 > 54%
代码	公开可用——github.com/sssr-lab/saber
可操作的漏洞利用	无——操作安全测量，并非攻击

注：以上数字与日期取自该论文于 2026 年 5 月 31 日在 arXiv 上发布的摘要。此处略去具体模型名称，因为摘要未予披露；完整评估集合请参阅论文。

SABER：编码智能体即使拒绝恶意提示，仍会在操作安全上失败

这是什么？

工作原理

为何重要

防御

状态

Sources