RUBAS:用评分量表强化学习为智能体安全提供细粒度奖励信号
2026 年 6 月的一篇论文用四项评分量表(工具使用、参数、回复、有用性)取代二元的拒绝/执行奖励,训练既保持安全又不损失实用性的工具调用智能体。
这是什么?
一篇于 2026 年 6 月 2 日 发布到 arXiv 的预印本(2606.04051)针对一个随着 LLM 演变为工具型智能体而日益核心的训练问题:如何教会智能体在行动时而不仅是说话时保持安全?该论文 RUBAS(Rubric-Based reinforcement learning for Agent Safety),作者为 Xian Qi Loye、Qinglin Su、Zhexin Zhang、Shiyao Cui、Qi Zhu、Fei Mi、Hongning Wang 和 Minlie Huang,认为常见的对齐信号——「拒绝」对「执行」的二元奖励——对于会调用工具、传递参数并在多个步骤中执行真实动作的智能体而言过于粗糙。
这是一项防御性的、训练侧的贡献。其中不含任何利用载荷;它要回答的问题是如何从一开始就构建更难被滥用的智能体。
工作原理
核心思想是不再用单一粗糙的维度来奖励智能体,而是将其行为分解为四个评分维度:
- 工具使用安全性——在此刻调用这个工具,是否是恰当且安全的动作?
- 参数安全性——传给工具的参数是否安全(无破坏性选项、无外泄目标、无注入载荷)?
- 回复安全性——给用户的最终回复是否安全?
- 有用性——智能体是否真正完成了正当任务?
每个维度都表示为一份评分量表(rubric):一份结构化、人类可读的评分指南,而非简单的是/否标签。在强化学习过程中,这些量表会对智能体的完整轨迹——整串工具调用、参数与回复——给出细粒度、可解释的奖励,而不是只评判最后一条消息。这使得训练信号能够区分:一个拒绝了有害任务的智能体,与一个悄悄执行了危险中间动作、却生成看似无害最终回复的智能体。
通过在三个安全维度之外同时对有用性评分,RUBAS 优化的是安全的工具使用,而不陷入过度拒绝。作者报告称,在多个智能体安全基准与多个模型上,RUBAS 相比标准对齐基线提升了安全性,减少了与工具相关的幻觉,并保持了有竞争力的实用性。(论文将其呈现为相对于基线的相对改进;具体分数见预印本。)
为何重要
大多数已发表的智能体安全评测评判的是结果:智能体是否拒绝了有害请求?像 AgentHarm(2410.09024)和 Agent Security Bench(2410.02644)这样的基准反复表明,前沿智能体会以令人不安的比例执行恶意任务,而攻击者主要需要影响的是智能体的动作,而非其文字。然而工具型智能体的风险恰恰藏在轨迹的中段:一个危险的 shell 参数、一次写入错误路径、一次对外泄端点的调用。只看最终文本的奖励,对这些恰恰视而不见。
RUBAS 的意义在于它把训练信号移到了风险真正所在之处。将奖励与参数级和工具级的安全性绑定,并在整条轨迹上评分,是比单纯拒绝更诚实的对齐目标——而显式的有用性量表,正是让所得智能体保持可用、而非无谓谨慎的关键。
防御
对于训练或微调自有智能体的团队:
- 奖励整条轨迹,而非最后一个 token。 若对智能体做 RL 或偏好微调,应对中间的工具调用和参数评分,而不只是最终回复。智能体可能在危险动作之后仍生成干净的答复。
- 在奖励中区分「安全」与「无用」。 保留显式的有用性信号,避免安全训练退化为一概拒绝。RUBAS 正是出于此原因将有用性作为独立的评分维度。
- 让量表显式且可审计。 结构化、可读的评分指南比不透明的标量奖励更易于审阅、版本管理和调试——既利于训练,也利于事后复盘。
- 无论如何训练,都保留运行时控制。 训练期对齐降低了基线风险,但并非保证。应与常规外部防御结合:工具权限校验、参数校验/白名单、沙箱,以及对高影响动作的人工审批。
- 用动作级基准重新评测。 用对跨步骤行为评分的测评套件(AgentHarm、Agent Security Bench)来验证智能体,而非单轮拒绝,使指标反映智能体在轨迹中段的真实表现。
状态
| 项目 | 详情 |
|---|---|
| 论文 | ”RUBAS: Rubric-Based Reinforcement Learning for Agent Safety” |
| arXiv 编号 | 2606.04051(cs.LG;同时 cs.AI、cs.CR) |
| 发布 | 2026 年 6 月 2 日 |
| 作者 | Xian Qi Loye、Qinglin Su、Zhexin Zhang、Shiyao Cui、Qi Zhu、Fei Mi、Hongning Wang、Minlie Huang |
| 方法 | 采用四项评分量表的 RL:工具使用、参数、回复、有用性 |
| 奖励 | 细粒度,覆盖智能体的完整轨迹 |
| 报告结果 | 安全性优于基线,工具相关幻觉下降,实用性具竞争力 |
| 性质 | 防御性训练方法——无利用载荷 |