DEFENSE LOW NEW

RUBAS：用评分量表强化学习为智能体安全提供细粒度奖励信号

2026 年 6 月的一篇论文用四项评分量表（工具使用、参数、回复、有用性）取代二元的拒绝/执行奖励，训练既保持安全又不损失实用性的工具调用智能体。

2026-06-17 // 5 min affects: llm-agents, tool-calling-agents

这是什么？

一篇于 2026 年 6 月 2 日 发布到 arXiv 的预印本（2606.04051）针对一个随着 LLM 演变为工具型智能体而日益核心的训练问题：如何教会智能体在行动时而不仅是说话时保持安全？该论文 RUBAS（Rubric-Based reinforcement learning for Agent Safety），作者为 Xian Qi Loye、Qinglin Su、Zhexin Zhang、Shiyao Cui、Qi Zhu、Fei Mi、Hongning Wang 和 Minlie Huang，认为常见的对齐信号——「拒绝」对「执行」的二元奖励——对于会调用工具、传递参数并在多个步骤中执行真实动作的智能体而言过于粗糙。

这是一项防御性的、训练侧的贡献。其中不含任何利用载荷；它要回答的问题是如何从一开始就构建更难被滥用的智能体。

工作原理

核心思想是不再用单一粗糙的维度来奖励智能体，而是将其行为分解为四个评分维度：

工具使用安全性——在此刻调用这个工具，是否是恰当且安全的动作？
参数安全性——传给工具的参数是否安全（无破坏性选项、无外泄目标、无注入载荷）？
回复安全性——给用户的最终回复是否安全？
有用性——智能体是否真正完成了正当任务？

每个维度都表示为一份评分量表（rubric）：一份结构化、人类可读的评分指南，而非简单的是/否标签。在强化学习过程中，这些量表会对智能体的完整轨迹——整串工具调用、参数与回复——给出细粒度、可解释的奖励，而不是只评判最后一条消息。这使得训练信号能够区分：一个拒绝了有害任务的智能体，与一个悄悄执行了危险中间动作、却生成看似无害最终回复的智能体。

通过在三个安全维度之外同时对有用性评分，RUBAS 优化的是安全的工具使用，而不陷入过度拒绝。作者报告称，在多个智能体安全基准与多个模型上，RUBAS 相比标准对齐基线提升了安全性，减少了与工具相关的幻觉，并保持了有竞争力的实用性。（论文将其呈现为相对于基线的相对改进；具体分数见预印本。）

为何重要

大多数已发表的智能体安全评测评判的是结果：智能体是否拒绝了有害请求？像 AgentHarm（2410.09024）和 Agent Security Bench（2410.02644）这样的基准反复表明，前沿智能体会以令人不安的比例执行恶意任务，而攻击者主要需要影响的是智能体的动作，而非其文字。然而工具型智能体的风险恰恰藏在轨迹的中段：一个危险的 shell 参数、一次写入错误路径、一次对外泄端点的调用。只看最终文本的奖励，对这些恰恰视而不见。

RUBAS 的意义在于它把训练信号移到了风险真正所在之处。将奖励与参数级和工具级的安全性绑定，并在整条轨迹上评分，是比单纯拒绝更诚实的对齐目标——而显式的有用性量表，正是让所得智能体保持可用、而非无谓谨慎的关键。

防御

对于训练或微调自有智能体的团队：

奖励整条轨迹，而非最后一个 token。 若对智能体做 RL 或偏好微调，应对中间的工具调用和参数评分，而不只是最终回复。智能体可能在危险动作之后仍生成干净的答复。
在奖励中区分「安全」与「无用」。 保留显式的有用性信号，避免安全训练退化为一概拒绝。RUBAS 正是出于此原因将有用性作为独立的评分维度。
让量表显式且可审计。 结构化、可读的评分指南比不透明的标量奖励更易于审阅、版本管理和调试——既利于训练，也利于事后复盘。
无论如何训练，都保留运行时控制。 训练期对齐降低了基线风险，但并非保证。应与常规外部防御结合：工具权限校验、参数校验/白名单、沙箱，以及对高影响动作的人工审批。
用动作级基准重新评测。 用对跨步骤行为评分的测评套件（AgentHarm、Agent Security Bench）来验证智能体，而非单轮拒绝，使指标反映智能体在轨迹中段的真实表现。

状态

项目	详情
论文	”RUBAS: Rubric-Based Reinforcement Learning for Agent Safety”
arXiv 编号	2606.04051（cs.LG；同时 cs.AI、cs.CR）
发布	2026 年 6 月 2 日
作者	Xian Qi Loye、Qinglin Su、Zhexin Zhang、Shiyao Cui、Qi Zhu、Fei Mi、Hongning Wang、Minlie Huang
方法	采用四项评分量表的 RL：工具使用、参数、回复、有用性
奖励	细粒度，覆盖智能体的完整轨迹
报告结果	安全性优于基线，工具相关幻觉下降，实用性具竞争力
性质	防御性训练方法——无利用载荷

RUBAS：用评分量表强化学习为智能体安全提供细粒度奖励信号

这是什么？

工作原理

为何重要

防御

状态

Sources