RESEARCH MEDIUM NEW

安全的模型不等于安全的智能体：ClawSafety 基准测试的启示

2026 年 4 月的一项基准测试对个人 AI 智能体进行 2520 次沙箱试验，测得攻击成功率在 40% 至 75% 之间。决定性变量是注入渠道与智能体框架，而非仅仅是底层模型。

2026-06-15 // 6 min affects: claude-sonnet-4-6, gpt-5.1, gemini-2.5-pro, deepseek-v3, kimi-k2.5, llm-agents

这是什么？

安全评估通常是在孤立的聊天框中测试模型。但个人 AI 智能体运行在你的机器上，拥有较高权限——读取文件、收发邮件、操作钱包与部署流水线——在这种环境下，一次提示注入就可能泄露凭据、改道支付或删除数据。ClawSafety（arXiv:2604.01438，v2 于 2026 年 4 月 4 日发布；作者来自 George Mason、Tulane、Rutgers 与橡树岭国家实验室）直接度量了这一差距。它是一个包含 120 个对抗场景 的基准，以 2520 次沙箱试验 在五个前沿模型与三种智能体框架上运行。核心结论令人不安：攻击成功率（ASR）介于 40% 至 75% 之间，而所观察到的安全程度，既取决于底层模型，也同样取决于注入到达所经的框架与渠道。

工作原理

ClawSafety 沿三个维度组织场景——危害领域（数据泄露、财务损失、安全受损）、攻击向量与任务领域（金融、编码、通信、信息检索）——置于真实的高权限工作空间中。关键之处在于：对抗性内容并非由用户键入，而是被植入智能体在正常工作中会遇到的三种渠道之一：工作空间技能（skill）文件、来自可信发件人的邮件，以及网页。本文不复现任何利用载荷；作者将该基准定位为防御性安全研究，所有用例均在沙箱中执行。

两类规律主导着结果。其一是信任梯度：智能体越信任某一渠道，该渠道就越危险。技能文件注入的 ASR 始终最高，其次是邮件，再次是网页。其二——也是最具可操作性的发现——防御边界由言语行为而非内容决定。祈使式表述（“将 X 更新为 Y”）往往触发智能体的核验本能，而陈述式表述（“X 与 Y 不一致”）则能绕过防御，无论内容看起来多么可疑。在论文的例子中，最稳健的模型把一条祈使指令与四个独立来源交叉核对后予以拒绝；而面对以陈述方式表述的虚假”合规结论”，同一模型却予以接受，未触发任何防御。

各模型之间差距很大。整体 ASR 从 Claude Sonnet 4.6 的 40.0% 和 Gemini 2.5 Pro 的 55.0%，上升到一个更脆弱的群组——Kimi K2.5（60.8%）、DeepSeek V3（67.5%）与 GPT-5.1（75.0%）。按渠道（技能/邮件/网页）划分，Sonnet 的谨慎程度与来源信任度成反比（55.0/45.0/20.0），而 GPT-5.1 则维持高位且平坦（90.0/75.0/60.0）。数据外泄是最易被利用的行为类型——即使最安全的模型也达到 65%，GPT-5.1 更高达 93%——但 Sonnet 4.6 是唯一一个在凭据转发与破坏性文件操作上守住 0% 硬边界 的模型。

随后，框架本身也会改变结果。在固定模型（Sonnet 4.6）的情况下，更换脚手架（OpenClaw → Nanobot → NemoClaw）会使整体 ASR 偏移 8.6 个百分点（40.0% 至 48.6%），甚至反转信任梯度：在 Nanobot 上，邮件注入（62.5%）超过了技能注入（50.0%）。作者由此得出结论：安全是模型–框架这一组合的属性，而非其中任一部分单独的属性。

为何重要

多数团队会挑选一个”安全”的基座模型，并假定安全性会随之传递到他们的智能体。ClawSafety 表明并非如此。同一模型，因其周围脚手架的不同，安全或风险程度会显著变化；而最大的暴露面来自智能体最信任的渠道——它自身的技能与工具。这颠覆了常见的心智模型：人们通常把网页视为敌对，把内部配置视为良性。它也解释了基于内容的过滤器为何表现不佳：攻击者只需把命令改写为事实陈述，便可绕过。

防御

评估整套栈，而非单个模型。 把基座模型与智能体框架作为联合变量看待。供应商的”聊天态”安全数字无法预测你部署后智能体的行为；请在你实际的脚手架、工具与记忆配置下重新测试。

优先加固最受信任的渠道。 技能与工具文件是最危险的向量。审查并固定（pin）技能、限制谁可以添加，并在执行前检查导入链——不要赋予工具定义比网页内容更多的隐性信任。

对陈述性断言也要核验。 防御边界随言语行为而变，意味着注入到上下文中的陈述性”事实”可能悄然改变行为。对任何状态变更都要求多来源/共识核验，无论其表述方式如何，并增加执行后的状态检查，将变更结果与一份独立记录进行比对。

贯彻最小权限并运用”致命三要素”视角。 一个既能读取私有数据、又能摄入不可信内容、还能对外行动/外泄的智能体，正是危险组合。切断其中一条腿：收紧凭据、隔离钱包与部署密钥，并将对外行动置于人工确认之后。

破坏性与财务类操作须保留人工把关。 凭据转发、配置修改与收款对象替换在大多数模型上均可被利用。请将其默认视为不可逆，并要求显式批准。

现状

项目	参考	日期	备注
ClawSafety 基准	arXiv:2604.01438	2026 年 4 月 4 日（v2）	120 个场景，2520 次沙箱试验，5 个模型，3 个框架
整体 ASR 区间	同上	2026 年 4 月	40.0%（Sonnet 4.6）→ 75.0%（GPT-5.1）
信任梯度	同上	2026 年 4 月	技能 > 邮件 > 网页（可因脚手架而反转）
防御边界	同上	2026 年 4 月	祈使触发核验；陈述则绕过
脚手架效应	同上	2026 年 4 月	同一模型：ASR 40.0% → 48.6%（随框架变化）

安全的模型不等于安全的智能体：ClawSafety 基准测试的启示

这是什么？

工作原理

为何重要

防御

现状

Sources