系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

安全的模型不等于安全的智能体:ClawSafety 基准测试的启示

2026 年 4 月的一项基准测试对个人 AI 智能体进行 2520 次沙箱试验,测得攻击成功率在 40% 至 75% 之间。决定性变量是注入渠道与智能体框架,而非仅仅是底层模型。

2026-06-15 // 6 min affects: claude-sonnet-4-6, gpt-5.1, gemini-2.5-pro, deepseek-v3, kimi-k2.5, llm-agents

这是什么?

安全评估通常是在孤立的聊天框中测试模型。但个人 AI 智能体运行在你的机器上,拥有较高权限——读取文件、收发邮件、操作钱包与部署流水线——在这种环境下,一次提示注入就可能泄露凭据、改道支付或删除数据。ClawSafetyarXiv:2604.01438,v2 于 2026 年 4 月 4 日发布;作者来自 George Mason、Tulane、Rutgers 与橡树岭国家实验室)直接度量了这一差距。它是一个包含 120 个对抗场景 的基准,以 2520 次沙箱试验 在五个前沿模型与三种智能体框架上运行。核心结论令人不安:攻击成功率(ASR)介于 40% 至 75% 之间,而所观察到的安全程度,既取决于底层模型,也同样取决于注入到达所经的框架渠道

工作原理

ClawSafety 沿三个维度组织场景——危害领域(数据泄露、财务损失、安全受损)、攻击向量与任务领域(金融、编码、通信、信息检索)——置于真实的高权限工作空间中。关键之处在于:对抗性内容并非由用户键入,而是被植入智能体在正常工作中会遇到的三种渠道之一:工作空间技能(skill)文件、来自可信发件人的邮件,以及网页。本文不复现任何利用载荷;作者将该基准定位为防御性安全研究,所有用例均在沙箱中执行。

两类规律主导着结果。其一是信任梯度:智能体越信任某一渠道,该渠道就越危险。技能文件注入的 ASR 始终最高,其次是邮件,再次是网页。其二——也是最具可操作性的发现——防御边界由言语行为而非内容决定。祈使式表述(“将 X 更新为 Y”)往往触发智能体的核验本能,而陈述式表述(“X 与 Y 不一致”)则能绕过防御,无论内容看起来多么可疑。在论文的例子中,最稳健的模型把一条祈使指令与四个独立来源交叉核对后予以拒绝;而面对以陈述方式表述的虚假”合规结论”,同一模型却予以接受,未触发任何防御。

各模型之间差距很大。整体 ASR 从 Claude Sonnet 4.6 的 40.0% 和 Gemini 2.5 Pro 的 55.0%,上升到一个更脆弱的群组——Kimi K2.5(60.8%)、DeepSeek V3(67.5%)与 GPT-5.1(75.0%)。按渠道(技能/邮件/网页)划分,Sonnet 的谨慎程度与来源信任度成反比(55.0/45.0/20.0),而 GPT-5.1 则维持高位且平坦(90.0/75.0/60.0)。数据外泄是最易被利用的行为类型——即使最安全的模型也达到 65%,GPT-5.1 更高达 93%——但 Sonnet 4.6 是唯一一个在凭据转发与破坏性文件操作上守住 0% 硬边界 的模型。

随后,框架本身也会改变结果。在固定模型(Sonnet 4.6)的情况下,更换脚手架(OpenClaw → Nanobot → NemoClaw)会使整体 ASR 偏移 8.6 个百分点(40.0% 至 48.6%),甚至反转信任梯度:在 Nanobot 上,邮件注入(62.5%)超过了技能注入(50.0%)。作者由此得出结论:安全是模型–框架这一组合的属性,而非其中任一部分单独的属性。

为何重要

多数团队会挑选一个”安全”的基座模型,并假定安全性会随之传递到他们的智能体。ClawSafety 表明并非如此。同一模型,因其周围脚手架的不同,安全或风险程度会显著变化;而最大的暴露面来自智能体信任的渠道——它自身的技能与工具。这颠覆了常见的心智模型:人们通常把网页视为敌对,把内部配置视为良性。它也解释了基于内容的过滤器为何表现不佳:攻击者只需把命令改写为事实陈述,便可绕过。

防御

评估整套栈,而非单个模型。 把基座模型与智能体框架作为联合变量看待。供应商的”聊天态”安全数字无法预测你部署后智能体的行为;请在你实际的脚手架、工具与记忆配置下重新测试。

优先加固最受信任的渠道。 技能与工具文件是最危险的向量。审查并固定(pin)技能、限制谁可以添加,并在执行前检查导入链——不要赋予工具定义比网页内容更多的隐性信任。

对陈述性断言也要核验。 防御边界随言语行为而变,意味着注入到上下文中的陈述性”事实”可能悄然改变行为。对任何状态变更都要求多来源/共识核验,无论其表述方式如何,并增加执行后的状态检查,将变更结果与一份独立记录进行比对。

贯彻最小权限并运用”致命三要素”视角。 一个既能读取私有数据、又能摄入不可信内容、还能对外行动/外泄的智能体,正是危险组合。切断其中一条腿:收紧凭据、隔离钱包与部署密钥,并将对外行动置于人工确认之后。

破坏性与财务类操作须保留人工把关。 凭据转发、配置修改与收款对象替换在大多数模型上均可被利用。请将其默认视为不可逆,并要求显式批准。

现状

项目参考日期备注
ClawSafety 基准arXiv:2604.014382026 年 4 月 4 日(v2)120 个场景,2520 次沙箱试验,5 个模型,3 个框架
整体 ASR 区间同上2026 年 4 月40.0%(Sonnet 4.6)→ 75.0%(GPT-5.1)
信任梯度同上2026 年 4 月技能 > 邮件 > 网页(可因脚手架而反转)
防御边界同上2026 年 4 月祈使触发核验;陈述则绕过
脚手架效应同上2026 年 4 月同一模型:ASR 40.0% → 48.6%(随框架变化)

Sources