系统:运行中
← 返回所有攻击
AGENTS MEDIUM NEW

AIRQ 评测 100 个生产环境 AI 智能体:98% 具备致命三要素

Adversa AI 于 2026 年 6 月发布的 AI 风险象限按攻击面、影响范围与防御能力对 100 个商用智能体评分。仅 11% 防御良好;工具执行一项即可解释 76% 的影响范围。

2026-06-04 // 7 min affects: claude-code, github-copilot, openai-codex, openclaw

这是什么?

2026 年 6 月,Adversa AI 发布了 AI 风险象限(AI Risk Quadrant,简称 AIRQ),这是一项独立评测,对分属十个类别的 100 个商用及公开可用的 AI 智能体进行评分。其方法论由来自 OWASP、CoSAI、云安全联盟(CSA)与 NIST 的贡献者和审阅者共同构建,框架与报告均以开放、免费的方式发布。正如 Help Net Security 于 2026 年 6 月 3 日所报道,它被定位为首个面向智能体产品的可比较安全评级——也就是采购方一直缺乏的中立基准。

核心结论很直接:98% 的受评智能体已具备”致命三要素”,而仅有 11% 既高度能干又防御良好。我们之所以报道它,是因为它把一个早已为人所知的架构警告转化为可量化、可比较的数字——这正是安全团队可以拿到采购评审上的依据。

工作原理

AIRQ 是一套评分框架,而非一种攻击。它在三个独立维度外加一个证据层上对每个智能体打分:

维度          所回答的问题
------------  -----------------------------------------------
攻击面        智能体在其输入与执行路径上的暴露程度有多大?
影响范围      一旦被攻陷有多严重——它能触及哪些数据与操作?
防御控制      真正能阻止攻击的是什么:受限身份、执行隔离、
              针对不可逆操作的审批关卡?
证据层        每项声称的控制有多强的公开证据?
              (源代码/第三方评估 > 厂商资料页)

将攻击面与防御交叉绘制即得到与之同名的象限:覆盖广但防御薄弱者为 Exposed Giant(暴露的巨人),覆盖广且防御相当者为 Fortified Leader(坚固的领跑者),范围窄且守护严密者为 Tight Operator(精干的操作者),范围窄且防护轻者为 Humble Provider(朴素的提供者)。第四层正是多数评分所忽略的,而它很关键,因为报告指出83% 声称的防御措施无法公开验证。AIRQ 将声称与证据分开评分:一张营销页面无法冒充经过测试的控制。

出现于 98% 样本中的”致命三要素”,是指私有数据访问、暴露于不可信内容以及执行对外操作能力三者的组合。当这三者并存时,单一一份被投毒的文档——即间接提示注入模式——便可在智能体所能触及的所有系统上让它倒戈反噬其操作者。十个智能体类别中有八个呈现100% 的三要素暴露

为什么重要

报告的价值在于其量化。一个变量占据主导:智能体是否执行工具、该执行是否在沙箱中隔离,这一点即可解释 76% 的影响范围——其预测力超过智能体类别、厂商声誉以及任何单项防御控制。这让初筛变得廉价:在阅读任何材料之前,先问这两个问题。

分布令人忧心。四成智能体落入 Exposed Giants 象限,报告称该象限集中了总风险预算的 60%。在市场的大部分区域,能力与防御朝相反方向发展——编码智能体在能力上排第二,在防御上却排第八;而计算机操作类智能体的平均输出护栏得分为(在输出校验、外泄通道阻断、渲染净化上均无得分)。更糟的是,这些高风险智能体往往是自助式、自下而上采用的工具,完全绕过了采购流程。

审计不等于防御。报告指出,37% 的智能体日志记录良好,但在真正防止危害的四项控制上得分很差;而 38% 会在任何监控路径有可能触发之前就完成不可逆操作。在不可逆操作之后才触发的日志属于取证,而非防护。

防御措施

AIRQ 同时是一份防御清单。其各项因素列表对应 NIST、OWASP、MITRE、CoSAI 与 CSA 的指南,因而可用作采购问卷与红队范围界定的辅助。

  1. 把沙箱作为采购门槛。 有文档记录且经过测试的沙箱可将残余风险降低约 2.6 倍;容器或云级别的隔离可达约 6 倍。大部分收益来自第一步,因此应在部署前要求做到。

  2. 优先收缩影响范围。 既然工具执行解释了大部分危害,就应限制智能体可调用的工具,用短期、窄权限的凭据约束其身份,并隔离其运行环境。在严格受限范围内的攻陷,仍是一次受控的测试结果。

  3. 打破三要素。 你很少需要在同一上下文中同时具备私有数据访问、不可信内容摄取与对外操作三者。请将读取不可信输入的智能体,与持有凭据或能对外行动的智能体分离。

  4. 索取证据,而非资料页。 鉴于 83% 声称的控制无法验证,应把缺乏佐证的声称视同不存在。要求厂商提供由源代码或第三方评估支撑的 AIRQ 因素答复。

  5. 为不可逆操作设关卡,并审查操作流。 在任何无法撤销的操作前设置人工或策略审批,并确保监控能在操作之前而非之后触发。

  6. 评两次分,并按季度复审。 同一平台按厂商交付时与按客户配置后会得出不同分数。请按计划复查——CVE 数量低的类别处于”尚未被发现”阶段,而非安全。

状态

项目来源日期备注
AIRQ 报告与框架Adversa AI2026-06100 个智能体,10 个类别;开放方法论
致命三要素普遍程度AIRQ2026-06占样本 98%;8/10 类别为 100%
防御良好(Fortified Leaders)AIRQ2026-06占智能体 11%
Exposed GiantsAIRQ2026-06占样本 40%,占风险预算 60%
工具执行 → 影响范围AIRQ2026-06解释 76% 的影响范围
沙箱收益AIRQ2026-06残余风险降低约 2.6 倍;容器/云隔离约 6 倍
未经验证的防御AIRQ2026-0683% 的声称无法公开验证
独立报道Help Net Security2026-06-03”仅 11% 的生产环境智能体达到安全门槛”

结论并非某个具体产品不安全,而是智能体市场所部署的能力已远远跑在围控之前,如今终于有了一种公开、可复现的方式来衡量这一差距。请把智能体(而非底层模型)视为风险单元,在同一类别内进行比较,并把沙箱与经过验证的控制作为部署的代价。

Sources