AGENTS MEDIUM NEW

AIRQ 评测 100 个生产环境 AI 智能体：98% 具备致命三要素

Adversa AI 于 2026 年 6 月发布的 AI 风险象限按攻击面、影响范围与防御能力对 100 个商用智能体评分。仅 11% 防御良好；工具执行一项即可解释 76% 的影响范围。

2026-06-04 // 7 min affects: claude-code, github-copilot, openai-codex, openclaw

这是什么？

2026 年 6 月，Adversa AI 发布了 AI 风险象限（AI Risk Quadrant，简称 AIRQ），这是一项独立评测，对分属十个类别的 100 个商用及公开可用的 AI 智能体进行评分。其方法论由来自 OWASP、CoSAI、云安全联盟（CSA）与 NIST 的贡献者和审阅者共同构建，框架与报告均以开放、免费的方式发布。正如 Help Net Security 于 2026 年 6 月 3 日所报道，它被定位为首个面向智能体产品的可比较安全评级——也就是采购方一直缺乏的中立基准。

核心结论很直接：98% 的受评智能体已具备”致命三要素”，而仅有 11% 既高度能干又防御良好。我们之所以报道它，是因为它把一个早已为人所知的架构警告转化为可量化、可比较的数字——这正是安全团队可以拿到采购评审上的依据。

工作原理

AIRQ 是一套评分框架，而非一种攻击。它在三个独立维度外加一个证据层上对每个智能体打分：

维度          所回答的问题
------------  -----------------------------------------------
攻击面        智能体在其输入与执行路径上的暴露程度有多大？
影响范围      一旦被攻陷有多严重——它能触及哪些数据与操作？
防御控制      真正能阻止攻击的是什么：受限身份、执行隔离、
              针对不可逆操作的审批关卡？
证据层        每项声称的控制有多强的公开证据？
              （源代码／第三方评估 > 厂商资料页）

将攻击面与防御交叉绘制即得到与之同名的象限：覆盖广但防御薄弱者为 Exposed Giant（暴露的巨人），覆盖广且防御相当者为 Fortified Leader（坚固的领跑者），范围窄且守护严密者为 Tight Operator（精干的操作者），范围窄且防护轻者为 Humble Provider（朴素的提供者）。第四层正是多数评分所忽略的，而它很关键，因为报告指出83% 声称的防御措施无法公开验证。AIRQ 将声称与证据分开评分：一张营销页面无法冒充经过测试的控制。

出现于 98% 样本中的”致命三要素”，是指私有数据访问、暴露于不可信内容以及执行对外操作能力三者的组合。当这三者并存时，单一一份被投毒的文档——即间接提示注入模式——便可在智能体所能触及的所有系统上让它倒戈反噬其操作者。十个智能体类别中有八个呈现100% 的三要素暴露。

为什么重要

报告的价值在于其量化。一个变量占据主导：智能体是否执行工具、该执行是否在沙箱中隔离，这一点即可解释 76% 的影响范围——其预测力超过智能体类别、厂商声誉以及任何单项防御控制。这让初筛变得廉价：在阅读任何材料之前，先问这两个问题。

分布令人忧心。四成智能体落入 Exposed Giants 象限，报告称该象限集中了总风险预算的 60%。在市场的大部分区域，能力与防御朝相反方向发展——编码智能体在能力上排第二，在防御上却排第八；而计算机操作类智能体的平均输出护栏得分为零（在输出校验、外泄通道阻断、渲染净化上均无得分）。更糟的是，这些高风险智能体往往是自助式、自下而上采用的工具，完全绕过了采购流程。

审计不等于防御。报告指出，37% 的智能体日志记录良好，但在真正防止危害的四项控制上得分很差；而 38% 会在任何监控路径有可能触发之前就完成不可逆操作。在不可逆操作之后才触发的日志属于取证，而非防护。

防御措施

AIRQ 同时是一份防御清单。其各项因素列表对应 NIST、OWASP、MITRE、CoSAI 与 CSA 的指南，因而可用作采购问卷与红队范围界定的辅助。

把沙箱作为采购门槛。 有文档记录且经过测试的沙箱可将残余风险降低约 2.6 倍；容器或云级别的隔离可达约 6 倍。大部分收益来自第一步，因此应在部署前要求做到。
优先收缩影响范围。 既然工具执行解释了大部分危害，就应限制智能体可调用的工具，用短期、窄权限的凭据约束其身份，并隔离其运行环境。在严格受限范围内的攻陷，仍是一次受控的测试结果。
打破三要素。 你很少需要在同一上下文中同时具备私有数据访问、不可信内容摄取与对外操作三者。请将读取不可信输入的智能体，与持有凭据或能对外行动的智能体分离。
索取证据，而非资料页。 鉴于 83% 声称的控制无法验证，应把缺乏佐证的声称视同不存在。要求厂商提供由源代码或第三方评估支撑的 AIRQ 因素答复。
为不可逆操作设关卡，并审查操作流。 在任何无法撤销的操作前设置人工或策略审批，并确保监控能在操作之前而非之后触发。
评两次分，并按季度复审。 同一平台按厂商交付时与按客户配置后会得出不同分数。请按计划复查——CVE 数量低的类别处于”尚未被发现”阶段，而非安全。

状态

项目	来源	日期	备注
AIRQ 报告与框架	Adversa AI	2026-06	100 个智能体，10 个类别；开放方法论
致命三要素普遍程度	AIRQ	2026-06	占样本 98%；8/10 类别为 100%
防御良好（Fortified Leaders）	AIRQ	2026-06	占智能体 11%
Exposed Giants	AIRQ	2026-06	占样本 40%，占风险预算 60%
工具执行 → 影响范围	AIRQ	2026-06	解释 76% 的影响范围
沙箱收益	AIRQ	2026-06	残余风险降低约 2.6 倍；容器/云隔离约 6 倍
未经验证的防御	AIRQ	2026-06	83% 的声称无法公开验证
独立报道	Help Net Security	2026-06-03	”仅 11% 的生产环境智能体达到安全门槛”

结论并非某个具体产品不安全，而是智能体市场所部署的能力已远远跑在围控之前，如今终于有了一种公开、可复现的方式来衡量这一差距。请把智能体（而非底层模型）视为风险单元，在同一类别内进行比较，并把沙箱与经过验证的控制作为部署的代价。

AIRQ 评测 100 个生产环境 AI 智能体：98% 具备致命三要素

这是什么？

工作原理

为什么重要

防御措施

状态

Sources