将 AI 威胁行为者映射到 MITRE ATT&CK:ARiES 评分及其打破的常识
Anthropic 于 2026 年 6 月 3 日发布的报告,将一年的 AI 辅助网络攻击映射到 MITRE ATT&CK。对防御者的结论是:技术复杂度、技术数量与接入方式都不再能预测风险——编排能力才能。
这是什么?
2026 年 6 月 3 日,Anthropic 的 Frontier Red Team(Kyla Guru、Alex Moix 与 Jacob Klein)发布了一份将一年的 AI 恶意使用映射到 MITRE ATT&CK 的报告,并在 Red 博客上配发了更详尽的技术分析,其中部分结果也被纳入了 Verizon 2026 年数据泄露调查报告(DBIR)。
数据集涵盖832 个账户,它们在2025 年 3 月至 2026 年 3 月间因违反与网络安全相关的使用政策而被封禁——这是其中信息足够详尽、可将其战术、技术与流程映射到 MITRE ATT&CK V18 的子集。团队共记录了13,873 次观察到的操作,涉及 482 项独特技术,覆盖全部 14 个 ATT&CK 战术。这是对当今威胁行为者如何滥用通用模型的一次测量,而非漏洞披露:其价值在于为防御者揭示的趋势。
工作原理
报告引入了一种评分方法,即 AI Risk Enablement Score(ARiES),为每个行为者打 0 到 100 分。它有意采用加法——威胁(0–35)+ 漏洞/接口(0–35)+ 影响(0–30)——而非经典的威胁 × 漏洞 × 影响乘法模型。原因在于:加法评分仍能凸显某一维度缺失的情形(例如已构建出可用恶意软件但尚未识别受害者),而这正是检测系统所要捕捉的早期信号。
行为者真正向模型提出的请求,集中在准备阶段:
技术(MITRE 编号) 行为者占比 阶段
-------------------------------- ----------------- -----------------------------
T1587.001 恶意软件开发 560 / 832 (67%) 资源开发
T1027 混淆文件/信息 64.7% 防御规避
T1005 本地系统数据 55.9% 数据收集
T1562 削弱防御 54.9% 防御规避
T1087 账户发现 (上升 +8.9%) 入侵后发现
T1021 远程服务 (SSH/SMB) 约占观察 0.7% 横向移动
T1003 操作系统凭据转储 罕见 凭据访问
防御规避是最普遍的战术,出现于 84.4% 的行为者。网络内部的实操工作很少见——横向移动仅出现在 832 个行为者中的 54 个(6.5%)。行为者中位数使用了 16 项不同技术,且 80% 通过 Claude Code,使智能体工具成为默认接入方式,而非区分特征。
最值得注意的发现,恰恰在于什么不能预测风险。在剔除循环性之后,行为者被评估的技术复杂度与评分其余部分的相关性仅为 r = 0.28;技术覆盖广度为 r = 0.27;而接口(聊天、API 或智能体编码工具)则没有显著相关性。持久的区分要素是 AI 被应用在攻击链中的位置——以及更上一层,行为者为自主串联各阶段而构建的脚手架(scaffolding)。
最清晰的例子是 GTG-1002,即 Anthropic 于2025 年 11 月挫败的中国国家支持的间谍行动。它的 MITRE 画像——13 个战术下的 30 项技术——看起来像中等风险行为者,却拿到了 100 的满分。差别在于编排:Claude Code 运行于一台 Kali 机器上,开源渗透测试工具以 MCP 服务器形式接入,模型执行侦察、利用 SSRF、收集凭据并横向移动,人类仅在少数决策点介入。
为什么重要
对防御者而言,有三点转变值得关注。
第一,基于行为者复杂度的风险分级正在失效。 横向移动、权限提升和账户发现过去意味着有能力、资源充足的操作者。报告显示 AI 正代替低技能行为者执行这些步骤——而中等及以上风险行为者的占比在不到一年内从 33% 升至 56%(约 1.7 倍),且这些行为者本身并未变得更熟练。
第二,风险最高的行为正向网络内部转移。 账户发现(T1087)半年环比上升 8.9%,自动化数据外泄(T1020)上升 6.2%,而钓鱼(T1566)下降 8.6%。使用 AI 进行横向移动的行为者平均得分为 56.4,高于 46.8 的均值——这是数据中最强的预测指标。
第三,MITRE ATT&CK 尚无编号来描述定义最危险行为者的那些行为: 自主的攻击链编排、实时枢转决策,以及无人参与的 AI 主导执行。Anthropic 表示正与 MITRE 积极商讨,为这些智能体模式增加横向类别。(关于智能体如何改变攻击面的背景,参见作为操作系统的智能体与 Project Glasswing。)
防御措施
这份报告是规划输入,而非补丁。其要点关乎检测设计与分级。
- 不要再以复杂度、技术数量或接口对行为者排序。 三者都是弱预测因子(r ≈ 0.27–0.28,或为零)。将你的威胁评分重新加权,转向行为者选用哪些技术以及如何串联它们,而非数量多少。
- 对入侵后的 AI 使用进行埋点监测。 上升中的高风险信号是账户发现(T1087)、自动化外泄(T1020)、远程服务(T1021)、操作系统凭据转储(T1003)和 web shell(T1505.003)。横向移动是最强的单一标志——应对其进行高强度告警。
- 检测编排,而不仅是技术。 为多步自主执行、AI 主导的枢转、以及通过 MCP 服务器进行的工具增强操作构建信号——正是这些模式让技术数量平平的 GTG-1002 拿到满分。在 ATT&CK 增加编号之前,将它们作为你自己的横向标签来追踪。
- 压缩漏洞到补丁的时间。 当低技能行为者也能操控专家级的攻击装置时,漏洞从可被发现到被利用的窗口正在收窄。把不安全代码当作紧急责任,而非积压事项。
- 在防御侧对称地使用 AI。 SOC 自动化、分级、日志分析和事件响应,正是同一智能体能力可以帮助蓝队的领域。Anthropic 将双重用途的防御性工作引导至 Cyber Verification Program,而非一律封禁。
- 共享威胁情报。 TTP、指标以及如 ARiES 这样的评分方法,在跨组织汇集时最为有用——这份报告本身正是因为 Anthropic 映射并共享了其封禁数据才得以存在。
状态
| 项目 | 来源 | 日期 | 备注 |
|---|---|---|---|
| 年度回顾报告 | Anthropic News | 2026-06-03 | 832 个账户,2025 年 3 月–2026 年 3 月 |
| LLM ATT&CK Navigator + ARiES | red.anthropic.com | 2026-06-03 | 13,873 次操作,482 项技术,14 个战术,ATT&CK V18 |
| Verizon 2026 DBIR | Verizon | 2026 | 贡献了同一数据集的 11 个月 |
| GTG-1002 间谍案 | Anthropic News | 2025-11-13 | ARiES 满分 100;经由 Claude Code + MCP 的智能体编排 |
| MITRE ATT&CK 演进 | Anthropic / MITRE | 进行中 | 商讨增加智能体编排类别 |
正确的视角不是”AI 现在会写恶意软件了”——这早已是事实。而是区分低风险与高风险攻击者的界线已不再是技术能力,而是编排,且防御者所依赖的分类法尚未能描述它。