CyBiasBench:攻击型 LLM 智能体总在重复相同的攻击手法
2026 年 5 月的一项基准测试记录了 630 个攻击会话,发现攻击型网络场景中的 LLM 智能体会集中使用一小部分攻击家族——无论提示词如何变化。决定它们尝试什么的是偏好,而非能力。
这是什么?
CyBiasBench 是 2026 年 5 月发布的一项基准测试(arXiv 2605.07830),它提出了一个范围有限却很实用的问题:当你将一个 LLM 智能体对准目标并要求其发起攻击时,它实际会尝试什么——这取决于提示词,还是取决于智能体本身?
作者进行了 630 个攻击会话,让 五个智能体 在 四种提示词条件 下分别攻击 三个目标,并观察每个智能体如何在 十个攻击家族 之间分配精力。其主要发现,对于把 AI 辅助攻击者建模为灵活全才的人而言并不令人安心:每个智能体都集中于一小部分攻击家族,且当你改变提示词时,这个子集几乎不动。 这些智能体有各自的”招牌风格”。无论这些手法是否适合目标,它们都会反复使用同样的技术。
这是一项测量研究,而非漏洞利用。它告诉防御者攻击型智能体的行为特征——而这正是有助于预判它们的那类发现。
工作原理
其方法论刻意做得平淡无奇,而这恰恰增加了可信度。CyBiasBench 不依赖智能体自述做了什么,而是记录每个智能体生成的原始 HTTP 流量,并用一个基于 OWASP 核心规则集(CRS)的确定性分类器对每个请求进行分类。每个请求都被归入一个攻击家族——与 Web 应用防火墙所用的分类法相同——因此测量结果可复现,且不依赖智能体的自我报告。
在每个请求都被标注后,团队针对每个智能体测量了两件事:它在十个家族之间如何分配精力(按家族的分配分布,以其熵值概括),以及当提示词明确将其引导至另一家族时,该分配如何响应。
出现了两种模式:
- 显性偏好。 各智能体在主导攻击家族及分配熵值上各不相同。有些分散用力,有些则几乎完全坍缩到一两个家族上。主导家族是智能体的属性,而非场景的属性。
- 偏好惯性(“bias momentum”)。 当提示词将智能体推向偏离其自由选择偏好的家族时,智能体会抗拒。引导最不奏效之处,恰恰是你最希望它奏效之处——即当你试图让智能体放弃其偏爱手法时。
关键在于,论文指出该偏好更应被刻画为智能体的特质,而非攻击成功的驱动因素。 智能体偏爱的家族未必是其最有效的家族。这种固着是行为性的,而非策略性的——智能体集中用力并非因为有效,而仅仅是因为它就这么做。
为何重要
如果你为 AI 辅助入侵构建威胁模型,直觉假设是 LLM 智能体会探索整个攻击面——一个不知疲倦、什么都试的全才。CyBiasBench 对所测试的智能体给出了相反结论:它们更像一个只有几招拿手好戏的初级操作员,而且很难被劝离这些招式。
这有两重后果。对防御者而言,可预测的攻击者是好消息:如果某个智能体可靠地依赖一小组家族,它产生的流量就比人类红队更易于指纹化,而针对这些家族调校的检测能捕获其活动中不成比例的一大部分。对红队与评估者而言,这是一个警告:单个开箱即用的智能体并不能给你宽广的覆盖面。如果你的 AI 辅助评估只用一个智能体,你就继承了它的盲区,而”智能体没找到”说明的是智能体的偏好,而非你目标的暴露面。这与此前关于智能体化红队如何压缩时间却未必拓宽覆盖面的发现相呼应。
它还使基准设计变得复杂。一个仅在单一目标分布上评分攻击型智能体的排行榜,可能会奖励那种偏爱家族恰好契合测试的智能体,同时惩罚更均衡的智能体——它衡量的是契合度,而非能力。这正是 CAIBench 这类元基准和 Cybench 这类任务套件之所以重要的部分原因:必须在众多场景中解读能力,才能将其与偏好区分开。
防御
这是研究,因此”防御”在于利用这一发现,而非修补某个漏洞。
-
刻画智能体,而不仅是攻击。 如果对手在使用已知智能体,就围绕每个智能体的主导攻击家族构建检测。CyBiasBench 中按 CRS 归类的流量可复现:你可以在自己的实验室刻画某个智能体的招牌风格,并将其转化为 WAF/IDS 的先验。
-
不要把”某个智能体跑下来很干净”等同于”我们很安全”。 单个智能体的覆盖面受其偏好限制。在任何 AI 辅助评估中运行多个架构各异的智能体,并比较它们的分配分布,以估计无人触及的攻击面。
-
把低分配熵视为覆盖缺口,而非结果。 如果你的红队智能体把 80% 的请求投入到单一家族,那么被忽略的家族就未经审计——在那里安排人工或采用不同偏好的智能体进行跟进。
-
记录原始流量,确定性地分类。 该研究的核心方法——捕获 HTTP、用 OWASP CRS 分类、忽略智能体的自我报告——是一种廉价且厂商中立的方式,用以审计你自己的智能体究竟做了什么,而非它们声称做了什么。自我报告的攻击日志不是证据。
-
把偏好纳入威胁模型。 在估计 AI 辅助攻击者行为时,应建模一个有偏好且具惯性的操作员,而非一个全知者。现实中近期的攻击者会过度使用少数几种技术并抗拒被重新引导——这使其初期流量比熟练人类的更嘈杂、更易被捕获。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| CyBiasBench 论文 | arXiv 2605.07830 | 2026-05 | 630 个会话、5 个智能体、3 个目标、4 种提示词条件、10 个攻击家族 |
| 分类方法 | OWASP 核心规则集 | — | 基于原始 HTTP 的确定性按攻击家族标注 |
| 关键发现 | — | — | 攻击选择偏好 +“偏好惯性”;偏好是智能体特质,而非成功驱动因素 |
| 相关报道 | CAIBench、Cybench | 2024–2025 | 用于区分能力与契合度的多场景基准 |
实用而具体的结论是:当今的攻击型 LLM 智能体并非威胁模型常假设的那种全知全才。 它们有习惯,这些习惯可被测量,而可测量的习惯就是可防御的。刻画智能体、运行多个智能体,并观察它们的流量真正做了什么——而不是它们的日志声称做了什么。