AuditBench:用 LLM 调查真实攻击,结果是一台误报机器
2026 年 6 月的一项基准测试让五个前沿 LLM 分析真实审计日志。结论:模型过度多疑、误报泛滥,而小模型的表现常常不输大模型。
这是什么?
安全厂商越来越喜欢把 LLM 包装成不知疲倦的 SOC 分析师,宣称它们能读懂日志、发现入侵。AuditBench 是 2026 年 6 月 9 日提交到 arXiv 的一篇基准测试论文(arXiv:2606.10281,作者 Anand、Hou、Fields、Kantchelian、Tao、Thomas 与 Ho),它是首批系统性检验这一说法能否经受真实审计日志考验的工作之一。作者构建了一个带标注的 Linux 与 Windows 系统日志数据集,涵盖超过 50 个调查场景(恶意与良性兼有),并就事件响应团队真正执行的四类任务对五个前沿 LLM 进行评分:告警分诊(攻击分类),以及识别横向移动、持久化机制和数据外泄。
工作原理
该基准融合两类数据来源。实验室部分包含在虚拟机上执行的 25 个场景,攻击技术取自 MITRE ATT&CK,并通过 Atomic Red Team 框架实现。第二部分从 DARPA 的 OpTC 数据集衍生出 16 个攻击场景。每个场景都带有人工核验的真值标签,使评估流水线能够按任务计算真阳性率、假阳性率与 F1 分数。
有两个设计选择对从业者尤为重要。其一,日志以两种表示形式喂给模型:来自 Linux auditd 等原生采集器的原始日志,或基于溯源图预处理得到的边表示。其二,被测模型分为大模型(GPT-5、Gemini 2.5 Pro)与小模型(GPT-5 mini、Gemini 2.5 Flash、Llama 4 Maverick)两档,从而可以直接检验规模是否能买来调查能力。
为什么重要
核心结论令人清醒:各项任务的表现参差不齐,且模型明显倾向于过度多疑的判定——把良性活动标记为恶意,恰恰复制了早已淹没 SOC 团队的误报洪流。一个放大告警疲劳的助手并不是中性的:误报本身就是已知的运营攻击面,而近期关于监督容量的研究表明,分析师在高负载下会迅速失效。
其次,没有任何模型全面占优,而且与规模化的预期相反,最强的小模型经常追平甚至超越最强的大模型。在边表示下,小模型在分类任务上 F1 达 1.00(大模型 0.77),在持久化任务上 0.80 对 0.57;大模型仅在外泄任务上保持优势(0.77 对 0.56)。数据表示与提示词构造对结果的影响不亚于模型选择。
第三,论文用文本蕴含(NLI)判官来评估解释质量:即便判定正确,模型给出的推理也未必有日志支撑——当分析师把 LLM 的叙述直接粘进事件报告时,这是切实的风险。
防御措施
对于部署 LLM 辅助调查的团队,AuditBench 的发现可以转化为以下具体防线:
- **把 LLM 判定当作分诊建议,绝不当作最终结论。**保留人类分析师对结案决定的最终权威,并为误报偏差预留处理预算。
- **先投资数据表示,再考虑模型规模。**溯源图/边表示的预处理对结果的改变超过了换用更大的模型——还能让更便宜的模型胜任工作。
- **既要核验判定,也要核验解释。**要求 LLM 引用的任何证据(进程名、日志行、时间戳)在写入报告前都经过机械化比对,确认确实存在于日志中。
- **用自己的遥测数据做基准。**各任务的错误画像差异很大;在持久化上表现强的模型可能在外泄上很弱。用 Atomic Red Team 低成本构建一小套带标注的场景,先测量再信任。
- **加固日志管道本身。**会读日志的 LLM 同时也是提示注入的目标——攻击者控制的进程参数或文件名中的字符串会直接进入模型上下文。
现状
| 项目 | 详情 |
|---|---|
| 论文 | arXiv:2606.10281,2026 年 6 月 9 日提交 |
| 范围 | 4 类 IR 任务,50+ 场景,Linux + Windows |
| 被测模型 | GPT-5、Gemini 2.5 Pro、GPT-5 mini、Gemini 2.5 Flash、Llama 4 Maverick |
| 关键发现 | 表现参差、易出误报;小模型具备竞争力 |
| 先前工作 | ExCyTIn-Bench(arXiv:2507.14201),面向威胁调查智能体 |