系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

Code-Augur:为智能体漏洞检测建立可核验的依据

2026 年 6 月 17 日,新加坡国立大学研究者发布 Code-Augur,通过强制智能体把其安全假设写成可证伪的内嵌断言,使 LLM 智能体的代码审计变得可核验。

2026-06-20 // 6 min affects: claude-sonnet, deepseek, open-source-software

这是什么?

2026 年 6 月 17 日,新加坡国立大学的研究者(Zhengxiong Luo、Mehtab Zafar、Dylan Wolff 与 Abhik Roychoudhury)发布了 Code-Augur,一套用于智能体漏洞检测的框架——即用自主 LLM 智能体审计源代码。作者认为这「已经正在成为软件安全的分水岭」:完全由 LLM 智能体执行的审计,正在揭出那些在支撑数字世界的软件中潜伏多年的关键缺陷。

论文针对的问题不是能力,而是信任。当一个智能体读完一个函数并判定它安全时,它对该函数的输入做了哪些假设?这些假设始终是隐性的,因此只要有一个错误,就会无声地掩盖一个真实漏洞。Code-Augur 的回应是一种「安全规约优先」的范式:把这些假设明确摊开,然后设法将其打破。作者报告称,在重要的开源项目中发现了 22 个新漏洞,且依靠的是 Claude Sonnet、DeepSeek 等广泛可用的模型,而非定制的专用模型。

工作原理

Code-Augur 围绕智能体的不变式而非其结论来重组审计。

对代码库中的每个组件:
  1. 智能体分析该组件,查找易受攻击的代码。
  2. 若判定为「安全」,必须把支撑该判断的局部不变式
     以断言形式写入源代码
     (一份显式、可由机器核验的安全规约)。
  3. 与此同时,一个有引导的模糊测试器尝试「证伪」这些断言。
  4. 当模糊测试器触发某条断言时,存在两种情况:
       - 发现了一个真实漏洞,或
       - 规约本身有误,需要被修正。

关键之处在于:「安全」的判断不再是终点。它变成一个具体主张——一条编码了智能体对输入、取值范围与信任边界之看法的断言——而动态工具可以攻击它。运行时证伪由此把智能体的心智模型钉牢:每当模糊测试器触发一条断言,对代码本应做什么的理解就会与代码实际如何运行重新对齐。作者称,这一「规约优先」的闭环在真实样本上检测到的漏洞多于其他最新的智能体方法。

为何重要

智能体审计不再只是实验室里的奇观。2026 年 5 月底,Anthropic 披露其 Claude Mythos 预览版在取自 OSS-Fuzz 语料库的逾 1000 个开源项目中标记出超过 23000 个潜在漏洞,其中逾 1700 个已由外部评审确认。Code-Augur 表明,可与之相比的自主检测并不需要量身定制的前沿模型——通用 LLM 配上合适的框架同样能做到。

这把刀两面开刃。让防御方得以大规模审计依赖的同一批智能体,也让攻击方得以在相同依赖中挖掘未修补的缺陷。而规模成了新问题:一次产出数千条候选项的审计,如果每个「安全」结论都不透明、每条「漏洞」告警都要数小时的人工分诊,那就毫无价值。Code-Augur 的贡献恰恰是让两种结果都变得可读——一个可检视的结论,以及一个已被模糊测试器佐证的发现。

防御

对于采用——或接收——智能体代码审计结果的团队,实用的经验很具体。

不要孤立地信任智能体给出的「安全」结论。要索取支撑它的假设。「规约优先」的做法把不透明的判断变成可核验的产物;如果你的工具无法告诉你它为何认为某函数是安全的,你也就无法判断它是否只是用假设把漏洞绕开了。

把 LLM 推理与动态证伪配对使用。智能体的静态判断与有引导的模糊测试器各自捕捉不同的错误;Code-Augur 的价值在于二者之间的闭环,而非任何一半单独存在。把智能体断言的不变式当作测试预言机,让模糊测试去尝试打破它们。

大规模分诊与披露过载做好准备。一个产出数万条候选项的扫描器,会把瓶颈转移到人工确认,以及必须消化海量报告的维护者身上。在任何披露之前要求外部或人工确认,并与维护者协调,使 AI 发现的缺陷遵循负责任披露的时限,而非倾倒一堆未经核实的发现。

最后,先审计你自己的代码。2026 年这波智能体检测的教训就是对称性:主动审计的一方,会比为利用而审计的一方更早触及漏洞。

状态

项目详情
发表arXiv:2606.18619,2026 年 6 月 17 日提交
作者Luo、Zafar、Wolff、Roychoudhury(新加坡国立大学)
方法「规约优先」的智能体审计 + 对内嵌断言的有引导模糊测试证伪
结果在重要 OSS 项目中发现 22 个新漏洞;在真实样本上优于以往的智能体方法
所用模型通用 LLM(Claude Sonnet、DeepSeek),对比 Claude Mythos 等专用模型

Sources