系统:运行中
← 返回所有攻击
SUPPLY CHAIN MEDIUM NEW

语义合规劫持:无载荷的智能体技能,扫描器看不见

2026 年 5 月 14 日的一篇 arXiv 论文表明,一个不含代码、也无显式恶意意图的技能文件,可诱导编码智能体在运行时自行写出恶意代码——而检测率为 0.00%。

2026-06-17 // 6 min affects: coding-agents, agent-skill-marketplaces, llm-agents

这是什么?

2026 年 5 月 14 日,研究者 Xinyu Liu、Yukai Zhao、Xing Hu 和 Xin Xia 在 arXiv(cs.CR/cs.SE)发布了 Exploiting LLM Agent Supply Chains via Payload-less Skills。该论文描述了语义合规劫持(Semantic Compliance Hijacking,SCH)——一种针对自主编码智能体的供应链攻击,其中不含任何恶意代码

迄今为止,针对智能体技能安全的研究大多在搜寻内容:下载的技能里隐藏的指令、混淆的载荷、可疑的导入(这正是我们在恶意智能体技能skill.md 注册表供应链中介绍的静态与注册表防御所依据的模型)。SCH 绕过了这一切。恶意技能只携带伪装成”合规规则”的自然语言文本,让智能体自身的生成能力在运行时写出并执行有害代码。面对作者测试的扫描工具,被篡改的技能文件保持着 0.00% 的检测率

工作原理

智能体从开放市场获取第三方技能来扩展能力。一个技能通常是一小组指令,外加可选的代码。SCH 只污染指令层。

攻击者不嵌入漏洞利用,而是把恶意目标改写成看似无害的需求——伪装成项目约定、“安全加固”步骤,或智能体在完成用户合法任务时必须满足的强制合规检查。由于文本不含可执行载荷、也无明显有害意图,它能通过审查。随后由对齐的模型完成危险部分:读取这些”规则”后,它合成并执行代码以达成攻击者目标——例如窃取凭据或打开远程代码执行通路。

# Conceptual only — no working ruleset.
poisoned skill (natural language "compliance rules")  # 0 code, 0 AST signature
        --> agent reads rules as task requirements
        --> agent GENERATES code to "comply"
        --> agent EXECUTES it                          # confidentiality breach / RCE

作者搭建了一条自动化流水线,在三个主流智能体框架和三个基础模型上测试 SCH。在最易受攻击的配置下,成功率峰值达到机密性破坏 77.67%远程代码执行(RCE)67.33%。第二个组件**多技能自动优化(Multi-Skill Automated Optimization,MS-AO)**把篡改分散到多个技能上,进一步提升成功率。关键的规避特性在于:通过省略可识别的抽象语法树(AST)签名和显式有害字符串,技能文件完全躲过了基于签名的扫描。这是2026 年 4 月相关工作所研究的静态技能生态投毒在”运行时合成”维度上的近亲。

为何重要

编码智能体如今是智能体生态中最活跃的领域,技能市场则是它们的软件包注册表。“先扫描再信任制品”这一防御本能,假定恶意存在于制品之中。SCH 打破了这一假设:制品是干净的,武器是智能体本身。这与让提示注入难以解决的架构问题如出一辙,只是被应用到了供应链——在”智能体应遵循的指令”与”它仅应处理的数据”之间,并不存在可靠的边界。

它也以非常具体的方式抬高了防御者的门槛。面对当前工具 0.00% 的检测率,意味着审查清单、AST 扫描器和签名库在这里几乎提供不了保障。而且由于有害代码在每次运行时重新生成,同一技能的两次执行可能产生不同的载荷,给事后取证带来困难。

关于范围的一点说明:这是在既定测试矩阵上的实验室研究,而非已确认的真实世界攻击行动,作者也未发布可用的规则集。应将其视为一个已被验证、需要堵上的盲点,而非一个需要恐慌的活跃漏洞利用。

防御

  • 从签名检测转向意图验证。 这正是论文自身的结论:扫描已知的恶意代码,无法捕获智能体在运行时临场发明的行为。评估技能(以及工具/技能的输出)时,应看它会让智能体做什么,而不仅仅是它包含哪些字符串。
  • 不要把技能文本当作可信指令。 技能的描述与”规则”是不可信输入。尽可能将它们排除在智能体的特权指令通道之外,并应用上下文完整性与指令层级控制。
  • 管控危险原语,而非文档本身。 由于妥协以先生成后执行的代码形式落地,应将审批与沙箱施加在代码执行、文件/网络出口和凭据访问上——即 Agents Rule of Two 的逻辑。一个无法在无人监督下执行任意代码或访问网络的智能体,就无法完成 SCH 的最后一步。
  • 技能最小权限。 明确限定每个技能对文件系统、机密和网络的访问;默认拒绝。
  • 记录并复核合成出的行为。 捕获智能体生成的代码及其工具调用,使运行时合成的载荷即便源技能看上去干净,也会留下可复核的痕迹。
  • 优先使用经过验证、已锁定版本的技能。 从具备可验证来源、版本锁定的渠道获取技能,而非开放市场,并在每次更新时重新复核。

状态

项目详情
技术语义合规劫持(SCH)——无载荷技能供应链攻击
来源arXiv:2605.14460(cs.CR/cs.SE),2026 年 5 月 14 日提交
最高成功率机密性破坏 77.67% · RCE 67.33%(最脆弱配置)
检测面对所测试的签名/AST 扫描器为 0.00%
测试范围3 个智能体框架 × 3 个基础模型(摘要中未具名)
真实状态研究结果;无已确认的真实世界使用;未发布规则集

Sources