系统:运行中
← 返回所有攻击
DATA POISONING MEDIUM NEW

Oracle 投毒:污染智能体赖以推理的知识图谱

2026 年 5 月 10 日 arXiv 上的一篇论文定义了 Oracle 投毒:污染智能体在运行时查询的知识图谱,它就会在推理正确的前提下得出错误结论。在九个模型上,定向智能体查询中对被投毒数据的信任率高达 100%。

2026-06-19 // 5 min affects: llm-agents, knowledge-graph-rag, tool-use-agents, gpt-5.1

这是什么?

2026 年 5 月 10 日,研究者 Ben Kereopa-Yorke、Guillermo Diaz、Holly Wright、Reagan Johnston、Ron F. Del Rosario 和 Timothy Lynar 发表了 Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning(arXiv:2605.09822,cs.CR/cs.AI)。他们将 Oracle 投毒定义为一类攻击:攻击者污染一个 AI 智能体在运行时通过工具调用查询的结构化知识图谱,使智能体在推理正确的前提下得出错误结论。

它与提示注入的区别正是关键所在。提示注入篡改的是智能体的指令;Oracle 投毒篡改的是智能体所推理的数据。模型从未被诱导做出不当行为:它忠实地从可信工具中取回一个事实,并据此进行严谨推理,只是这个事实本身是假的。这与基于图谱的检索中被探讨的同一类完整性问题相同,例如 KEPo(图谱 RAG 的知识演化投毒,ACM Web Conference 2026),但本文是在生产规模的智能体系统上、而非在基准测试上加以演示的。

工作原理

如今许多智能体把知识图谱当作权威的预言机:一次工具调用返回节点和边(实体、关系、论断),智能体把这些结果纳入其回答。论文研究了一个含 4200 万节点的生产级代码知识图谱,并给出六种攻击场景,攻击者在其中修改图谱内容——例如注入某组件是安全的这一伪造论断。

评估在来自三家厂商的九个模型上使用真实的 SDK 工具调用(每个模型 N=30):模型自主调用图谱查询工具并基于结果推理。主要发现:

  • 定向查询: 一旦攻击者达到中等复杂度(L2 级别),每个受测模型对被投毒数据的接受率都达到 100%。在 270 次有效试验中的 269 次,模型都接受了伪造的安全论断。
  • 开放式提示: 信任率降至 3–55%,作者将其标记为提示措辞带来的混杂因素,并诚实地报告两种条件,而非只挑选有利结果。
  • 带有突变点的复杂度梯度: 信任率会在超过某个最低技能阈值后由 0% 跳变至 100%,把问题从攻击是否奏效重新表述为需要多少投入。
  • 投放方式是一阶混杂因素。 以内联方式评估同一载荷可能产生假阴性:GPT-5.1 在内联测试中信任率为 0%,但在模拟和真实的智能体工具调用下均为 100%。在聊天框里测试模型,并不能说明其智能体会如何表现。

理解这一教训无需任何攻击字符串,本文也不复现任何攻击字符串:其机制属于数据完整性问题,而非巧妙的提示。

为何重要

智能体系统越来越多地把基准事实外包给检索层——知识图谱、向量库、内部维基——并假定检索到的数据是可信的。Oracle 投毒表明,这一假设至关重要却基本无人防护。如果攻击者能写入预言机,智能体就会成为攻击者论断的自信而论证充分的传声筒,而通常的防御手段(对齐、指令层级、反注入过滤器)从不触发,因为根本没有注入任何指令。

作者指出,基于对另外四个平台的分析,这种攻击似乎可推广到整个知识图谱生态。具体的暴露面存在于任何智能体拥有、或可被引导去访问可变共享知识库的地方——代码情报图谱、CMDB、威胁情报图谱、带写入路径的 RAG 语料库。

防御

论文评估了五种防御措施,并坦率地承认只有一种是决定性的:

  • 只读访问控制可消除直接篡改这一向量——如果智能体和不可信的写入方都无法修改预言机,最干净的攻击路径就被封堵。应把知识图谱当作特权数据存储,施加严格的写入授权和审计日志。
  • 其余四种防御是部分有效且依赖具体模型的;不要只依赖任何一种,应叠加使用。
  • 图谱内容的来源与完整性: 对论断进行签名或归属,追踪每个节点/边由谁写入,并把可信度/来源呈现给推理环节,而不是把检索到的事实当作无条件的真理。
  • 在真实工具调用下测试,而非内联。 由于投放方式会颠倒结果,安全评估和红队演练必须走真实的智能体路径,否则会报出假阴性。
  • 约束对检索论断的信任: 对高影响力的断言(例如某物是安全的)要求佐证,并对取决于单一检索事实的决策保留人工把关。

状态

项目内容
论文Oracle Poisoning(arXiv:2605.09822)
发表2026 年 5 月 10 日
类别知识图谱/预言机投毒(区别于提示注入)
测试9 个模型、3 家厂商、4200 万节点代码图谱
核心结果定向智能体查询下对被投毒数据 100% 信任(L2)
最强防御只读访问控制(其余部分有效、依赖模型)

关键日期:2026 年 5 月 10 日——首次在生产规模的智能体系统上对知识图谱投毒进行实证演示。本文出于防御目的总结公开研究,不复现任何攻击载荷。

Sources