DATA POISONING MEDIUM NEW

Oracle 投毒：污染智能体赖以推理的知识图谱

2026 年 5 月 10 日 arXiv 上的一篇论文定义了 Oracle 投毒：污染智能体在运行时查询的知识图谱，它就会在推理正确的前提下得出错误结论。在九个模型上，定向智能体查询中对被投毒数据的信任率高达 100%。

2026-06-19 // 5 min affects: llm-agents, knowledge-graph-rag, tool-use-agents, gpt-5.1

这是什么？

2026 年 5 月 10 日，研究者 Ben Kereopa-Yorke、Guillermo Diaz、Holly Wright、Reagan Johnston、Ron F. Del Rosario 和 Timothy Lynar 发表了 Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning（arXiv:2605.09822，cs.CR/cs.AI）。他们将 Oracle 投毒定义为一类攻击：攻击者污染一个 AI 智能体在运行时通过工具调用查询的结构化知识图谱，使智能体在推理正确的前提下得出错误结论。

它与提示注入的区别正是关键所在。提示注入篡改的是智能体的指令；Oracle 投毒篡改的是智能体所推理的数据。模型从未被诱导做出不当行为：它忠实地从可信工具中取回一个事实，并据此进行严谨推理，只是这个事实本身是假的。这与基于图谱的检索中被探讨的同一类完整性问题相同，例如 KEPo（图谱 RAG 的知识演化投毒，ACM Web Conference 2026），但本文是在生产规模的智能体系统上、而非在基准测试上加以演示的。

工作原理

如今许多智能体把知识图谱当作权威的预言机：一次工具调用返回节点和边（实体、关系、论断），智能体把这些结果纳入其回答。论文研究了一个含 4200 万节点的生产级代码知识图谱，并给出六种攻击场景，攻击者在其中修改图谱内容——例如注入某组件是安全的这一伪造论断。

评估在来自三家厂商的九个模型上使用真实的 SDK 工具调用（每个模型 N=30）：模型自主调用图谱查询工具并基于结果推理。主要发现：

定向查询： 一旦攻击者达到中等复杂度（L2 级别），每个受测模型对被投毒数据的接受率都达到 100%。在 270 次有效试验中的 269 次，模型都接受了伪造的安全论断。
开放式提示： 信任率降至 3–55%，作者将其标记为提示措辞带来的混杂因素，并诚实地报告两种条件，而非只挑选有利结果。
带有突变点的复杂度梯度： 信任率会在超过某个最低技能阈值后由 0% 跳变至 100%，把问题从攻击是否奏效重新表述为需要多少投入。
投放方式是一阶混杂因素。 以内联方式评估同一载荷可能产生假阴性：GPT-5.1 在内联测试中信任率为 0%，但在模拟和真实的智能体工具调用下均为 100%。在聊天框里测试模型，并不能说明其智能体会如何表现。

理解这一教训无需任何攻击字符串，本文也不复现任何攻击字符串：其机制属于数据完整性问题，而非巧妙的提示。

为何重要

智能体系统越来越多地把基准事实外包给检索层——知识图谱、向量库、内部维基——并假定检索到的数据是可信的。Oracle 投毒表明，这一假设至关重要却基本无人防护。如果攻击者能写入预言机，智能体就会成为攻击者论断的自信而论证充分的传声筒，而通常的防御手段（对齐、指令层级、反注入过滤器）从不触发，因为根本没有注入任何指令。

作者指出，基于对另外四个平台的分析，这种攻击似乎可推广到整个知识图谱生态。具体的暴露面存在于任何智能体拥有、或可被引导去访问可变共享知识库的地方——代码情报图谱、CMDB、威胁情报图谱、带写入路径的 RAG 语料库。

防御

论文评估了五种防御措施，并坦率地承认只有一种是决定性的：

只读访问控制可消除直接篡改这一向量——如果智能体和不可信的写入方都无法修改预言机，最干净的攻击路径就被封堵。应把知识图谱当作特权数据存储，施加严格的写入授权和审计日志。
其余四种防御是部分有效且依赖具体模型的；不要只依赖任何一种，应叠加使用。
图谱内容的来源与完整性： 对论断进行签名或归属，追踪每个节点/边由谁写入，并把可信度/来源呈现给推理环节，而不是把检索到的事实当作无条件的真理。
在真实工具调用下测试，而非内联。 由于投放方式会颠倒结果，安全评估和红队演练必须走真实的智能体路径，否则会报出假阴性。
约束对检索论断的信任： 对高影响力的断言（例如某物是安全的）要求佐证，并对取决于单一检索事实的决策保留人工把关。

状态

项目	内容
论文	Oracle Poisoning（arXiv:2605.09822）
发表	2026 年 5 月 10 日
类别	知识图谱/预言机投毒（区别于提示注入）
测试	9 个模型、3 家厂商、4200 万节点代码图谱
核心结果	定向智能体查询下对被投毒数据 100% 信任（L2）
最强防御	只读访问控制（其余部分有效、依赖模型）

关键日期：2026 年 5 月 10 日——首次在生产规模的智能体系统上对知识图谱投毒进行实证演示。本文出于防御目的总结公开研究，不复现任何攻击载荷。

Oracle 投毒：污染智能体赖以推理的知识图谱

这是什么？

工作原理

为何重要

防御

状态

Sources