智能体隐私是轨迹问题:OCELOT 在运行时为推断泄露设定预算
一篇日期为 2026 年 6 月 10 日的 arXiv 论文将 LLM 智能体隐私重新定义为后验风险控制:不再过滤每一次输出,而是为对手在整条轨迹上对某个秘密的信念可提升的幅度设定预算。
这是什么?
2026 年 6 月 10 日,一篇题为 OCELOT: Inference-Leakage Budgets for Privacy-Preserving LLM Agents 的论文(arXiv:2606.12341,cs.CR)提出了一个精确的论点:为什么针对每次输出的隐私过滤器,在会读取你的文件、调用工具、与外部服务交互的智能体上不断失效。其核心观点是:智能体的隐私不是单次输出的属性,而是整条轨迹的属性——而大多数团队部署的防御针对的是错误的单位。
论文指出令该问题困难的三个性质。泄露是累积的:单独看来无害的若干次披露,经由诚实但好奇或相互勾结的接收方(“汇点”)累加,最终成为对受保护秘密的一次推断。它是双向的:恶意的观测可以注入指令,使智能体自身的推理模型反过来对付其用户——这是从隐私角度看到的致命三要素。它还依赖于任务:同一字段对某个接收方是必需的,对另一个则是多余的。
工作原理
关键洞见是:一个判断”这次单独的披露是否可接受?“的过滤器看不到累积。逐次输出的语境完整性过滤器(如 AirGapAgent,CCS’24)、经典的信息流控制以及后验泄露监控器,各自只覆盖问题的一部分,但没有一个能在运行时控制基于推断的累积泄露。
OCELOT 将该问题重新表述为后验风险控制:一个运行时中介器为对手在一条轨迹上对某个秘密的信念可提升的幅度设定预算,而不是孤立地检查每次输出。
逐次输出过滤: 披露_i -> "孤立来看是否 OK?" -> 放行 (对累积视而不见)
后验风险控制: 信念(秘密 | 披露_1..i) <= 预算 -> 授权披露程度最小的变体
每次披露按所选变体向"按汇点信任加权的预算"计入一份经认证的最小熵成本
其机制——见证验证式解密(Witness-Verified Declassification)——刻意将判断与信任分离。一个不受信任、在本地微调的”防御者”模型检查每个候选披露,并产出结构化证据:带标签的原子和拟议的解密算子。随后由一个确定性验证器审计这些证据,为所选变体计入一份经认证的最小熵成本,并在按汇点信任加权的预算下授权最有用且披露程度最小的那次披露,记录在防篡改账本上。由于验证器是确定性的,且被强制执行的是预算本身,被攻陷或被操纵的防御者模型只能降低效用,而无法悄悄超支隐私预算——这正是该设计能抵御”不受信任内容试图颠覆智能体自身推理”这一双向情形的原因。
作者报告称,在多种智能体基准上、面对近期的多种防御,OCELOT 在更高任务效用下取得更低泄露,并能抵御自适应注入、越狱、累积推断与汇点勾结,且只带来适度开销。(具体数字见论文;真正持久的要点是其对比框架——轨迹预算 vs. 逐次输出过滤。)
为何重要
这是一个架构层面的论点,而非某个单一产品的缺陷。随着智能体迁移到 MCP 与智能体间(agent-to-agent)的管道,缓慢而分散的泄露面随之扩大:一个智能体可能把姓名给一个服务、把日期给另一个、把位置给第三个,单独看都不足为虑,合起来却足以重建一个秘密。如果你的控制是逐条消息的分类器,你可以通过每一次检查,却仍在整条轨迹上泄露秘密。风险恰好集中在智能体最有用之处:带记忆的长时运行助手、多工具工作流,以及输出在你并未完全信任的模型间流转的多智能体隐私泄露。
防御
OCELOT 本身就是防御;值得记取的是其可迁移的工程经验。
- 按轨迹设预算,而非按消息。 跟踪关于每个受保护秘密的累积披露并设定上限,而不是独立地为每次输出打分。这是唯一能关闭累积泄露通道的改变。
- 将判断与信任分离。 让一个(不受信任的)模型提议可披露的内容,由一个确定性验证器决定并计量成本。被颠覆的裁判应当只能降低效用,绝不能悄悄超支预算。
- 按汇点信任为预算加权。 发往第一方服务的字段,与同一字段发往未知第三方,并非同等程度的披露。把接收方信任作为显式项,并假设汇点可能相互勾结。
- 保留仅追加的披露账本。 关于披露了什么、给了谁、以何种经认证成本的防篡改记录,使语境完整性决策可在事后审计——并支撑 Agents Rule of Two 的”至多三选二”逻辑。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| OCELOT: Inference-Leakage Budgets for Privacy-Preserving LLM Agents | arXiv:2606.12341 | 2026-06-10 | 运行时后验风险中介器;见证验证式解密;防篡改账本上的最小熵预算 |
| Privacy in Action (PrivacyChecker / PrivacyLens-Live) | arXiv:2509.17488 | 2025-09-22 | 基于语境完整性的逐次输出缓解;MCP/A2A 动态评估(EMNLP 2025 Findings) |
| AirGapAgent | arXiv:2405.05175 | 2024-05-08 | 针对语境劫持的语境完整性最小化(CCS’24) |
要点不是语境完整性过滤器无用,而是执行的单位错了。智能体的隐私是在一条轨迹上决定的,而一个度量累积推断的预算,正是逐次输出过滤器永远无法成为的那个检查点。