DEFENSE LOW NEW

Need to Know：基于情境完整性的隐私查询改写

2026 年 6 月 2 日的一篇 arXiv 论文把隐私保护的查询改写重新定义为情境完整性问题：只有当任务真正需要时，才把某段信息发送给云端 LLM，而不是因为匹配到某种 PII 类型。

2026-06-07 // 5 min affects: cloud-hosted-llm-apis, on-device-llm, pii-redaction-pipelines, llm-delegation

这是什么？

2026 年 6 月 2 日，Xinyue Huang、Xiaochun Cao 与 Wenyuan Yang 发布了《Need to Know: Contextual-Integrity-Grounded Query Rewriting for Privacy-Conscious LLM Delegation》（arXiv:2606.04067，cs.CR / cs.AI）。论文针对一种容易被忽视的数据暴露——因为它并不会让系统”出故障”：每当用户把任务委托给云端托管的 LLM 时，其提示词往往会连同任务真正需要的内容，一并携带与任务无关的敏感披露。服务提供商，以及任何能访问其日志的人，都会同时收到这两者。

作者的核心论点是：常用的缓解手段——按类型进行的 PII 脱敏——用错了工具。一个把凡是看起来像姓名、地址或卡号的内容统统遮盖的脱敏器是与情境无关的：它既会过度披露未被归类的敏感情境（一个医疗细节、一段关系、文字中暗示的地点），又会过度删除模型本需要的承载答案的片段。论文的贡献是一次重新定义，外加一个基准与一个训练好的改写器——而非一种攻击。

工作原理

论文在**情境完整性（Contextual Integrity, CI）**的视角下重新定义隐私保护的查询改写：只有当信息流动符合其被分享时所处情境的规范，该流动才是恰当的。把它落到委托场景的规则上，就成了一条单一判据——只有当某个片段对任务是必要的，才应将其转发给云端模型。 决策标准是必要性，而非数据类型。

为使其可度量，作者构建了 DelegateCI-Bench，称其为首个面向任务的、用于隐私委托的情境完整性基准。它包含 3,167 个样本，融合了覆盖 11 项任务、20 种任务类型的合成数据、取自 WildChat 的真实用户查询，以及一个敏感信息密集的医疗挑战集。

# 逐片段的概念性判定 —— 仅为描述，并非可运行代码。
# 来源：arXiv:2606.04067 (Huang, Cao & Yang, 2026)。

按类型脱敏:    mask(span) 当 regex/NER 判定为 "PII"      # 对情境无感
情境完整性:    forward(span) 仅当 task_essential(span)
              否则 suppress(span)                       # 以必要性为准

在该基准之上，作者用一个由 CI 引导的强化学习框架训练查询改写器，把”必要”片段与”非必要的敏感”片段转化为可验证的优化信号——改写器因保留任务关键信息、同时剔除多余披露而获得奖励。所报告的结果：学到的改写器达到最佳的隐私—效用权衡，相较于端侧（on-device）基线，平均效用最高提升 +10.1。

为何重要

这是 LLM 数据暴露的日常一面。没有恶意载荷，也没有被攻陷的模型——只是因为提示词是最方便倾倒一切已知信息的地方，于是大量敏感情境流向了第三方提供商。对于受监管的工作流（医疗、法律、人力资源），这种流动既是隐私问题，也是合规面；而”我们在发送前会脱敏 PII”是一种比看上去更脆弱的控制：按类型的脱敏器会漏掉那些不属于已知 PII 类型的情境，并在抹去承载答案的片段时破坏效用。

CI 的框架远不止适用于这一个改写器。任何在云端模型前构建网关的团队——代理、DLP 过滤器、端侧预处理——都在隐式地做出转发或抑制的决策。以必要性而非数据类型来做这些决策，是一个更清晰的心智模型；而像 DelegateCI-Bench 这样的基准，能让人检验某个过滤器是否真正在减少泄露的同时保住答案，而不是用一种失败去换另一种失败。

防御

论文本身就是防御，但落地要点很具体。把面向云端 LLM 的数据最小化当作一次必要性测试，而非一次正则匹配：逐一追问每个敏感片段是否改变答案，若不改变就抑制它。要同时度量权衡的两端——隐私与效用——因为悄悄删去承载答案文本的脱敏器会无声地失败，用户随即会绕过它。在可行时，把改写/最小化这一步放在端侧或你的信任边界之内执行，使抑制发生在任何内容离开之前；并保留一个独立的评估集（医疗或其他高敏感度场景），以捕捉过度披露的回退。

两点诚实的提醒。学到的改写器本身也是一个模型：它可能把某个片段误判为非必要而丢掉重要内容，或保留了本该剔除的内容——因此它是一层风险削减，而非保证；高风险流程仍需人工审查，并对云端模型可见的内容做最小权限限定。此外，+10.1 这一数字是作者的基准平均值；真实收益取决于你的任务构成，以及你的查询究竟有多敏感。

状态

项目	参考	日期	备注
主要论文	arXiv:2606.04067 (Huang, Cao, Yang)	2026-06-02	cs.CR / cs.AI；v1
基准	DelegateCI-Bench	2026-06	3,167 个样本，11 项任务，20 种任务类型，WildChat + 医疗集
方法	由 CI 引导的强化学习改写器	2026-06	最佳隐私—效用权衡，相较端侧基线平均效用最高 +10.1
框架	情境完整性：仅当片段对任务必要时才转发	2026-06	取代对情境无感的按类型 PII 脱敏

这是一项研究成果，而非已披露的产品漏洞——没有可打的补丁。可落地的要点是架构层面的：以必要性而非数据类型来决定什么内容到达云端 LLM，并在度量隐私的同时度量效用，使你的最小化层不会无声地删掉答案。

Need to Know：基于情境完整性的隐私查询改写

这是什么？

工作原理

为何重要

防御

状态

Sources