系统:运行中
← 返回所有攻击
DATA LEAK MEDIUM NEW

通过 LLM 分词器的成员推理:一种新的隐私攻击向量

USENIX Security 2026 的一篇论文表明,仅凭模型的分词器就能泄露预训练所用的数据集——一种更廉价、无需模型的成员推理攻击。

2026-06-18 // 6 min affects: llm 分词器, bpe / 子词分词器, 预训练 llm

这是什么?

《Membership Inference Attacks on Tokenizers of Large Language Models》(Meng Tong、Yuntao Du、Kejiang Chen、Weiming Zhang、Ninghui Li —— arXiv 2510.05699,2025 年 10 月 7 日发布;被 USENIX Security 2026 录用,报告页面)据作者称,是首个针对通过模型的分词器(而非模型本身)发生成员泄露的研究。

成员推理攻击(MIA)试图回答一个简单却影响深远的问题:某段文本是否属于训练某个模型所用的数据?对预训练 LLM 而言,要可靠地回答这一问题很困难——针对完整模型的 MIA 会受到样本误标、评估数据与真实训练数据之间的分布偏移,以及可供研究的小模型与希望审计的生产模型之间巨大差距的困扰。本文的贡献在于把这一问题下移一层,移到分词器,而在这里上述障碍基本消失。

工作原理

子词分词器(例如字节对编码 BPE 词表)的学习方式是:不断合并语料中最频繁的相邻符号对,直到达到目标词表大小。由此得到的合并规则与词表,因而是训练文本的一份压缩统计指纹:在该语料中常见的序列会得到简短高效的编码,而陌生序列则会被切分成许多小 token。

作者利用了两个实际特性。其一,分词器的训练数据通常来自并代表 LLM 的预训练语料,因此分词器上的泄露能反映出关于模型的信息。其二,与数十亿参数的模型不同,分词器可以低成本地从零训练,这使攻击者能够在受控条件下构建参考(影子)分词器,从而规避在模型级 MIA 中困扰研究者的模型规模与分布偏移问题。在此基础上,本文探索了五种攻击方法来推断某个数据集是否属于训练分布,并在数百万条来自互联网的样本上、针对最先进 LLM 的分词器进行了验证。结果是一致的:分词器携带着可测量、可利用的成员信号。本文停留在方法论与测量层面——它是一项隐私风险研究,而非可操作的数据窃取工具。

为什么重要

分词器通常被当作惰性的”管道”。它们随大多数模型一同公开发布,很少被纳入模型的隐私分析,并被假定不会泄露任何敏感信息。这项工作挑战了这一假设:团队最自由分发的组件,可能正是通向”模型用什么训练”的旁路通道。

其实际影响在于数据集层面,而非单条记录——该攻击推断的是某个语料是否参与了训练,而不是重建某个特定个人的数据。即便如此,这对版权与许可纠纷、对”我的专有/基准数据是否被使用?“之类的问题、对污染审计,以及对任何在机密文本上训练自定义分词器并随后分发的组织,都很重要。它也扩大了 MIA 的攻击面:加固了模型却原样发布分词器的防御者,留下了一扇成本更低的门。

防御

必须牢记的结论是:分词器应当处于隐私边界的内侧,而非外侧。具体措施:

  • 采用论文提出的自适应防御。 作者提出了一种专门用于降低分词器成员泄露的缓解方法;发布分词器的团队应当评估并应用它,而不是默认该组件是安全的。
  • 不要在打算公开发布的敏感语料上训练分词器。 如果词表必须从机密或专有文本中派生,应将所得分词器视为潜在的披露产物,并据此管控其发布。
  • 在可行时复用经过验证的通用分词器,使任何自定义词表都不会编码私有数据集的统计特征。
  • 将成员推理(含分词器级 MIA)纳入发布前的隐私测试。 在交付前用影子分词器探针测量泄露,就像审计模型级 MIA 一样。
  • 记录数据来源。 清晰的数据集文档有助于针对此类攻击意在支撑的”是否使用了该语料?“主张进行推理与防御。

现状

这是经过同行评审的学术研究(USENIX Security 2026),并非某个具名产品中的漏洞,因此没有 CVE 或补丁。关键日期:arXiv 预印本 2025 年 10 月 7 日2510.05699);被 USENIX Security 2026 录用一事已在会议的录用论文列表中确认。其启示是架构性的:LLM 的隐私加固必须覆盖分词器,因为一种无需模型、成本相对低廉的攻击,可以直接从词表中读出训练集成员信息。

Sources