DATA LEAK MEDIUM NEW

通过 LLM 分词器的成员推理：一种新的隐私攻击向量

USENIX Security 2026 的一篇论文表明，仅凭模型的分词器就能泄露预训练所用的数据集——一种更廉价、无需模型的成员推理攻击。

2026-06-18 // 6 min affects: llm 分词器, bpe / 子词分词器, 预训练 llm

这是什么？

《Membership Inference Attacks on Tokenizers of Large Language Models》（Meng Tong、Yuntao Du、Kejiang Chen、Weiming Zhang、Ninghui Li —— arXiv 2510.05699，2025 年 10 月 7 日发布；被 USENIX Security 2026 录用，报告页面）据作者称，是首个针对通过模型的分词器（而非模型本身）发生成员泄露的研究。

成员推理攻击（MIA）试图回答一个简单却影响深远的问题：某段文本是否属于训练某个模型所用的数据？对预训练 LLM 而言，要可靠地回答这一问题很困难——针对完整模型的 MIA 会受到样本误标、评估数据与真实训练数据之间的分布偏移，以及可供研究的小模型与希望审计的生产模型之间巨大差距的困扰。本文的贡献在于把这一问题下移一层，移到分词器，而在这里上述障碍基本消失。

工作原理

子词分词器（例如字节对编码 BPE 词表）的学习方式是：不断合并语料中最频繁的相邻符号对，直到达到目标词表大小。由此得到的合并规则与词表，因而是训练文本的一份压缩统计指纹：在该语料中常见的序列会得到简短高效的编码，而陌生序列则会被切分成许多小 token。

作者利用了两个实际特性。其一，分词器的训练数据通常来自并代表 LLM 的预训练语料，因此分词器上的泄露能反映出关于模型的信息。其二，与数十亿参数的模型不同，分词器可以低成本地从零训练，这使攻击者能够在受控条件下构建参考（影子）分词器，从而规避在模型级 MIA 中困扰研究者的模型规模与分布偏移问题。在此基础上，本文探索了五种攻击方法来推断某个数据集是否属于训练分布，并在数百万条来自互联网的样本上、针对最先进 LLM 的分词器进行了验证。结果是一致的：分词器携带着可测量、可利用的成员信号。本文停留在方法论与测量层面——它是一项隐私风险研究，而非可操作的数据窃取工具。

为什么重要

分词器通常被当作惰性的”管道”。它们随大多数模型一同公开发布，很少被纳入模型的隐私分析，并被假定不会泄露任何敏感信息。这项工作挑战了这一假设：团队最自由分发的组件，可能正是通向”模型用什么训练”的旁路通道。

其实际影响在于数据集层面，而非单条记录——该攻击推断的是某个语料是否参与了训练，而不是重建某个特定个人的数据。即便如此，这对版权与许可纠纷、对”我的专有/基准数据是否被使用？“之类的问题、对污染审计，以及对任何在机密文本上训练自定义分词器并随后分发的组织，都很重要。它也扩大了 MIA 的攻击面：加固了模型却原样发布分词器的防御者，留下了一扇成本更低的门。

防御

必须牢记的结论是：分词器应当处于隐私边界的内侧，而非外侧。具体措施：

采用论文提出的自适应防御。 作者提出了一种专门用于降低分词器成员泄露的缓解方法；发布分词器的团队应当评估并应用它，而不是默认该组件是安全的。
不要在打算公开发布的敏感语料上训练分词器。 如果词表必须从机密或专有文本中派生，应将所得分词器视为潜在的披露产物，并据此管控其发布。
在可行时复用经过验证的通用分词器，使任何自定义词表都不会编码私有数据集的统计特征。
将成员推理（含分词器级 MIA）纳入发布前的隐私测试。 在交付前用影子分词器探针测量泄露，就像审计模型级 MIA 一样。
记录数据来源。 清晰的数据集文档有助于针对此类攻击意在支撑的”是否使用了该语料？“主张进行推理与防御。

现状

这是经过同行评审的学术研究（USENIX Security 2026），并非某个具名产品中的漏洞，因此没有 CVE 或补丁。关键日期：arXiv 预印本 2025 年 10 月 7 日（2510.05699）；被 USENIX Security 2026 录用一事已在会议的录用论文列表中确认。其启示是架构性的：LLM 的隐私加固必须覆盖分词器，因为一种无需模型、成本相对低廉的攻击，可以直接从词表中读出训练集成员信息。

通过 LLM 分词器的成员推理：一种新的隐私攻击向量

这是什么？

工作原理

为什么重要

防御

现状

Sources