DATA LEAK LOW NEW

能力与倾向：审计大模型训练数据泄露

2026 年 6 月的框架 PropMe 区分了模型在攻击下「能」泄露什么与在日常使用中「会」泄露什么。两者差距很大——忽略它的审计会错估真实风险。

2026-06-21 // 5 min affects: comma-v0.1, dfm-decoder-open, open-weight-llms

这是什么？

2026 年 6 月 4 日，南丹麦大学的研究者发布了 PropMe（arXiv:2606.06286），一个重新定义如何衡量大语言模型记忆现象的框架。其核心观察是方法论层面的：几乎所有现有的记忆评估衡量的都是模型能否被迫复现训练数据——这是一种能力——而非它在日常使用中是否真的这样做——这是一种倾向。二者常被混为一谈，而这种混淆夸大了已部署模型的表面风险。

记忆现象本身并不新鲜。自 Carlini 等人（2021）以及 Nasr 等人（2023）的大规模抽取工作以来，人们已清楚：在对抗式提示下，模型可以逐字吐出受版权保护的文本和个人标识符。PropMe 的贡献并非一种新攻击——而是一种更干净的审计方式。它是测量工具，不是漏洞利用。

工作原理

PropMe 在同一模型上对比两种提示机制。倾向设置使用合理、自然措辞的提示（Generic 与 Specific，各 100 个样本），与训练数据的词汇重叠很低——即普通用户会输入的内容。能力设置使用前缀攻击：以一条不少于 100 个 token 的训练样本的前 50 个 token 为条件，将模型的逐字续写与完整语料对照评分。

随后，一个倾向变换把任意现有记忆度量 f 映射到 [0,1] 的分数：

PM(M, x) = 1/2 * ( 1 + ( f_p(M,x) - f_c(M,x) ) / ( f_p(M,x) + f_c(M,x) ) )

f_p = 倾向（日常）提示下的度量值
f_c = 能力（前缀攻击）提示下的度量值

能力高 + 日常使用低 -> PM 低（模型能泄露，但并不倾向于泄露）
能力低 + 日常使用高 -> PM 高（模型自发泄露）

该框架还提供 SimpleTrace，一个基于 infini-gram（受 OLMoTrace 启发）构建的开源管线，能确定性地把一段生成归因到它被记忆来源的文档——无需概率式成员推断。它很快：在四个 CPU 核心上，对 Common Pile 约 4600 亿 token 每分钟可追踪约 100 次查询。研究评估了两个完全开放的模型 Comma v0.1 与 DFM Decoder Open，覆盖一个英文语料（Common Pile）和一个丹麦语语料（Dynaword）。

为何重要

核心结论是能力与倾向之间存在一致的差距。前缀攻击引出的记忆信号明显强于通用或特定提示，而倾向分数总体保持很低。说白了：这些模型在被直接逼问时能够泄露训练数据，但在日常、非对抗的使用中很少这样做。第二个发现是一个实用杠杆：DFM Decoder 由 Comma 在部分不同数据上持续预训练而来，它对原始 Common Pile 语料的记忆少于 Comma 本身。

对防御者与合规团队而言，这一教训是双向的。只报告最坏情况的可抽取性（红队的惯用数字）会高估已部署模型日常暴露的泄露。但只报告非对抗数字又会低估有动机的攻击者用前缀能抽取的内容。论文将此直接与监管挂钩：GDPR 关于「设计即数据保护」与定期测试的义务，以及欧盟《人工智能法案》对系统性风险模型的风险管理与稳健性要求，都推动人们提供可衡量的泄露证据。日常使用下的倾向，是衡量「可预见」泄露的一个站得住脚的指标。

防御

**报告两个维度。**记忆审计应同时公布最坏情况可抽取性与日常使用倾向。单一数字会掩盖风险画像，导致虚惊或虚假安心。
**进行确定性归因。**在你掌控训练语料时，优先使用追踪（SimpleTrace / OLMoTrace / infini-gram），而非更嘈杂、在审计中更难辩护的概率式成员推断。
**对语料去重。**重复是逐字记忆的有据可查的驱动因素；在部署前进行激进去重可降低能力。
**把持续训练当作杠杆，而非解药。**后续在部分不同数据上的预训练，在此可测量地降低了对原始语料的记忆——有用，但并无保证，且可能引入对较新数据的记忆。
**绝不要把「倾向低」读作「无风险」。**能力仍在；拥有前缀的攻击者依旧能抽取。请继续保留输出过滤、成员推断测试、金丝雀标记与日志访问控制。另见可证明的训练数据成员性与 DP 适配的经验性隐私差距。
**注意适用范围。**结果基于两个开放模型与两个语料。经 RLHF 对齐的闭源生产模型表现不同——Nasr 等人的分歧攻击曾从对齐的生产系统中抽取数据——因此请勿在未审计的情况下把这些数字套用到托管模型上。

状态

项目	参考	日期	备注
PropMe + SimpleTrace	arXiv:2606.06286v1 [cs.CL]	2026-06-04	倾向感知的记忆框架，CC BY 4.0
代码	github.com/N-essuno/PropMe	2026-06	SimpleTrace 以开源发布
所研究的模型	Comma v0.1、DFM Decoder Open	—	完全开放，训练数据为公有/宽松许可
语料	Common Pile（英）、Dynaword（丹麦语）	—	以 infini-gram 建立索引
先前工作（能力）	Carlini 2021、Nasr 2023	2021 / 2023	本工作将其抽取攻击重新定位为能力上界

对从业者有用的重新定位，既不是「模型会泄露」也不是「模型没问题」——而是攻击下的可抽取性与日常使用下的泄露是两个不同的数字，可信的记忆审计必须两者都报告。

能力与倾向：审计大模型训练数据泄露

这是什么？

工作原理

为何重要

防御

状态

Sources