系统:运行中
← 返回所有攻击
DATA LEAK LOW NEW

能力与倾向:审计大模型训练数据泄露

2026 年 6 月的框架 PropMe 区分了模型在攻击下「能」泄露什么与在日常使用中「会」泄露什么。两者差距很大——忽略它的审计会错估真实风险。

2026-06-21 // 5 min affects: comma-v0.1, dfm-decoder-open, open-weight-llms

这是什么?

2026 年 6 月 4 日,南丹麦大学的研究者发布了 PropMe(arXiv:2606.06286),一个重新定义如何衡量大语言模型记忆现象的框架。其核心观察是方法论层面的:几乎所有现有的记忆评估衡量的都是模型能否被迫复现训练数据——这是一种能力——而非它在日常使用中是否真的这样做——这是一种倾向。二者常被混为一谈,而这种混淆夸大了已部署模型的表面风险。

记忆现象本身并不新鲜。自 Carlini 等人(2021) 以及 Nasr 等人(2023)的大规模抽取工作 以来,人们已清楚:在对抗式提示下,模型可以逐字吐出受版权保护的文本和个人标识符。PropMe 的贡献并非一种新攻击——而是一种更干净的审计方式。它是测量工具,不是漏洞利用。

工作原理

PropMe 在同一模型上对比两种提示机制。倾向设置使用合理、自然措辞的提示(Generic 与 Specific,各 100 个样本),与训练数据的词汇重叠很低——即普通用户会输入的内容。能力设置使用前缀攻击:以一条不少于 100 个 token 的训练样本的前 50 个 token 为条件,将模型的逐字续写与完整语料对照评分。

随后,一个倾向变换把任意现有记忆度量 f 映射到 [0,1] 的分数:

PM(M, x) = 1/2 * ( 1 + ( f_p(M,x) - f_c(M,x) ) / ( f_p(M,x) + f_c(M,x) ) )

f_p = 倾向(日常)提示下的度量值
f_c = 能力(前缀攻击)提示下的度量值

能力高 + 日常使用低 -> PM 低(模型能泄露,但并不倾向于泄露)
能力低 + 日常使用高 -> PM 高(模型自发泄露)

该框架还提供 SimpleTrace,一个基于 infini-gram(受 OLMoTrace 启发)构建的开源管线,能确定性地把一段生成归因到它被记忆来源的文档——无需概率式成员推断。它很快:在四个 CPU 核心上,对 Common Pile 约 4600 亿 token 每分钟可追踪约 100 次查询。研究评估了两个完全开放的模型 Comma v0.1DFM Decoder Open,覆盖一个英文语料(Common Pile)和一个丹麦语语料(Dynaword)。

为何重要

核心结论是能力与倾向之间存在一致的差距。前缀攻击引出的记忆信号明显强于通用或特定提示,而倾向分数总体保持很低。说白了:这些模型在被直接逼问时能够泄露训练数据,但在日常、非对抗的使用中很少这样做。第二个发现是一个实用杠杆:DFM Decoder 由 Comma 在部分不同数据上持续预训练而来,它对原始 Common Pile 语料的记忆少于 Comma 本身。

对防御者与合规团队而言,这一教训是双向的。只报告最坏情况的可抽取性(红队的惯用数字)会高估已部署模型日常暴露的泄露。但只报告非对抗数字又会低估有动机的攻击者用前缀能抽取的内容。论文将此直接与监管挂钩:GDPR 关于「设计即数据保护」与定期测试的义务,以及欧盟《人工智能法案》对系统性风险模型的风险管理与稳健性要求,都推动人们提供可衡量的泄露证据。日常使用下的倾向,是衡量「可预见」泄露的一个站得住脚的指标。

防御

  1. **报告两个维度。**记忆审计应同时公布最坏情况可抽取性日常使用倾向。单一数字会掩盖风险画像,导致虚惊或虚假安心。
  2. **进行确定性归因。**在你掌控训练语料时,优先使用追踪(SimpleTrace / OLMoTrace / infini-gram),而非更嘈杂、在审计中更难辩护的概率式成员推断。
  3. **对语料去重。**重复是逐字记忆的有据可查的驱动因素;在部署前进行激进去重可降低能力。
  4. **把持续训练当作杠杆,而非解药。**后续在部分不同数据上的预训练,在此可测量地降低了对原始语料的记忆——有用,但并无保证,且可能引入对较新数据的记忆。
  5. **绝不要把「倾向低」读作「无风险」。**能力仍在;拥有前缀的攻击者依旧能抽取。请继续保留输出过滤、成员推断测试、金丝雀标记与日志访问控制。另见可证明的训练数据成员性DP 适配的经验性隐私差距
  6. **注意适用范围。**结果基于两个开放模型与两个语料。经 RLHF 对齐的闭源生产模型表现不同——Nasr 等人的分歧攻击 曾从对齐的生产系统中抽取数据——因此请勿在未审计的情况下把这些数字套用到托管模型上。

状态

项目参考日期备注
PropMe + SimpleTracearXiv:2606.06286v1 [cs.CL]2026-06-04倾向感知的记忆框架,CC BY 4.0
代码github.com/N-essuno/PropMe2026-06SimpleTrace 以开源发布
所研究的模型Comma v0.1、DFM Decoder Open完全开放,训练数据为公有/宽松许可
语料Common Pile(英)、Dynaword(丹麦语)以 infini-gram 建立索引
先前工作(能力)Carlini 2021、Nasr 20232021 / 2023本工作将其抽取攻击重新定位为能力上界

对从业者有用的重新定位,既不是「模型会泄露」也不是「模型没问题」——而是攻击下的可抽取性与日常使用下的泄露是两个不同的数字,可信的记忆审计必须两者都报告。

Sources