Capacidad frente a propensión: auditar la fuga de datos de entrenamiento
Un marco de junio de 2026, PropMe, distingue lo que un modelo PUEDE filtrar bajo ataque de lo que FILTRARÁ en uso ordinario. La brecha es amplia — y las auditorías que la ignoran tergiversan el riesgo real.
¿Qué es esto?
El 4 de junio de 2026, investigadores de la Universidad del Sur de Dinamarca publicaron PropMe (arXiv:2606.06286), un marco que replantea cómo se mide la memorización en los grandes modelos de lenguaje. Su observación central es metodológica: casi todas las evaluaciones existentes miden si un modelo puede ser forzado a reproducir datos de entrenamiento — una capacidad — en lugar de si lo hace realmente en uso ordinario — una propensión. Ambas se confunden de forma rutinaria, y esa confusión infla el riesgo aparente de un modelo desplegado.
La memorización no es novedad. Desde Carlini et al. (2021) y el trabajo de extracción a gran escala de Nasr et al. (2023), se sabe que un modelo puede regurgitar texto con derechos de autor e identificadores personales cuando se le solicita de forma adversaria. El aporte de PropMe no es un ataque nuevo — es una manera más limpia de auditar el fenómeno. Es herramienta de medición, no un exploit.
Cómo funciona
PropMe contrasta dos regímenes de prompting sobre el mismo modelo. Un ajuste de propensión usa prompts plausibles y naturales («Generic» y «Specific», 100 muestras cada uno) con bajo solapamiento léxico con los datos de entrenamiento — lo que escribiría un usuario normal. Un ajuste de capacidad usa un ataque por prefijo: se condiciona al modelo con los primeros 50 tokens de un ejemplo de entrenamiento de al menos 100 tokens, y su continuación literal se evalúa contra el corpus completo.
Una transformación de propensión proyecta luego cualquier métrica de memorización f a una puntuación en [0,1]:
PM(M, x) = 1/2 * ( 1 + ( f_p(M,x) - f_c(M,x) ) / ( f_p(M,x) + f_c(M,x) ) )
f_p = valor de la métrica en prompting de propensión (ordinario)
f_c = valor de la métrica en prompting de capacidad (ataque por prefijo)
Capacidad alta + uso ordinario bajo -> PM bajo (el modelo puede filtrar, pero no tiende a ello)
Capacidad baja + uso ordinario alto -> PM alto (el modelo filtra espontáneamente)
El marco también incluye SimpleTrace, una canalización de código abierto construida sobre infini-gram (inspirada en OLMoTrace) que atribuye de forma determinista una generación a los documentos de los que se memorizó — sin estimación probabilística de pertenencia. Es rápida: unas 100 consultas trazadas por minuto sobre los ~460 000 millones de tokens de Common Pile con cuatro núcleos de CPU. El estudio evalúa dos modelos totalmente abiertos, Comma v0.1 y DFM Decoder Open, sobre un corpus en inglés (Common Pile) y otro en danés (Dynaword).
Por qué importa
El resultado principal es una brecha constante entre capacidad y propensión. Los ataques por prefijo provocan señales de memorización notablemente más fuertes que los prompts genéricos o específicos, mientras que las puntuaciones de propensión se mantienen bajas en conjunto. En claro: estos modelos pueden revelar datos de entrenamiento cuando se les empuja directamente, pero rara vez lo hacen en uso ordinario y no adversario. Un segundo hallazgo es una palanca práctica: DFM Decoder, preentrenado de forma continua a partir de Comma sobre datos en parte distintos, memoriza menos el corpus original Common Pile que el propio Comma.
Para los defensores y los equipos de cumplimiento, la lección corta en ambos sentidos. Reportar solo la extractibilidad del peor caso (la cifra habitual del red team) sobreestima la fuga que un modelo desplegado expone a diario. Pero reportar solo las cifras no adversarias subestima lo que un atacante motivado puede extraer con prefijos. El artículo lo vincula directamente con la regulación: las obligaciones de protección de datos desde el diseño y de pruebas periódicas del RGPD, y los requisitos de gestión de riesgos y robustez de la Ley de IA europea para modelos de riesgo sistémico, empujan hacia una prueba medible de la fuga. La propensión en uso ordinario es una métrica defendible para la fuga «previsible».
Defensas
- Reportar ambos ejes. Una auditoría de memorización debe publicar la extractibilidad del peor caso y la propensión en uso ordinario. Una sola cifra oculta el perfil de riesgo e invita a la falsa alarma o al falso consuelo.
- Atribuir de forma determinista. Cuando controle el corpus de entrenamiento, prefiera el trazado (SimpleTrace / OLMoTrace / infini-gram) frente a la inferencia de pertenencia probabilística, más ruidosa y más difícil de defender en una auditoría.
- Deduplicar el corpus. La duplicación es un motor bien documentado de la memorización literal; una deduplicación agresiva reduce la capacidad antes del despliegue.
- Ver el entrenamiento continuo como palanca, no como cura. Un preentrenamiento posterior sobre datos en parte distintos redujo aquí de forma medible la memorización del corpus original — útil, pero no garantizado, y puede introducir memorización de los datos más recientes.
- Nunca leer «propensión baja» como «sin riesgo». La capacidad persiste; un atacante con prefijos sigue extrayendo. Mantenga el filtrado de salida, las pruebas de inferencia de pertenencia, los canarios y el control de acceso a los registros. Véase también la pertenencia demostrable a los datos de entrenamiento y la brecha empírica de privacidad de la adaptación DP.
- Atención al alcance. Los resultados se basan en dos modelos abiertos y dos corpus. Los modelos de producción cerrados, alineados con RLHF, se comportan de otra manera — los ataques por divergencia de Nasr et al. extrajeron datos de sistemas de producción alineados — así que no traslade estas cifras a un modelo alojado sin auditarlo.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| PropMe + SimpleTrace | arXiv:2606.06286v1 [cs.CL] | 2026-06-04 | Marco de memorización consciente de la propensión, CC BY 4.0 |
| Código | github.com/N-essuno/PropMe | 2026-06 | SimpleTrace publicado como código abierto |
| Modelos estudiados | Comma v0.1, DFM Decoder Open | — | Totalmente abiertos, datos de entrenamiento públicos/con licencia permisiva |
| Corpus | Common Pile (EN), Dynaword (DA) | — | Indexados con infini-gram |
| Antecedentes (capacidad) | Carlini 2021, Nasr 2023 | 2021 / 2023 | Ataques de extracción que este trabajo reformula como cotas de capacidad |
El replanteamiento útil para los profesionales no es «los modelos filtran» ni «los modelos están bien» — es que la extractibilidad bajo ataque y la fuga en uso ordinario son dos cifras distintas, y una auditoría de memorización creíble debe reportar ambas.