sistema: OPERATIVO
← volver a todos los hacks
RESEARCH MEDIUM NEW

La privacidad en los LLM no es un único riesgo: por dónde empezar

Un estudio de mayo de 2026 mide inferencia de pertenencia, inferencia de atributos, extracción de datos y puertas traseras bajo un mismo modelo de amenaza. Conclusión: la fuga depende de sus decisiones de diseño — tamaño, duplicación de datos, configuración RAG — más que del ataque.

2026-06-15 // 7 min affects: llm-applications, rag-systems, fine-tuned-llms, open-weight-models

En resumen Se suele hablar de «privacidad en los LLM» como una única preocupación: el modelo memorizó algo. Un nuevo estudio, Makhlouf, On the Privacy of LLMs: An Ablation Study (arXiv 2605.02255, 4 de mayo de 2026), coloca cuatro ataques distintos bajo un mismo modelo de amenaza y mide cómo responde cada uno a los mismos factores del sistema: arquitectura, escala, propiedades de los datos de entrenamiento y configuración de recuperación (RAG). La lección para los equipos es arquitectónica: el tamaño de su problema de privacidad lo fijan en gran medida decisiones de despliegue que usted controla, y las cuatro familias de ataques no se comportan igual, por lo que una sola mitigación no basta.

¿De qué se trata?

Los ataques a la privacidad de los modelos suelen estudiarse por separado, cada uno con su modelo de amenaza y sus métricas. Esa fragmentación dificulta razonar sobre un despliegue real, donde el mismo modelo los enfrenta todos a la vez. El artículo de mayo de 2026 reproduce un conjunto representativo de cuatro ataques bajo una notación y un modelo de acceso unificados y luego realiza una ablación estructurada para identificar qué factores de despliegue pesan de verdad. Las cuatro familias se corresponden directamente con la categoría LLM02: Divulgación de información sensible de OWASP:

  • Inferencia de pertenencia (MIA): ¿estaba este registro exacto en el conjunto de entrenamiento?
  • Inferencia de atributos (AIA): deducir un atributo sensible sobre una persona a partir del modelo.
  • Extracción de datos (DEA): lograr que el modelo regurgite texto de entrenamiento literal.
  • Puertas traseras (BA): un disparador implantado durante el ajuste fino impone un comportamiento elegido por el atacante.

Cómo funciona

El estudio no publica nuevos payloads; mide ataques conocidos en condiciones controladas. Lo que importa es el patrón observado:

Ataque        Fuerza de la señal     Factor dominante
-----------   --------------------   -------------------------------
MIA           fuerte, fiable         (sobre todo variantes enmascaradas)
Backdoor      sistemáticamente alta  presencia del disparador (por diseño)
AIA           más débil              pero apunta a datos personales
DEA           más débil              tamaño del modelo, duplicación

Reaparecen dos factores transversales. La memorización crece con la capacidad, la duración del entrenamiento y la duplicación de datos: los modelos grandes entrenados durante más tiempo con datos duplicados filtran más, un resultado que el artículo vincula a trabajos sobre deduplicación. Y la configuración en inferencia importa: cómo se parametriza un sistema RAG cambia la superficie expuesta, porque todo lo que recupera el recuperador, el modelo puede revelarlo. La conclusión central: el riesgo de privacidad es dependiente del contexto y está determinado por las decisiones de diseño, no es una constante intrínseca «del modelo».

Por qué importa

Si trata la privacidad como una simple casilla, protegerá lo que no toca. La inferencia de pertenencia y las puertas traseras producen señales fuertes y fiables para un atacante, mientras que la inferencia de atributos y la extracción literal son más ruidosas; y son precisamente la AIA y la DEA las que exponen datos personales reales cuando aciertan. Corolario: un resultado limpio en un ataque no dice nada de los demás. También replantea la elección del modelo como una decisión de privacidad: optar por un modelo más grande, entrenar con corpus duplicados o conectar un índice de recuperación mal acotado son decisiones relevantes para la privacidad, no meros compromisos de calidad o latencia. Es el análogo, en privacidad, de una lección que el campo reaprende una y otra vez sobre la detección: mida toda la superficie, porque el adversario elige el ataque que su diseño dejó más barato.

Defensas

Trate la fuga como una función del diseño y endurezca el diseño.

  1. Deduplique los datos de entrenamiento y de ajuste fino. La duplicación es uno de los amplificadores más claros de la memorización; la deduplicación es una de las pocas mitigaciones con respaldo empírico constante.
  2. Aplique privacidad diferencial donde los datos sean sensibles. El ajuste fino con DP (DP-SGD) y la auditoría DP acotan y miden lo que un modelo puede memorizar; la auditoría con «canarios» (véase arXiv 2512.13352 sobre inferencia de pertenencia para extracción dirigida) permite cuantificar el riesgo antes de publicar.
  3. Elija el modelo más pequeño que sirva. La escala aporta capacidad y memorización a la vez; un modelo sobredimensionado es un pasivo de privacidad mayor.
  4. Gobierne el índice RAG como una base de datos. Mantenga los datos personales en bruto fuera del corpus de recuperación, imponga control de acceso por usuario en la recuperación y recuerde que el modelo revelará todo lo que se le permita recuperar.
  5. Defienda la cadena de suministro frente a puertas traseras. El éxito de las backdoors es alto porque los disparadores son fiables; verifique los conjuntos de ajuste fino y los checkpoints de terceros, y pruebe comportamientos condicionados por disparadores.
  6. Evalúe de forma holística. Ejecute las sondas MIA, AIA, DEA y BA juntas, con una configuración fija, y no de forma aislada: es el punto metodológico central del artículo.

Estado

ElementoReferenciaFechaNota
Ablación unificada MIA/AIA/DEA/BAarXiv 2605.022554 may 2026MIA y backdoors fuertes; AIA/DEA más débiles pero apuntan a PII
MIA para extracción dirigidaarXiv 2512.13352dic 2025Señales de pertenencia usadas para guiar la extracción
Divulgación de información sensible = LLM02OWASP LLM Top 102025–2026Vincula estos ataques con la lista de riesgos de aplicaciones

La idea que conviene retener: no existe un único «ajuste de privacidad» para un LLM. Las cifras cambian con la arquitectura, la escala, la higiene de los datos y el diseño de la recuperación; la privacidad se diseña a lo largo del ciclo de vida y se verifica con toda la familia de ataques, no con uno solo.

Sources