Olvidado pero recuperable: por qué el desaprendizaje de los LLM sigue filtrando
Varios trabajos de 2025-2026 muestran que el conocimiento «desaprendido» de un LLM sigue siendo recuperable — mediante cuantización, prompts adversarios y ahora trazas de razonamiento. Tratar el desaprendizaje como un borrado es un error.
¿Qué es esto?
El desaprendizaje (machine unlearning) agrupa las técnicas que intentan que un modelo «olvide» una porción concreta de lo aprendido: los datos de una persona tras una solicitud de supresión, texto con derechos de autor, o conocimiento peligroso como el contenido biológico y cibernético del benchmark WMDP. Se invoca cada vez más como control de cumplimiento y seguridad: en lugar de reentrenar un modelo desde cero (caro) cada vez que algo debe eliminarse, se ejecuta un procedimiento de desaprendizaje que suprime el objetivo a bajo coste.
Una línea constante de investigación, de 2024 a 2026, llega siempre a la misma conclusión incómoda: la mayoría del desaprendizaje no borra el conocimiento, lo oculta — y el ocultamiento es superficial. El trabajo más reciente, Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning (arXiv:2604.04255, Iowa State University, publicado en abril de 2026), extiende el problema a los modelos de razonamiento. Se suma a REBEL (arXiv:2602.06248, febrero de 2026), al artículo de ICLR 2025 sobre cuantización, a un ataque de razonamiento paso a paso (junio de 2025) y a una sistematización del conocimiento (junio de 2025) para mostrar que «olvidado» no es lo mismo que «desaparecido».
Cómo funciona
El problema central es de evaluación. Los benchmarks de desaprendizaje consultan al modelo con preguntas directas e inocuas («¿Quién es X?») y declaran el éxito cuando la respuesta ya no aparece. Pero suprimir la salida más probable de un modelo no equivale a eliminar la representación subyacente. Varios canales de recuperación independientes explotan esa brecha:
Canal de recuperacion Lo que explota Efecto reportado
---------------------- --------------------------------------- ----------------------------
Cuantizacion El desaprendizaje solo mueve los pesos Conocimiento retenido sube
levemente; el redondeo de baja de ~21% a ~83% en 4-bit
precision deshace ese movimiento
Prompts adversarios Las metricas inocuas pasan por alto el REBEL: ASR hasta 60%
(busqueda evolutiva) saber residual alcanzable con prompts (TOFU), 93% (WMDP)
mas duros
Sondas de razonamiento La elicitacion paso a paso devuelve a 62,5% de los prompts
la salida los hechos «borrados» recuperan los hechos diana
Ataque a modelo de Las trazas largas son una superficie Trazas convincentes pero
razonamiento de optimizacion debil durante el enganosas; respuestas
propio desaprendizaje finales erroneas
El resultado sobre la cuantización es el más llamativo. Como un desaprendizaje que preserva la utilidad solo perturba los pesos con suavidad, convertir el modelo desaprendido a 4-bit — un paso de despliegue rutinario — restaura en promedio cerca del 83 % del conocimiento «olvidado», frente al ~21 % retenido en precisión completa. REBEL ataca por el lado del prompt: un bucle evolutivo hace evolucionar consultas adversarias que extraen el saber residual, alcanzando tasas de éxito de hasta 60 % en TOFU y 93 % en WMDP, mientras que consultas inocuas habrían calificado a los mismos modelos como «correctamente desaprendidos». No se necesita ningún payload para entender la lección, y aquí no se reproduce ninguno.
Por qué importa
La superficie de riesgo es doble. Por el lado de la privacidad, una organización que ejecuta desaprendizaje para satisfacer una solicitud de supresión o un derecho al olvido puede afirmar ante el regulador y los usuarios que los datos han desaparecido cuando son recuperables por cualquiera que cuantice el modelo o lo consulte con astucia. Por el lado de la seguridad, las cifras de WMDP son las más inquietantes: conocimiento peligroso que un equipo creía haber eliminado puede resurgir a tasas altas, sobre todo tras la cuantización que practica casi todo despliegue de modelo abierto.
El punto de fondo es metodológico. Una defensa que solo se mide frente a la prueba más fácil parecerá mucho más sólida de lo que es. El trabajo de 2026 sobre modelos de razonamiento agudiza esto: a medida que los modelos aprenden a «pensar» en cadenas largas, estas crean una nueva superficie de extracción — el mismo razonamiento que mejora la capacidad ofrece al atacante más lugares donde recuperar el contenido suprimido. Un desaprendizaje evaluado con preguntas inocuas de un solo turno es, de hecho, teatro de seguridad.
Defensas
- No tratar el desaprendizaje como un borrado. Para una eliminación real o el cumplimiento, la única garantía robusta sigue siendo no entrenar sobre el dato, o reentrenar sin él. El desaprendizaje es una mitigación, no un botón de «eliminar».
- Evaluar de forma adversaria, no inocua. Probar los modelos desaprendidos con sondas de paráfrasis, multironda y de tipo razonamiento — y con atacantes evolutivos como REBEL — no solo con preguntas directas. Informar la tasa de éxito de recuperación, no solo la pérdida de olvido inocua.
- Incluir la cuantización en el modelo de amenaza. Medir la recuperación de conocimiento en las precisiones que realmente se despliegan (4-bit, 8-bit), ya que el 4-bit puede deshacer el desaprendizaje mientras que el 8-bit a menudo no.
- Preferir un desaprendizaje robusto. Los métodos que aplanan el paisaje de pérdida alrededor del punto desaprendido (sharpness-aware minimization y sucesores) resisten mejor, según lo reportado, el reaprendizaje y la recuperación que los métodos de minimización puntual.
- Combinar con control de acceso. Donde el contenido peligroso o privado no deba filtrarse, asociar el desaprendizaje con filtrado de salidas, restricciones de recuperación y privilegio mínimo en lugar de confiar en que el modelo haya olvidado de verdad.
Estado
| Trabajo | Referencia | Fecha | Conclusión reportada |
|---|---|---|---|
| Recuperación por cuantización | arXiv:2410.16454 (ICLR 2025) | 2024-10 | La cuantización 4-bit restaura ~83 % del saber olvidado |
| Ataque por elicitación de razonamiento | arXiv:2506.17279 | 2025-06 | 62,5 % de los prompts diseñados recuperan hechos diana |
| SoK: desaprendizaje para LLM | arXiv:2506.09227 | 2025-06 | Sistematiza la recuperación como debilidad estructural |
| REBEL | arXiv:2602.06248 | 2026-02 | Recuperación evolutiva hasta 60 % (TOFU) / 93 % (WMDP) |
| Vulnerabilidad de desaprendizaje en LRM | arXiv:2604.04255 | 2026-04 | Las trazas de razonamiento, nueva superficie de ataque |
El punto duradero y transferible no es un fallo aislado de un método aislado: es que la medición del campo ha sobreestimado el olvido de forma constante. A través de la cuantización, los prompts adversarios y las sondas de razonamiento — y ahora los modelos de razonamiento en particular — el conocimiento que los benchmarks inocuos llaman «desaprendido» vuelve una y otra vez. Hasta que la evaluación incluya de forma rutinaria estos canales de recuperación, una afirmación de desaprendizaje debe leerse como «más difícil de recuperar», no como «eliminado».