Contaminación temporal de memoria: deriva longitudinal de seguridad en agentes LLM
Tres preprints de arXiv de abril y mayo de 2026 convergen en un modo de fallo complementario al envenenamiento de memoria — los agentes con memoria derivan hacia lo inseguro a medida que se acumula contexto benigno, con los resúmenes comprimidos actuando como canal de blanqueo.
¿De qué se trata?
Los agentes LLM con memoria persistente tienen un problema de seguridad que no requiere atacante. Tres preprints de arXiv publicados entre el 17 de abril y el 20 de mayo de 2026 — A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty, State Contamination in Memory-Augmented LLM Agents y Remembering More, Risking More: Longitudinal Safety Risks in Memory-Equipped LLM Agents — convergen en la siguiente afirmación: los mismos mecanismos de memoria que hacen útiles a los agentes entre sesiones también los vuelven progresivamente menos seguros entre sesiones, incluso cuando no hay payload, inyección de prompt ni actor malicioso involucrado.
Es un tema complementario, no redundante, respecto a la categoría ASI06 de envenenamiento de memoria formalizada por OWASP el 13 de mayo de 2026. El envenenamiento es un atacante escribiendo en un estado considerado confiable. La contaminación temporal de memoria es lo que ocurre cuando nadie escribe nada malicioso — solo se acumulan tareas ordinarias — y el perfil de seguridad del agente se desplaza en función de cuánto recuerda.
Cómo funciona
Los tres artículos describen facetas complementarias de la misma superficie.
Deriva longitudinal (arXiv 2605.17830, 18 de mayo de 2026). Al-Tawaha et al. introducen la contaminación temporal de memoria y un protocolo trigger-probe: un conjunto fijo de sondas se evalúa contra instantáneas de memoria en solo lectura a distintas longitudes de prefijo, junto con una línea base contrafáctica NullMemory para aislar la exposición a memoria de la no estacionariedad del flujo. En tres escenarios de despliegue — registros, memorandos y formularios, correspondencia por correo electrónico — y ocho arquitecturas de memoria, los agentes con memoria habilitada superan sistemáticamente la línea base NullMemory, y las tasas de violación inducida por memoria muestran una tendencia ascendente robusta con la longitud de exposición. El efecto se sostiene en agentes Claw-like que usan el mecanismo de memoria nativo de la plataforma, y los experimentos con orden aleatorizado indican que el conductor es el contenido acumulado, no el orden de aparición.
Blanqueo de memoria (arXiv 2605.16746, 16 de mayo de 2026). Wang et al. (UIUC) abordan la misma superficie como un problema de contaminación con estado. Muchos sistemas de agentes comprimen conversaciones largas en resúmenes breves para que los agentes posteriores se mantengan informados sin releer el historial. Los autores muestran que esta compresión también puede actuar como un paso de blanqueo:
transcripción tóxica
│
│ (clasificador de seguridad estándar:
│ marca como tóxico, bloquea)
▼
[ paso de compresión / resumen ]
│
│ (clasificador de seguridad estándar:
│ puntúa el resumen como neutro)
▼
memoria "blanqueada"
│
│ (vuelve al contexto en un turno posterior,
│ condiciona la siguiente generación hacia
│ una toxicidad superior a la base NullMemory)
▼
salida descendente contaminada
Un resumen blanqueado representativo del paper se lee, por ejemplo: “la discusión se ha vuelto acalorada, con los participantes expresando fuerte desacuerdo” — no tóxico para los clasificadores, pero condicionar sobre él eleva de forma medible los puntajes Detoxify esperados en generaciones posteriores frente a un resumen neutro emparejado. El marco hostil sobrevive a la compresión por debajo del umbral del clasificador.
Soberanía mnemónica (arXiv 2604.16548, 17 de abril de 2026). El survey reencuadra el problema más amplio como una cuestión de gobernanza del estado persistente: qué escrituras se autorizan, quién puede leer, qué estados deben permanecer auditables, y cuáles pueden olvidarse. Identifica nueve primitivas de gobernanza y observa que ninguna arquitectura de memoria publicada cubre las nueve, y que la confidencialidad, la disponibilidad, el store/forget y los fallos de persistencia benigna siguen poco estudiados frente a los ataques de integridad en escritura o recuperación.
Por qué importa
Tres consecuencias operativas.
Primero, el modo de fallo no es detectable mediante evaluación de estado único. Una instantánea de memoria puede aprobar todos los benchmarks existentes y el agente seguir derivando hacia lo inseguro tras suficientes sesiones acumuladas. La seguridad pasa a ser una propiedad de la trayectoria, no del par prompt-respuesta individual.
Segundo, la resumización, palanca por defecto para escalar agentes de larga duración, forma parte de la superficie de ataque. Las stacks de producción que usan un resumidor para mantener acotada la longitud del contexto enrutan transcripciones a través de una transformación que los clasificadores de seguridad actuales no capturan de manera fiable en la salida. El paper State Contamination es explícito: sanear solo el resumen finalizado puede llegar demasiado tarde, porque el marco dañino puede haberse comprimido ya por debajo del umbral del clasificador.
Tercero, los productos afectados ya están desplegados. El paper Longitudinal prueba sobre agentes Claw-like, incluido OpenClaw con su mecanismo de memoria nativo, y el mecanismo descrito se generaliza a cualquier despliegue que use A-Mem, los módulos de memoria de LangChain, la memoria de LlamaIndex, AutoGen, CrewAI, la capa memory.json/SKILL.md de Claude Code o cualquier almacén persistente comparable.
Defensas
Ninguno de los tres papers propone una bala de plata única. El manual defensivo siguiente combina sus recomendaciones con los controles ASI06 de OWASP ya en circulación.
-
Evalúe longitudinalmente, no en un único punto del tiempo. Adopte un protocolo trigger-probe en línea con arXiv 2605.17830: un conjunto fijo de sondas, aplicado a instantáneas de memoria a longitudes de prefijo crecientes, con una línea base NullMemory para distinguir violaciones inducidas por memoria de los efectos de flujo. Si su arnés actual de red team es de un solo turno o una sola sesión, está ciego a esta clase.
-
Controle las escrituras, sanee las lecturas. El marco a tres vías del paper State Contamination — una policy fine-tuned para la amplificación paramétrica residual, un saneador en el lado de lectura aplicado antes de la generación, y una compuerta en el lado de escritura aplicada antes de que el contenido reentre a la transcripción o la memoria — es más robusto que cualquier intervención aislada. Sanear antes de actualizar la memoria cierra el canal blanqueado; sanear solo en la recuperación llega tarde.
-
Ejecute los clasificadores sobre las transcripciones, no solo sobre los resúmenes. El blanqueo solo funciona si su comprobación de seguridad se dispara al escribir el resumen. Puntúe el material fuente antes de la compresión, y trate cualquier resumen derivado de material marcado como marcado, independientemente de su propia puntuación.
-
Monitoree el estado de recuperación, no solo la generación. Al-Tawaha et al. muestran que el riesgo inducido por memoria es detectable desde el estado de recuperación antes de la generación, y lo confirman con un monitor diagnóstico de alta cobertura. Un hook previo a la generación que inspeccione lo que se recupera de la memoria es más barato que un clasificador posterior a la generación y captura una clase que el chequeo posterior pasa por alto.
-
Trate la memoria como una frontera de confianza separada con un ciclo de vida explícito. Conforme al survey Mnemonic Sovereignty, las nueve primitivas de gobernanza — escritura, autorización de lectura, auditoría, olvido, etc. — deben tratarse explícitamente en la arquitectura del agente, no heredarse de los valores por defecto de la biblioteca de memoria.
-
Añada un control de presupuesto de sesión. Si su perfil de seguridad se degrada de manera monótona con la longitud de exposición, ponga un tope a esa longitud. Reseteos periódicos de memoria, o presupuestos de sesión que fuercen una compactación-revisión a intervalos fijos, acotan el peor caso mientras la comunidad de investigación converge en una defensa más fuerte.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Survey Mnemonic Sovereignty | arXiv:2604.16548 | 2026-04-17 | Nueve primitivas de gobernanza, ninguna arquitectura las cubre todas |
| Paper State Contamination | arXiv:2605.16746 | 2026-05-16 | Blanqueo de memoria, mitigación a tres vías |
| Paper Remembering More, Risking More | arXiv:2605.17830 | 2026-05-18 | Protocolo trigger-probe, línea base NullMemory, OpenClaw probado |
| Artículo OWASP ASI06 | genai.owasp.org | 2026-05-13 | Vertiente adversarial de la misma superficie |
El encuadre que une los tres papers es el más simple: la seguridad de la memoria es una propiedad longitudinal del agente, no una propiedad de estado único que pueda capturarse con una instantánea. Las stacks de producción actuales la tratan como esta última. La próxima generación de benchmarks de seguridad de memoria, y la próxima generación de defaults de las plataformas de agentes, deben tratarla como la primera.