sistema: OPERATIVO
← volver a todos los hacks
DEFENSE LOW NEW

MemMark: atribuir una memoria de agente envenenada solo con la instantánea

Un artículo de arXiv del 26 de mayo de 2026 inscribe la propiedad en las decisiones latentes de escritura de memoria de un agente: la procedencia sobrevive incluso si se borran los registros y solo queda la instantánea final.

2026-06-22 // 7 min affects: llm-agents, agent-memory-systems, a-mem, graphiti, mem0

¿Qué es esto?

El 26 de mayo de 2026, un equipo liderado por Haobo Zhang (Zhejiang University of Technology), con varias instituciones, publicó MemMark: State-Evolution Attribution Watermarking for Agent Long-Term Memory Systems (arXiv:2605.25002, cs.CR). Aborda una pregunta forense que se vuelve urgente cuando un agente conserva memoria persistente: tras manipularse un almacén de memoria, ¿se puede demostrar quién escribió realmente una entrada usando solo la instantánea final, sin registros fiables?

La memoria a largo plazo ya forma parte del perímetro de seguridad del agente. Sistemas como A-Mem, Graphiti, Mem0 o MemOS gestionan el estado mediante extracción, actualizaciones, consolidación, enlaces y borrado. La respuesta habitual a «¿quién escribió esto?» se basa en metadatos de procedencia: anclas de origen, versiones, trazas de ciclo de vida. MemMark muestra que esos campos tienen un fallo circular: la misma instantánea no confiable contiene tanto la memoria en disputa como los campos mutables que se supone la certifican. Un atacante que controle el almacén puede reescribir la propiedad, borrar identificadores, fabricar cadenas de procedencia o editar historiales nativos del backend (registros de evolución de A-Mem, trazas de invalidación de hechos de Graphiti).

Cómo funciona

En lugar de confiar en campos autodeclarados, MemMark inscribe la atribución en las decisiones latentes que el agente toma al escribir en memoria, elecciones normalmente invisibles y que no degradan la utilidad:

  • objetivo de actualización — qué elemento existente actualizar
  • objetivo de enlace — qué elemento relacionado vincular
  • realización semántica — cuál de varias formulaciones equivalentes almacenar

En cada llamada interna al LLM, MemMark enumera los candidatos admisibles y usa un muestreador con clave secreta que preserva la distribución para seleccionar uno. Como el muestreador respeta la distribución de preferencia del backend, la calidad de salida apenas cambia, pero el patrón de elecciones porta ahora una señal controlada por el propietario. Cada decisión se vincula a un compromiso criptográfico, se registra en un árbol de Merkle por sesión con un ancla firmada, y los datos de revelación se guardan junto al registro de memoria.

Lo decisivo: la verificación se degrada con elegancia en tres regímenes: R1 (registro externo completo), R2 (registro parcial) y R3 (solo instantánea). En el caso R3 —el escenario realista tras un compromiso— MemMark recupera la carga útil completa de 40 bits, frente a ninguna recuperación con una línea base de solo metadatos firmados y ~15 % con clave incorrecta. En seis configuraciones modelo–backend del benchmark LoCoMo conservó el 99,6 % del F1 global sin marca (con BLEU-1 variando +0,2 %), y bajo nueve ataques de ciclo de vida de memoria en tres intensidades seguía distinguiendo manipulación, borrado de pruebas y recuperación parcial de la carga útil.

Por qué importa

Hasta ahora, la mayor parte del trabajo en seguridad de la memoria de agentes buscaba prevenir el envenenamiento (AgentPoison y trabajos relacionados; véanse nuestras notas sobre envenenamiento de memoria y exfiltración por memoria latente). MemMark aborda el paso posterior: la atribución y la rendición de cuentas tras la brecha. Esto importa para la respuesta a incidentes, los litigios de propiedad intelectual, los despliegues multiinquilino y la procedencia regulatoria, donde «el registro dice X» no vale nada si el atacante también controlaba el registro.

El enfoque traslada la procedencia desde afirmaciones editables a una traza de comportamiento reproducible. Las marcas de agua anteriores residen en el texto generado, corpus protegidos, el uso visible de herramientas o las trayectorias de acción: canales de prueba que simplemente pueden faltar en la forense de memoria. MemMark apunta al único artefacto duradero que suele sobrevivir: la propia instantánea de memoria. Esto encaja con la noción más amplia de «soberanía mnemónica»: tratar la memoria como un activo a gobernar durante todo su ciclo de vida.

Defensas

MemMark es una pieza, no un producto llave en mano. Para equipos que operan agentes con memoria:

  1. Mantenga el registro fiable como control principal. MemMark es explícitamente un recurso de reserva para cuando los registros se pierden, se ocultan o son sospechosos, no un sustituto. Combínelo con pistas de auditoría a prueba de manipulación y procedencia de ejecución.
  2. No confíe solo en campos de procedencia autodeclarados. Considere los metadatos de propiedad/versión de una instantánea como controlables por el atacante; diseñe una verificación que no dependa del mismo almacén certificándose a sí mismo.
  3. Proteja la clave. La atribución a partir de la sola instantánea descansa en una clave secreta y anclas firmadas; el compromiso de la clave anula la garantía. Gestiónela como cualquier clave de firma (HSM, rotación, separación del runtime del agente).
  4. Ajuste las expectativas. La carga útil demostrada es de 40 bits con baja entropía por decisión (~1,1–1,3 bits): la atribución necesita suficientes decisiones de escritura para acumular señal; las sesiones muy cortas portan menos información.
  5. Valide en su backend. Los resultados cubren A-Mem y Graphiti sobre LoCoMo; la disponibilidad de portadores depende de cómo su sistema de memoria tome las decisiones de actualización/enlace/realización.

Estado

ElementoReferenciaFechaNotas
Preprint MemMarkarXiv:2605.250022026-05-26Marca de agua de atribución por evolución de estado para memoria de agente
Resultado solo instantánea§5.4 (R3)2026-05-26Recuperación completa de 40 bits vs ninguna con la base de metadatos
Utilidad§5.22026-05-2699,6 % del F1 global sin marca; BLEU-1 +0,2 %
Robustez§5.52026-05-26Diagnóstica bajo nueve ataques de ciclo de vida de memoria
Contexto de amenazasurvey soberanía mnemónica (arXiv:2604.16548); AgentPoison (arXiv:2407.12784)2024–2026Envenenamiento y ataques de ciclo de vida de la memoria de agentes

La conclusión: a medida que los agentes pasan de respondedores de una sola sesión a actores persistentes, la procedencia de la memoria se convierte en un problema de seguridad por derecho propio — y MemMark demuestra que la atribución puede sobrevivir a una instantánea no confiable, siempre que se proteja la clave y se trate como complemento del registro fiable, no como sustituto.

Sources