AGENTS MEDIUM NEW

ShadowMerge: envenenar la memoria-grafo de los agentes por colisión de relaciones

Un artículo de mayo de 2026 envenena la memoria-grafo de un agente con relaciones que comparten un ancla y un canal reales pero con un valor contradictorio: 93,8 % de éxito en Mem0, y los filtros de entrada no lo detectan.

2026-06-18 // 6 min affects: mem0, graph-based agent memory, rag agents

¿Qué es esto?

ShadowMerge (arXiv 2605.09033, Luo et al., primera versión el 9 de mayo de 2026, revisada el 15 de mayo) es un ataque de envenenamiento contra la memoria-grafo de los agentes. En lugar de almacenar las interacciones pasadas como texto plano, un número creciente de arquitecturas de agentes las conserva como un grafo de conocimiento de entidades y relaciones; es lo que hacen frameworks como Mem0 para permitir un recuerdo estructurado a largo plazo y un razonamiento multisalto. La tesis de ShadowMerge: esa estructura de grafo no es solo una funcionalidad, sino una nueva superficie de envenenamiento. Los autores evaluaron el ataque sobre Mem0, indican haberlo divulgado de forma responsable a los proveedores de memoria-grafo afectados y publicaron su código en abierto.

Cómo funciona

Los trabajos previos de envenenamiento de memoria como AgentPoison (Chen et al., NeurIPS 2024) apuntan a registros planos: se inyecta una instancia maliciosa y se recupera. Frente a una memoria-grafo eso suele fallar, porque una relación hostil debe superar tres puertas antes de influir en el agente. ShadowMerge describe por qué esas puertas pueden sortearse; no hay ningún payload explotable que ejecutar.

Puerta            Lo que una relación envenenada debe lograr
----------------  --------------------------------------------------------
Extracción        Ser analizada por el pipeline de memoria en una relación almacenada
Fusión            Caer en el vecindario del ancla objetivo (no un nodo suelto)
Recuperación      Ser seleccionada como evidencia para la consulta posterior de la víctima

La idea clave es una colisión de canal de relación (relation-channel conflict). Una relación envenenada puede compartir la misma ancla activada por la consulta (la entidad que la consulta enciende) y el mismo canal de relación canonicalizado (el tipo de relación normalizado sobre el que el sistema fusiona) que una evidencia legítima, mientras porta un valor contradictorio. El pipeline AIR de los autores formula este conflicto como una interacción ordinaria, de modo que el propio sistema de memoria la extrae, la fusiona junto a la evidencia real y luego la recupera. Lo crucial: solo requiere acceso por consulta, en interacción ordinaria; sin insertar documentos en un corpus ni modificar el índice del grafo.

En Mem0, a través de PubMedQA, WebShop y ToolEmu, los autores reportan una tasa de éxito media del 93,8 %, una ganancia absoluta de 50,3 puntos sobre la mejor referencia, con impacto insignificante en tareas benignas no relacionadas. Su análisis de defensa concluye que las defensas de entrada representativas no bastan para detenerlo.

Por qué importa

La memoria-grafo se adopta precisamente para el razonamiento de alto valor y largo horizonte, que es donde un «hecho» silenciosamente corrompido causa más daño. Dos propiedades dificultan la defensa. Primero, el modelo de acceso es débil: un atacante que solo pueda interactuar con normalidad puede plantar el veneno, sin necesidad de acceso de escritura a un corpus o índice. Segundo, como el veneno se apoya en la misma ancla y el mismo canal que una evidencia auténtica, auditar las entradas de memoria una por una tiende a no detectarlo: la relación maliciosa solo parece errónea junto a la legítima que contradice.

Las salvedades honestas: son las cifras de un único artículo, medidas sobre un solo framework (Mem0) y tres benchmarks de investigación, y la tasa de éxito dependerá de la configuración. Se avisó a los proveedores en el marco de una divulgación responsable: trate las cifras concretas como un resultado de investigación, no como una constante universal para su despliegue.

Defensas

Deje de auditar las entradas de memoria de forma aislada. A-MemGuard (Wei et al., arXiv 2510.02373) lo concreta: una validación por consenso compara las cadenas de razonamiento derivadas de varias memorias relacionadas, y una estructura de doble memoria destila los fallos detectados en «lecciones» consultadas antes de las acciones futuras. Los autores reportan una reducción de la tasa de éxito de más del 95 % con un coste de utilidad mínimo.
Trate el paso de fusión como una frontera de confianza. Cuando una nueva relación contradice una evidencia existente de alta confianza sobre la misma ancla y el mismo canal, márquela para revisión en vez de fusionar o sobrescribir en silencio.
Conserve la procedencia de cada relación. Registre qué interacción o fuente produjo cada arista, pondere según la confianza de la fuente y prefiera las relaciones corroboradas en el momento de la recuperación.
Eleve el umbral para escribir hechos. No permita que una sola interacción ordinaria establezca un hecho duradero en el grafo; exija corroboración antes de que una relación se convierta en memoria a largo plazo de alta confianza.
Vuelva a probar en su propia pila. Aquí se demuestra que el filtrado de entrada es insuficiente contra las colisiones de canal de relación; mida específicamente contra esta clase de ataque antes de confiar en una sola capa.

Estado

Elemento	Referencia	Fecha	Notas
ShadowMerge	arXiv 2605.09033	2026-05-09 (rev. 05-15)	Envenenamiento de memoria-grafo por colisión de canal; evaluado en Mem0; divulgado de forma responsable, código abierto
A-MemGuard	arXiv 2510.02373	2025-10	Defensa de memoria proactiva: validación por consenso + doble memoria de «lecciones»
AgentPoison	página del proyecto	NeurIPS 2024	Antecedente: backdoor por envenenamiento de memoria plana / bases de conocimiento RAG

El giro es conceptual: se suponía que la memoria-grafo haría el recuerdo más estructurado y, por tanto, más seguro. ShadowMerge muestra que la estructura puede volverse contra sí misma: un hecho miente con tanta más eficacia cuanto más cerca se sitúa de la verdad que contradice.