ShadowMerge: envenenar la memoria-grafo de los agentes por colisión de relaciones
Un artículo de mayo de 2026 envenena la memoria-grafo de un agente con relaciones que comparten un ancla y un canal reales pero con un valor contradictorio: 93,8 % de éxito en Mem0, y los filtros de entrada no lo detectan.
¿Qué es esto?
ShadowMerge (arXiv 2605.09033, Luo et al., primera versión el 9 de mayo de 2026, revisada el 15 de mayo) es un ataque de envenenamiento contra la memoria-grafo de los agentes. En lugar de almacenar las interacciones pasadas como texto plano, un número creciente de arquitecturas de agentes las conserva como un grafo de conocimiento de entidades y relaciones; es lo que hacen frameworks como Mem0 para permitir un recuerdo estructurado a largo plazo y un razonamiento multisalto. La tesis de ShadowMerge: esa estructura de grafo no es solo una funcionalidad, sino una nueva superficie de envenenamiento. Los autores evaluaron el ataque sobre Mem0, indican haberlo divulgado de forma responsable a los proveedores de memoria-grafo afectados y publicaron su código en abierto.
Cómo funciona
Los trabajos previos de envenenamiento de memoria como AgentPoison (Chen et al., NeurIPS 2024) apuntan a registros planos: se inyecta una instancia maliciosa y se recupera. Frente a una memoria-grafo eso suele fallar, porque una relación hostil debe superar tres puertas antes de influir en el agente. ShadowMerge describe por qué esas puertas pueden sortearse; no hay ningún payload explotable que ejecutar.
Puerta Lo que una relación envenenada debe lograr
---------------- --------------------------------------------------------
Extracción Ser analizada por el pipeline de memoria en una relación almacenada
Fusión Caer en el vecindario del ancla objetivo (no un nodo suelto)
Recuperación Ser seleccionada como evidencia para la consulta posterior de la víctima
La idea clave es una colisión de canal de relación (relation-channel conflict). Una relación envenenada puede compartir la misma ancla activada por la consulta (la entidad que la consulta enciende) y el mismo canal de relación canonicalizado (el tipo de relación normalizado sobre el que el sistema fusiona) que una evidencia legítima, mientras porta un valor contradictorio. El pipeline AIR de los autores formula este conflicto como una interacción ordinaria, de modo que el propio sistema de memoria la extrae, la fusiona junto a la evidencia real y luego la recupera. Lo crucial: solo requiere acceso por consulta, en interacción ordinaria; sin insertar documentos en un corpus ni modificar el índice del grafo.
En Mem0, a través de PubMedQA, WebShop y ToolEmu, los autores reportan una tasa de éxito media del 93,8 %, una ganancia absoluta de 50,3 puntos sobre la mejor referencia, con impacto insignificante en tareas benignas no relacionadas. Su análisis de defensa concluye que las defensas de entrada representativas no bastan para detenerlo.
Por qué importa
La memoria-grafo se adopta precisamente para el razonamiento de alto valor y largo horizonte, que es donde un «hecho» silenciosamente corrompido causa más daño. Dos propiedades dificultan la defensa. Primero, el modelo de acceso es débil: un atacante que solo pueda interactuar con normalidad puede plantar el veneno, sin necesidad de acceso de escritura a un corpus o índice. Segundo, como el veneno se apoya en la misma ancla y el mismo canal que una evidencia auténtica, auditar las entradas de memoria una por una tiende a no detectarlo: la relación maliciosa solo parece errónea junto a la legítima que contradice.
Las salvedades honestas: son las cifras de un único artículo, medidas sobre un solo framework (Mem0) y tres benchmarks de investigación, y la tasa de éxito dependerá de la configuración. Se avisó a los proveedores en el marco de una divulgación responsable: trate las cifras concretas como un resultado de investigación, no como una constante universal para su despliegue.
Defensas
- Deje de auditar las entradas de memoria de forma aislada. A-MemGuard (Wei et al., arXiv 2510.02373) lo concreta: una validación por consenso compara las cadenas de razonamiento derivadas de varias memorias relacionadas, y una estructura de doble memoria destila los fallos detectados en «lecciones» consultadas antes de las acciones futuras. Los autores reportan una reducción de la tasa de éxito de más del 95 % con un coste de utilidad mínimo.
- Trate el paso de fusión como una frontera de confianza. Cuando una nueva relación contradice una evidencia existente de alta confianza sobre la misma ancla y el mismo canal, márquela para revisión en vez de fusionar o sobrescribir en silencio.
- Conserve la procedencia de cada relación. Registre qué interacción o fuente produjo cada arista, pondere según la confianza de la fuente y prefiera las relaciones corroboradas en el momento de la recuperación.
- Eleve el umbral para escribir hechos. No permita que una sola interacción ordinaria establezca un hecho duradero en el grafo; exija corroboración antes de que una relación se convierta en memoria a largo plazo de alta confianza.
- Vuelva a probar en su propia pila. Aquí se demuestra que el filtrado de entrada es insuficiente contra las colisiones de canal de relación; mida específicamente contra esta clase de ataque antes de confiar en una sola capa.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| ShadowMerge | arXiv 2605.09033 | 2026-05-09 (rev. 05-15) | Envenenamiento de memoria-grafo por colisión de canal; evaluado en Mem0; divulgado de forma responsable, código abierto |
| A-MemGuard | arXiv 2510.02373 | 2025-10 | Defensa de memoria proactiva: validación por consenso + doble memoria de «lecciones» |
| AgentPoison | página del proyecto | NeurIPS 2024 | Antecedente: backdoor por envenenamiento de memoria plana / bases de conocimiento RAG |
El giro es conceptual: se suponía que la memoria-grafo haría el recuerdo más estructurado y, por tanto, más seguro. ShadowMerge muestra que la estructura puede volverse contra sí misma: un hecho miente con tanta más eficacia cuanto más cerca se sitúa de la verdad que contradice.