ShadowMerge : empoisonner la mémoire-graphe des agents par collision de relations
Un papier de mai 2026 empoisonne la mémoire-graphe d'un agent avec des relations qui partagent un ancrage et un canal réels mais portent une valeur contradictoire — 93,8 % de réussite sur Mem0, et les filtres en entrée passent à côté.
De quoi s’agit-il ?
ShadowMerge (arXiv 2605.09033, Luo et al., première version le 9 mai 2026, révisée le 15 mai) est une attaque par empoisonnement contre la mémoire-graphe des agents. Plutôt que de stocker les interactions passées sous forme de texte plat, un nombre croissant d’architectures d’agents les conservent comme un graphe de connaissances composé d’entités et de relations — c’est ce que font des frameworks comme Mem0 pour permettre un rappel structuré à long terme et un raisonnement multi-sauts. Le constat de ShadowMerge : cette structure de graphe n’est pas seulement une fonctionnalité, c’est une nouvelle surface d’empoisonnement. Les auteurs ont évalué l’attaque sur Mem0, indiquent l’avoir divulguée de façon responsable aux éditeurs de mémoire-graphe concernés, et ont publié leur code en open source.
Comment ça marche
Les travaux antérieurs d’empoisonnement de mémoire comme AgentPoison (Chen et al., NeurIPS 2024) visent des enregistrements plats : on injecte une instance malveillante, elle est récupérée. Face à une mémoire-graphe, cela échoue souvent, car une relation hostile doit franchir trois portes avant d’influencer l’agent. ShadowMerge décrit pourquoi ces portes peuvent être contournées — il n’y a aucun payload exploitable à exécuter.
Porte Ce qu'une relation empoisonnée doit accomplir
---------------- --------------------------------------------------------
Extraction Être analysée par le pipeline mémoire en une relation stockée
Fusion Atterrir dans le voisinage de l'ancrage cible (pas un noeud isolé)
Récupération Être sélectionnée comme preuve pour la requête ultérieure de la victime
L’idée clé est une collision de canal de relation (relation-channel conflict). Une relation empoisonnée peut partager le même ancrage activé par la requête (l’entité que la requête éclaire) et le même canal de relation canonicalisé (le type de relation normalisé sur lequel le système fusionne) qu’une preuve légitime — tout en portant une valeur contradictoire. Le pipeline AIR des auteurs formule ce conflit comme une interaction ordinaire, si bien que le système mémoire l’extrait lui-même, la fusionne à côté de la vraie preuve, puis la récupère plus tard. Point crucial : cela ne requiert qu’un accès par requête, en interaction ordinaire — aucune insertion de documents dans un corpus, aucune modification de l’index du graphe.
Sur Mem0, à travers PubMedQA, WebShop et ToolEmu, les auteurs rapportent un taux de réussite moyen de 93,8 %, soit 50,3 points de gain absolu sur la meilleure référence, avec un impact négligeable sur les tâches bénignes sans rapport. Leur analyse de défense conclut que les défenses en entrée représentatives ne suffisent pas à l’arrêter.
Pourquoi c’est important
La mémoire-graphe est adoptée précisément pour le raisonnement à forte valeur et à long horizon — là où un « fait » discrètement corrompu fait le plus de dégâts. Deux propriétés rendent cette attaque délicate à défendre. D’abord, le modèle d’accès est faible : un attaquant capable de simplement interagir normalement peut planter le poison, sans avoir besoin d’accès en écriture à un corpus ou à un index. Ensuite, comme le poison s’appuie sur le même ancrage et le même canal qu’une preuve authentique, auditer les entrées de mémoire une par une tend à le manquer — la relation malveillante ne paraît fausse qu’à côté de la relation légitime qu’elle contredit.
Les réserves honnêtes : ce sont les chiffres d’un seul papier, mesurés sur un seul framework (Mem0) et trois benchmarks de recherche, et le taux de réussite dépendra de la configuration. Les éditeurs ont été prévenus dans le cadre d’une divulgation responsable : considérez les chiffres précis comme un résultat de recherche, pas comme une constante universelle pour votre déploiement.
Défenses
- Cessez d’auditer les entrées de mémoire isolément. A-MemGuard (Wei et al., arXiv 2510.02373) le concrétise : une validation par consensus compare les chaînes de raisonnement issues de plusieurs mémoires liées, et une structure à double mémoire distille les échecs détectés en « leçons » consultées avant les actions futures. Les auteurs rapportent une réduction du taux de réussite de plus de 95 % pour un coût d’utilité minime.
- Traitez l’étape de fusion comme une frontière de confiance. Quand une nouvelle relation contredit une preuve existante de haute confiance sur le même ancrage et le même canal, signalez-la pour revue au lieu de fusionner ou d’écraser en silence.
- Gardez la provenance de chaque relation. Enregistrez quelle interaction ou source a produit chaque arête, pondérez selon la confiance accordée à la source, et privilégiez les relations corroborées au moment de la récupération.
- Relevez le seuil pour écrire des faits. N’autorisez pas une seule interaction ordinaire à établir un fait durable dans le graphe ; exigez une corroboration avant qu’une relation ne devienne mémoire à long terme de haute confiance.
- Re-testez sur votre propre stack. Le filtrage en entrée est ici démontré insuffisant contre les collisions de canal de relation — mesurez spécifiquement contre cette classe d’attaque avant de vous fier à une seule couche.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| ShadowMerge | arXiv 2605.09033 | 2026-05-09 (rév. 05-15) | Empoisonnement de mémoire-graphe par collision de canal ; évalué sur Mem0 ; divulgué responsablement, open source |
| A-MemGuard | arXiv 2510.02373 | 2025-10 | Défense mémoire proactive : validation par consensus + double mémoire « leçons » |
| AgentPoison | page projet | NeurIPS 2024 | Antériorité : backdoor par empoisonnement de mémoire plate / bases de connaissances RAG |
Le glissement est conceptuel : la mémoire-graphe était censée rendre le rappel plus structuré, donc plus sûr. ShadowMerge montre que la structure peut se retourner contre elle-même — un fait ment d’autant plus efficacement qu’il se tient juste à côté de la vérité qu’il contredit.