DEFENSE LOW NEW

MemMark : attribuer une mémoire d'agent empoisonnée à partir du seul instantané

Un article arXiv du 26 mai 2026 inscrit la propriété dans les décisions latentes d'écriture mémoire d'un agent : la provenance survit même quand les journaux ont été effacés et qu'il ne reste que l'instantané final.

2026-06-22 // 7 min affects: llm-agents, agent-memory-systems, a-mem, graphiti, mem0

De quoi s’agit-il ?

Le 26 mai 2026, une équipe pilotée par Haobo Zhang (Zhejiang University of Technology), réunissant plusieurs institutions, a publié MemMark: State-Evolution Attribution Watermarking for Agent Long-Term Memory Systems (arXiv:2605.25002, cs.CR). L’article traite d’une question forensique qui devient critique dès qu’un agent conserve une mémoire persistante : après altération d’un magasin mémoire, peut-on encore prouver qui a réellement écrit une entrée — à partir du seul instantané final, sans journaux dignes de confiance ?

La mémoire à long terme fait désormais partie du périmètre de sécurité de l’agent. Des systèmes comme A-Mem, Graphiti, Mem0 ou MemOS gèrent l’état par extraction, mises à jour, consolidation, liens et suppressions. La réponse habituelle à « qui a écrit ceci ? » repose sur des métadonnées de provenance — ancres de source, versions, traces de cycle de vie. Or MemMark montre que ces champs souffrent d’une défaillance circulaire : le même instantané non fiable contient à la fois la mémoire contestée et les champs mutables censés la certifier. Un attaquant qui contrôle le magasin peut réécrire la propriété, effacer les identifiants, fabriquer des chaînes de provenance, ou éditer les historiques natifs du backend (journaux d’évolution A-Mem, traces d’invalidation de faits Graphiti).

Comment ça marche

Plutôt que de faire confiance à des champs auto-déclarés, MemMark inscrit l’attribution dans les décisions latentes que l’agent prend lorsqu’il écrit en mémoire — des choix normalement invisibles et sans impact sur l’utilité :

cible de mise à jour — quel élément existant mettre à jour
cible de lien — quel élément lié rattacher
réalisation sémantique — laquelle de plusieurs formulations équivalentes stocker

À chaque appel LLM interne, MemMark énumère les candidats admissibles et utilise un échantillonneur à clé secrète, préservant la distribution, pour en sélectionner un. Comme l’échantillonneur respecte la distribution de préférence du backend, la qualité de sortie reste quasi inchangée, mais le motif des choix porte désormais un signal contrôlé par le propriétaire. Chaque décision est liée à un engagement cryptographique, consignée dans un arbre de Merkle par session avec une ancre signée, et les données de révélation sont stockées avec l’enregistrement mémoire.

Point clé, la vérification se dégrade en douceur selon trois régimes : R1 (journal externe complet), R2 (journal partiel) et R3 (instantané seul). Dans le cas R3 — le scénario réaliste post-compromission — MemMark récupère l’intégralité de la charge utile de 40 bits, contre aucune récupération pour une base ne reposant que sur des métadonnées signées, et ~15 % avec une mauvaise clé. Sur six configurations modèle–backend du benchmark LoCoMo, il a conservé 99,6 % du F1 global sans filigrane (le BLEU-1 variant de +0,2 %), et sous neuf attaques de cycle de vie mémoire à trois intensités, il distinguait encore l’altération, la suppression de preuves et la récupération partielle de charge utile.

Pourquoi c’est important

La majorité des travaux sur la sécurité de la mémoire d’agent visaient jusqu’ici à prévenir l’empoisonnement (AgentPoison et travaux connexes ; voir nos analyses sur l’empoisonnement de mémoire et l’exfiltration par mémoire dormante). MemMark s’attaque à l’étape suivante : l’attribution et la responsabilité après la brèche. Cela compte pour la réponse à incident, les litiges de propriété intellectuelle, les déploiements multi-locataires et la provenance réglementaire, où « le journal dit X » ne vaut rien si l’attaquant contrôlait aussi le journal.

L’approche déplace la provenance des affirmations modifiables vers une trace comportementale reproductible. Les filigranes antérieurs résident dans le texte généré, des corpus protégés, l’usage visible d’outils ou les trajectoires d’action — autant de canaux de preuve qui peuvent simplement manquer en forensique mémoire. MemMark cible le seul artefact durable qui survit généralement : l’instantané mémoire lui-même. Cela rejoint la notion plus large de « souveraineté mnémonique » : traiter la mémoire comme un actif à gouverner sur tout son cycle de vie.

Défenses

MemMark est une brique, pas un produit clé en main. Pour les équipes exploitant des agents à mémoire :

Conservez la journalisation fiable comme contrôle principal. MemMark est explicitement un repli pour quand les journaux sont perdus, retenus ou suspects — pas un substitut. Associez-le à des pistes d’audit inviolables et à la provenance d’exécution.
Ne vous fiez pas aux seuls champs de provenance auto-déclarés. Considérez les métadonnées de propriété/version d’un instantané comme contrôlables par l’attaquant ; concevez une vérification qui ne dépende pas du même magasin qui se certifie lui-même.
Protégez la clé. L’attribution à partir du seul instantané repose sur une clé secrète et des ancres signées ; une compromission de clé fait s’effondrer la garantie. Gérez-la comme toute clé de signature (HSM, rotation, séparation du runtime de l’agent).
Calibrez vos attentes. La charge utile démontrée est de 40 bits avec une faible entropie par décision (~1,1–1,3 bit) : l’attribution a besoin d’assez de décisions d’écriture pour accumuler du signal ; les sessions très courtes portent moins d’information.
Validez sur votre backend. Les résultats couvrent A-Mem et Graphiti sur LoCoMo ; la disponibilité des porteurs dépend de la manière dont votre système mémoire opère ses choix de mise à jour/lien/réalisation.

Statut

Élément	Référence	Date	Notes
Préprint MemMark	arXiv:2605.25002	2026-05-26	Filigrane d’attribution par évolution d’état pour mémoire d’agent
Résultat instantané seul	§5.4 (R3)	2026-05-26	Récupération complète de 40 bits vs aucune pour la base métadonnées
Utilité	§5.2	2026-05-26	99,6 % du F1 global sans filigrane ; BLEU-1 +0,2 %
Robustesse	§5.5	2026-05-26	Diagnostique sous neuf attaques de cycle de vie mémoire
Contexte de menace	survey souveraineté mnémonique (arXiv:2604.16548) ; AgentPoison (arXiv:2407.12784)	2024–2026	Empoisonnement et attaques de cycle de vie de la mémoire d’agent

À retenir : à mesure que les agents passent de répondeurs mono-session à acteurs persistants, la provenance de la mémoire devient un problème de sécurité à part entière — et MemMark montre que l’attribution peut survivre à un instantané non fiable, à condition de protéger la clé et de la traiter comme un complément à la journalisation fiable, non comme un substitut.