AGENTS MEDIUM NEW

Agents zombies : quand un agent LLM auto-évolutif reste compromis d'une session à l'autre

Une injection indirecte ponctuelle, observée pendant une session anodine, peut être écrite dans la mémoire longue de l'agent puis rejouée comme instruction — transformant un prompt éphémère en contrôle persistant. Article d'attaque daté de février 2026, défense (CAMS) de mai 2026.

2026-06-18 // 8 min affects: llm-agents, self-evolving-agents, memory-based-agents, rag-agents

De quoi s’agit-il ?

Les agents « auto-évolutifs » sont des agents LLM qui mettent à jour leur propre état interne entre les sessions : ils écrivent des résumés, des trajectoires réussies, des préférences utilisateur ou des faits récupérés dans une mémoire à long terme, qu’ils relisent lors des exécutions suivantes. L’article Zombie Agents (arXiv, février 2026) étudie un mode de défaillance propre à cette conception. Un attaquant qui contrôle du contenu non fiable que l’agent se contente d’observer au cours d’une session ordinaire — une page web, un document, un résultat d’outil — peut faire écrire une charge utile dans cette mémoire, qui sera ensuite traitée comme une instruction de confiance lors des sessions futures. Résultat : la persistance. Une injection unique et ponctuelle devient un contrôle durable, sans intervention. Les auteurs qualifient l’agent compromis de « zombie ».

Le constat est structurel, pas un simple bug produit. Il généralise une observation antérieure (par exemple MINJA, arXiv mars 2026) selon laquelle les agents adossés à une mémoire peuvent être pilotés via une interaction utilisateur normale, sans privilèges élevés, et la pousse vers les agents qui réécrivent leur propre état au fil du temps.

Comment ça marche

La chaîne comporte trois étapes, décrites ici à partir du cadrage public de la recherche et sans aucun exploit fonctionnel :

Ingestion. Pendant une tâche anodine, l’agent traite du contenu externe contrôlé par l’attaquant. Comme les agents auto-évolutifs persistent ce qu’ils voient — observations, « expériences réussies », notes condensées —, une partie de ce contenu est écrite en mémoire longue.
Promotion en instruction. Lors d’une session ultérieure, le module de récupération fait remonter l’élément stocké comme contexte pertinent. L’agent ne dispose d’aucune frontière fiable le marquant comme donnée observée plutôt que comme instruction à suivre : il peut donc agir dessus. C’est la confusion fondamentale entre données et instructions, désormais décalée dans le temps.
Auto-renforcement. L’apport de l’article est de montrer que la charge peut être conçue pour survivre à l’hygiène mémoire courante — troncature, filtrage par pertinence, résumé — et même se réécrire en mémoire à chaque déclenchement, de sorte que la compromission survit à la session qui l’a créée.

Dates clés pour juger de la fraîcheur : le cadrage de l’attaque date de février 2026 ; le précurseur d’injection mémoire par requête seule (MINJA) de mars 2026 ; une étude dédiée attaque-et-défense sur les agents à mémoire de janvier 2026 (arXiv 2601.05504). Aucune charge utile n’est reproduite ici.

Pourquoi c’est important

La plupart des défenses contre l’injection de prompt sont per-session : elles filtrent l’entrée ou la sortie courante. Cette classe d’attaque est explicitement conçue pour déjouer ce postulat. Si l’instruction malveillante est dormante en mémoire et ne s’active qu’à un déclencheur ultérieur, un filtre d’entrée propre, au moment de l’exécution, ne voit rien d’anormal. Le rayon d’impact croît avec l’autonomie et la persistance de la mémoire : assistants au long cours, agents qui accumulent l’historique utilisateur, et déploiements multi-utilisateurs où la mémoire empoisonnée d’un utilisateur pourrait en influencer un autre sont les plus exposés. Dans les domaines régulés — les auteurs de CAMS prennent l’exemple des agents sur dossiers médicaux électroniques —, une dérive comportementale durable et silencieuse constitue un sérieux problème d’intégrité et de confidentialité.

Défenses

Se défendre contre la persistance suppose de traiter la mémoire comme une frontière non fiable et sensible pour la sécurité, et non comme un simple cache de confort. Le cadre Cognitive Autonomous Memory Security (CAMS) (ScienceDirect, mai 2026) propose un middleware à cinq couches qui ne requiert aucune modification du modèle sous-jacent et constitue une checklist utile, même si vous concevez la vôtre :

Contrôle à l’écriture. Un pipeline « WriteGuard » et un filtrage par intention sémantique sur tout ce qui entre en mémoire longue, avant l’écriture — l’endroit le moins coûteux pour bloquer l’ingestion d’instructions injectées.
Provenance et stockage zéro-confiance. Des enregistrements infalsifiables de l’origine de chaque mémoire, pour qu’un contenu externe observé ne soit jamais promu silencieusement en instruction de confiance.
Surveillance de la dérive temporelle. Suivre la dérive des embeddings et l’évolution des séquences dans le temps pour repérer un empoisonnement lent et progressif qu’aucun contrôle isolé ne détecterait.
Reconstruction inter-mémoires / par graphe. Corréler les entrées liées pour détecter les attaques réparties sur plusieurs éléments stockés ou plusieurs utilisateurs.
Re-scan périodique. Un scanner de mémoire longue qui réévalue les souvenirs déjà stockés, un élément ne pouvant devenir malveillant en contexte que plus tard.

Contrôles d’ingénierie complémentaires : séparer au niveau du schéma « ce que l’agent a vu » et « ce que l’agent doit faire » ; cloisonner la mémoire par utilisateur et par niveau de confiance ; exiger une confirmation humaine avant toute action à fort impact issue d’une mémoire récupérée ; et appliquer la logique de la triade létale — la prudence maximale s’impose quand un agent combine mémoire persistante, exposition à du contenu non fiable et capacité d’agir ou d’exfiltrer.

Statut

Il s’agit de recherche académique publiée sur une classe de faiblesses des agents auto-évolutifs et à mémoire, et non d’une vulnérabilité dans un produit nommé ; aucune charge utile exploitable n’est divulguée. L’analyse d’attaque (Zombie Agents) est datée de février 2026 ; les travaux fondateurs d’injection mémoire (MINJA) de mars 2026 ; et la défense CAMS de mai 2026 — ce qui place la source la plus récente dans les ~90 derniers jours. Les concepteurs d’agents adossés à une mémoire doivent considérer que le filtrage d’entrée per-session est nécessaire mais insuffisant, et ajouter un contrôle à l’écriture, de la provenance et une surveillance de la dérive sur la mémoire elle-même.