AGENTS CRITICAL NEW

Vers auto-propagatifs d'agents et défense par ré-entrée temporelle

Un papier de mai 2026 formalise comment l'état persistant d'un agent permet à une charge d'injection de se réécrire dans le contexte du LLM, de se propager entre agents sans clic, et propose RTW-A — défense prouvée par un théorème de non-propagation.

2026-06-04 // 7 min affects: autonomous-llm-agents, file-backed-multi-agent-frameworks, scheduled-task-agents, agent-messaging-integrations

De quoi s’agit-il ?

Le 4 mai 2026, Mingming Zha et Xiaofeng Wang ont publié Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense (arXiv:2605.02812, cs.CR). C’est le premier cadre systématique d’analyse de la propagation de vers persistants dans les écosystèmes multi-agents adossés à des fichiers — et, fait notable pour notre ligne, il fournit une défense avec preuve formelle, pas seulement une attaque.

La classe de menace n’est pas inédite : en 2024, les travaux ComPromptMized / Morris II démontraient le premier ver GenAI zéro-clic via un prompt auto-répliquant. Ce que le papier de 2026 ajoute, c’est l’automatisation de la découverte et une explication structurelle du pourquoi les agents au long cours sont particulièrement exposés : ils conservent des espaces de travail persistants, des fichiers mémoire, l’état des tâches planifiées et des intégrations de messagerie qui survivent d’une session à l’autre.

Comment ça marche

Le mécanisme est une boucle, pas une charge. Un agent autonome lit un contenu influencé par l’attaquant (un e-mail, un document partagé, un résultat d’outil), et ce contenu est écrit dans l’état persistant de l’agent. Lors d’une exécution ultérieure — souvent par autochargement planifié — cet état est relu dans le contexte de décision du LLM, où il peut déclencher des actions à haut risque : changements de configuration, appels d’outils, transmission à d’autres agents. Aucun clic humain n’est requis, à aucune étape.

Lecture externe   →  Écriture en état persistant  →  Ré-entrée planifiée →  Action
(e-mail, doc,        (fichier mémoire, espace de       (l'autoload tire       (changement config,
 sortie d'outil)      travail, file de tâches)          l'état en contexte)    envoi inter-agent)
        ▲                                                                          │
        └────────────────────  propagation vers l'agent suivant  ─────────────────┘

Le papier introduit deux outils d’analyse (aucune charge opérationnelle n’est reproduite ici) :

SSCGV, un analyseur de graphe de code source qui trace le flux de données depuis les E/S de fichiers jusqu’aux points de ré-entrée dans le contexte du LLM, et classe les « porteurs » par position d’injection — automatisant un travail d’audit jadis manuel.
SRPO, un optimiseur de charge conçu pour survivre à la synthèse et à la reformulation médiées par le LLM à travers une communication multi-saut, propriété qui permet au ver de franchir les frontières de plateformes.

Évalués sur trois cadres d’agents en production (anonymisés), les auteurs rapportent une propagation autonome zéro-clic, une transmission inter-plateformes sur 3 sauts sans adaptation spécifique, une escalade de privilèges inter-agents et une exfiltration de données. Deux constats comptent pour les défenseurs : les porteurs de type prompt utilisateur obtiennent une meilleure conformité d’attaque que les porteurs de prompt système, et les opérations de lecture — et non d’écriture — sont la principale menace d’intégrité dans les systèmes médiés par LLM, car le danger vient du contenu qui ré-entre dans le contexte, pas de son stockage. Les systèmes affectés sont anonymisés dans l’attente d’une divulgation coordonnée.

Pourquoi c’est important

Ce travail généralise les résultats sur l’empoisonnement de mémoire et la persistance déjà couverts — contamination temporelle de la mémoire, exfiltration par mémoire dormante — en un modèle de propagation. Une seule entrée empoisonnée ne compromet plus un seul agent ; elle peut chevaucher la synthèse à travers des agents hétérogènes, soit exactement le trio létal (données privées, contenu non fiable, canal d’exfiltration) répliqué à l’échelle d’une flotte.

L’éclairage structurel est la partie inconfortable. Les fonctionnalités qui rendent les agents utiles — mémoire persistante, tâches planifiées, messagerie inter-agents — sont aussi celles qui referment la boucle de propagation. Comme le notait le panorama de juin 2026 d’Adversa AI à côté de ce papier, les divulgations du mois « diffèrent par le mécanisme mais riment par la cause : une confiance implicite accordée là où personne ne surveillait ». Il s’agit d’un travail en phase de recherche, divulgué de façon responsable, et non d’un incident réel ; sa valeur tient au modèle de défense qu’il rend démontrable.

Défenses

La défense du papier, RTW-A, est prouvée sous un théorème formel de non-propagation de ver persistant et se compose de quatre mécanismes composables, qui se traduisent en consignes d’ingénierie concrètes :

Bloquer la ré-entrée écriture-avant-lecture-exposée (RTW). L’invariant central : un contenu qu’un agent a écrit après avoir lu une entrée externe ne doit pas être réexposé silencieusement au modèle lors d’une exécution ultérieure. Tracez la provenance de l’état et filtrez la ré-entrée des écritures atteignables par l’attaquant.
Sceller la configuration et les fichiers statiques. La config de l’agent, les prompts système et les définitions d’outils doivent être immuables à l’exécution. Si le modèle ne peut pas réécrire les fichiers qui gouvernent son propre comportement, l’étape de persistance de la chaîne est rompue. Montez-les en lecture seule.
Promotion typée de la mémoire. Ne laissez pas des synthèses non fiables couler dans la mémoire de confiance. Maintenez une frontière de type stricte entre « contenu externe observé » et « faits de confiance », et exigez une étape de promotion explicite et auditée — jamais automatique — pour franchir cette frontière.
Atténuation de capacités après lectures externes. Dès qu’un agent a ingéré un contenu externe dans une session, réduisez ses privilèges : limitez ou imposez une revue humaine pour les actions à haut risque (changements de config, messages sortants vers d’autres agents, usage de secrets). Cela borne directement le rayon d’impact même si l’injection réussit.

Au-delà du papier : appliquez la règle de deux pour qu’un agent ne cumule jamais entrée non fiable, accès sensible et communication externe ; instrumentez l’autochargement des tâches planifiées comme un événement pertinent pour la sécurité ; et menez vos propres exercices red team sur vos chemins de persistance d’état — l’approche SSCGV (tracer les E/S de fichiers vers les points d’injection en contexte) est reproductible en mode défensif sur votre propre code.

Statut

Élément	Référence	Date	Notes
Autonomous LLM Agent Worms	arXiv:2605.02812	2026-05-04	Premier cadre découverte automatisée + défense prouvable ; systèmes affectés anonymisés
Défense RTW-A	Même papier	2026-05-04	Quatre mécanismes, théorème de non-propagation de ver persistant
Panorama sécurité agentique juin 2026	Adversa AI	2026-06-01	Cite le papier parmi les divulgations de vers d’agents du mois
ComPromptMized / Morris II	arXiv:2403.02817	2024	Précédent reconnu : premier ver GenAI zéro-clic

Le titre n’est pas « les vers IA arrivent » — celui-là a deux ans. C’est que la boucle de propagation est désormais formalisable et défendable : les mêmes fonctionnalités de persistance qui rendent le ver possible désignent aussi précisément où le couper. Si vous exploitez des agents au long cours dotés de mémoire et de messagerie, les quatre mécanismes RTW-A sont la check-list à confronter à votre architecture dès aujourd’hui.