sistema: OPERATIVO
← volver a todos los hacks
AGENTS CRITICAL NEW

Gusanos autopropagables de agentes y la defensa por reentrada temporal

Un artículo de mayo de 2026 formaliza cómo el estado persistente de un agente permite que una carga de inyección se reescriba en el contexto del LLM, se propague entre agentes sin clics, y propone RTW-A, una defensa probada por un teorema de no propagación.

2026-06-04 // 7 min affects: autonomous-llm-agents, file-backed-multi-agent-frameworks, scheduled-task-agents, agent-messaging-integrations

¿Qué es esto?

El 4 de mayo de 2026, Mingming Zha y Xiaofeng Wang publicaron Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense (arXiv:2605.02812, cs.CR). Es el primer marco sistemático para analizar la propagación de gusanos persistentes en ecosistemas multiagente respaldados por archivos y, algo relevante para nuestra línea editorial, incluye una defensa con prueba formal, no solo un ataque.

La clase de amenaza no es nueva: en 2024, el trabajo ComPromptMized / Morris II demostró el primer gusano de GenAI de cero clics mediante un prompt autorreplicante. Lo que el artículo de 2026 aporta es la automatización del descubrimiento y una explicación estructural de por qué los agentes de larga ejecución están especialmente expuestos: conservan espacios de trabajo persistentes, archivos de memoria, estado de tareas programadas e integraciones de mensajería que sobreviven entre sesiones.

Cómo funciona

El mecanismo es un bucle, no una carga. Un agente autónomo lee contenido influido por el atacante (un correo, un documento compartido, el resultado de una herramienta), y ese contenido se escribe en el estado persistente del agente. En una ejecución posterior —a menudo mediante autocarga programada— ese estado se vuelve a leer en el contexto de decisión del LLM, donde puede desencadenar acciones de alto riesgo: cambios de configuración, llamadas a herramientas y transmisión a otros agentes. No se requiere ningún clic humano en ninguna etapa.

Lectura externa   →  Escritura en estado persistente →  Reentrada programada → Acción
(correo, doc,        (archivo de memoria, espacio        (la autocarga lleva      (cambio config,
 salida herramienta)  de trabajo, cola de tareas)         el estado al contexto)   envío interagente)
        ▲                                                                          │
        └────────────────────  propagación al siguiente agente  ──────────────────┘

El artículo introduce dos herramientas de análisis (aquí no se reproduce ninguna carga operativa):

  • SSCGV, un analizador de grafo de código fuente que rastrea el flujo de datos desde la E/S de archivos hasta los puntos de reentrada en el contexto del LLM, y clasifica los «portadores» por posición de inyección, automatizando un trabajo de auditoría antes manual.
  • SRPO, un optimizador de cargas diseñado para sobrevivir a la síntesis y la paráfrasis mediadas por el LLM a lo largo de una comunicación de múltiples saltos, la propiedad que permite al gusano cruzar fronteras de plataforma.

Evaluados en tres marcos de agentes en producción (anonimizados), los autores reportan propagación autónoma de cero clics, transmisión entre plataformas en 3 saltos sin adaptación específica, escalada de privilegios entre agentes y exfiltración de datos. Dos hallazgos importan a los defensores: los portadores de tipo prompt de usuario logran mayor cumplimiento del ataque que los de prompt de sistema, y las operaciones de lectura —no las de escritura— son la principal amenaza de integridad en sistemas mediados por LLM, porque el peligro está en que el contenido reentre al contexto, no en que se almacene. Los sistemas afectados están anonimizados a la espera de una divulgación coordinada.

Por qué importa

Este trabajo generaliza los resultados sobre envenenamiento de memoria y persistencia que ya hemos cubierto —contaminación temporal de la memoria, exfiltración por memoria latente— hacia un modelo de propagación. Una sola entrada envenenada ya no compromete a un agente; puede cabalgar sobre la síntesis a través de agentes heterogéneos, es decir, exactamente el trío letal (datos privados, contenido no confiable, canal de exfiltración) replicado a escala de flota.

La lectura estructural es la parte incómoda. Las funciones que hacen útiles a los agentes —memoria persistente, tareas programadas, mensajería entre agentes— son las mismas que cierran el bucle de propagación. Como señaló el resumen de junio de 2026 de Adversa AI junto a este artículo, las divulgaciones del mes «difieren en el mecanismo pero riman en la causa: una confianza implícita concedida donde nadie vigilaba». Se trata de trabajo en fase de investigación, divulgado de forma responsable, no de un incidente real; su valor está en el modelo de defensa que vuelve demostrable.

Defensas

La defensa del artículo, RTW-A, está probada bajo un teorema formal de no propagación de gusano persistente y se compone de cuatro mecanismos componibles, que se traducen en pautas concretas de ingeniería:

  1. Bloquear la reentrada escritura-antes-de-lectura-expuesta (RTW). El invariante central: el contenido que un agente escribió tras leer una entrada externa no debe reexponerse en silencio al modelo en una ejecución posterior. Rastree la procedencia del estado y filtre la reentrada de escrituras alcanzables por el atacante.

  2. Sellar la configuración y los archivos estáticos. La configuración del agente, los prompts de sistema y las definiciones de herramientas deben ser inmutables en ejecución. Si el modelo no puede reescribir los archivos que gobiernan su propio comportamiento, se rompe el paso de persistencia de la cadena. Móntelos en solo lectura.

  3. Promoción tipada de la memoria. No deje que síntesis no confiables fluyan a la memoria de confianza. Mantenga una frontera de tipo estricta entre «contenido externo observado» y «hechos de confianza», y exija un paso de promoción explícito y auditado —nunca automático— para cruzarla.

  4. Atenuación de capacidades tras lecturas externas. Una vez que un agente ha ingerido contenido externo en una sesión, reduzca sus privilegios: limite o exija revisión humana para acciones de alto riesgo (cambios de configuración, mensajes salientes a otros agentes, uso de credenciales). Esto acota directamente el radio de impacto aunque la inyección tenga éxito.

Más allá del artículo: aplique la regla de dos para que un agente nunca combine entrada no confiable, acceso sensible y comunicación externa; instrumente la autocarga de tareas programadas como un evento relevante para la seguridad; y haga red team sobre sus propias rutas de persistencia de estado: el enfoque SSCGV (rastrear la E/S de archivos hasta los puntos de inyección en contexto) es reproducible en modo defensivo sobre su propio código.

Estado

ElementoReferenciaFechaNotas
Autonomous LLM Agent WormsarXiv:2605.028122026-05-04Primer marco de descubrimiento automatizado + defensa demostrable; sistemas afectados anonimizados
Defensa RTW-AMismo artículo2026-05-04Cuatro mecanismos, teorema de no propagación de gusano persistente
Resumen de seguridad agéntica junio 2026Adversa AI2026-06-01Cita el artículo entre las divulgaciones de gusanos de agentes del mes
ComPromptMized / Morris IIarXiv:2403.028172024Precedente reconocido: primer gusano de GenAI de cero clics

El titular no es «llegan los gusanos de IA» —ese tiene dos años—. Es que el bucle de propagación ya es formalizable y defendible: las mismas funciones de persistencia que hacen posible el gusano señalan también con precisión dónde cortarlo. Si opera agentes de larga ejecución con memoria y mensajería, los cuatro mecanismos de RTW-A son la lista de verificación que conviene contrastar hoy con su arquitectura.

Sources