sistema: OPERATIVO
← volver a todos los hacks
AGENTS MEDIUM NEW

Agentes zombis: cuando un agente LLM autoevolutivo sigue comprometido entre sesiones

Una inyección indirecta puntual, observada durante una sesión inocua, puede escribirse en la memoria a largo plazo del agente y reproducirse luego como instrucción, convirtiendo un prompt efímero en control persistente. Artículo de ataque de febrero de 2026, defensa (CAMS) de mayo de 2026.

2026-06-18 // 8 min affects: llm-agents, self-evolving-agents, memory-based-agents, rag-agents

¿Qué es esto?

Los agentes «autoevolutivos» son agentes LLM que actualizan su propio estado interno entre sesiones: escriben resúmenes, trayectorias exitosas, preferencias del usuario o datos recuperados en una memoria a largo plazo, que vuelven a leer en ejecuciones posteriores. El artículo Zombie Agents (arXiv, febrero de 2026) estudia un modo de fallo propio de este diseño. Un atacante que controla contenido no confiable que el agente solo observa durante una sesión ordinaria —una página web, un documento, el resultado de una herramienta— puede lograr que una carga útil se escriba en esa memoria y se trate luego como una instrucción de confianza en sesiones futuras. El resultado es la persistencia: una única inyección puntual se convierte en control duradero y sin intervención. Los autores llaman «zombi» al agente comprometido.

El punto es estructural, no un simple error de producto. Generaliza la observación anterior (por ejemplo MINJA, arXiv marzo de 2026) de que los agentes con memoria pueden dirigirse mediante interacción normal del usuario, sin privilegios elevados, y la lleva a los agentes que reescriben su propio estado con el tiempo.

Cómo funciona

La cadena tiene tres etapas, descritas aquí a partir del encuadre público de la investigación y sin ningún exploit funcional:

  1. Ingesta. Durante una tarea inocua, el agente procesa contenido externo controlado por el atacante. Como los agentes autoevolutivos persisten lo que ven —observaciones, «experiencias exitosas», notas destiladas—, parte de ese contenido se escribe en la memoria a largo plazo.
  2. Promoción a instrucción. En una sesión posterior, el recuperador de memoria saca el elemento almacenado como contexto relevante. El agente no tiene una frontera fiable que lo marque como dato observado en vez de instrucción a seguir, por lo que puede actuar sobre él. Es la confusión fundamental entre datos e instrucciones, ahora desplazada en el tiempo.
  3. Autorrefuerzo. El aporte del artículo es mostrar que la carga puede diseñarse para sobrevivir a la higiene de memoria habitual —truncado, filtrado por relevancia, resumen— e incluso reescribirse en la memoria cada vez que se activa, de modo que el compromiso sobrevive a la sesión que lo creó.

Fechas clave para juzgar la frescura: el encuadre del ataque es de febrero de 2026; el precursor de inyección de memoria solo por consultas (MINJA) es de marzo de 2026; un estudio dedicado de ataque y defensa sobre agentes con memoria es de enero de 2026 (arXiv 2601.05504). Aquí no se reproduce ninguna carga útil.

Por qué importa

La mayoría de las defensas contra la inyección de prompts son por sesión: filtran la entrada o la salida actuales. Esta clase de ataque está diseñada explícitamente para vencer ese supuesto. Si la instrucción maliciosa está latente en la memoria y solo se activa con un disparador posterior, un filtro de entrada limpio, en tiempo de ejecución, no ve nada anómalo. El radio de impacto crece con la autonomía y la persistencia de la memoria: los asistentes de larga duración, los agentes que acumulan historial del usuario y los despliegues multiusuario donde la memoria envenenada de un usuario podría influir en otro son los más expuestos. En dominios regulados —los autores de CAMS usan como ejemplo los agentes sobre historias clínicas electrónicas—, una deriva de comportamiento duradera y silenciosa es un grave problema de integridad y confidencialidad.

Defensas

Defenderse de la persistencia implica tratar el almacén de memoria como una frontera no confiable y relevante para la seguridad, no como una mera caché de conveniencia. El marco Cognitive Autonomous Memory Security (CAMS) (ScienceDirect, mayo de 2026) propone un middleware de cinco capas que no requiere modificar el modelo subyacente y sirve como lista de verificación útil aunque construya el suyo propio:

  • Control en la escritura. Una canalización «WriteGuard» y un filtrado por intención semántica sobre todo lo que entra en la memoria a largo plazo, antes de escribir: el lugar más barato para frenar la ingesta de instrucciones inyectadas.
  • Procedencia y almacenamiento de confianza cero. Registros a prueba de manipulaciones del origen de cada memoria, para que el contenido externo observado nunca se promueva en silencio a instrucción de confianza.
  • Monitoreo de la deriva temporal. Vigilar la deriva de los embeddings y la evolución de las secuencias en el tiempo para detectar un envenenamiento lento y progresivo que ningún control aislado captaría.
  • Reconstrucción entre memorias / por grafo. Correlacionar entradas relacionadas para detectar ataques repartidos entre varios elementos almacenados o varios usuarios.
  • Reescaneo periódico. Un escáner de memoria a largo plazo que reevalúa los recuerdos ya almacenados, ya que un elemento puede volverse malicioso en contexto solo más tarde.

Controles de ingeniería complementarios: separar a nivel de esquema «lo que el agente vio» de «lo que el agente debe hacer»; acotar la memoria por usuario y por nivel de confianza; exigir confirmación humana antes de cualquier acción de alto impacto originada en una memoria recuperada; y aplicar la lógica de la tríada letal: la máxima cautela corresponde cuando un agente combina memoria persistente, exposición a contenido no confiable y capacidad de actuar o exfiltrar.

Estado

Se trata de investigación académica publicada sobre una clase de debilidad en agentes autoevolutivos y con memoria, no de una vulnerabilidad en un producto con nombre concreto; no se divulga ninguna carga útil explotable. El análisis del ataque (Zombie Agents) es de febrero de 2026; el trabajo fundacional de inyección de memoria (MINJA) de marzo de 2026; y la defensa CAMS de mayo de 2026, lo que sitúa la fuente más reciente dentro de los últimos ~90 días. Quienes construyen agentes con memoria deben asumir que el filtrado de entrada por sesión es necesario pero no suficiente, y añadir control en la escritura, procedencia y monitoreo de la deriva sobre la propia memoria.

Sources