Hacia agentes LLM seguros: un SoK de 247 artículos que replantea la seguridad de agentes como un problema de sistemas
Un estudio de arXiv del 9 de junio de 2026 sobre 247 artículos sitúa la seguridad de los agentes LLM en el bucle agéntico: defensas que funcionan aisladas pero apenas se componen, y benchmarks ciegos al riesgo de largo plazo y con estado.
¿Qué es esto?
Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation es un estudio de sistematización del conocimiento (SoK) publicado en arXiv el 9 de junio de 2026 (arXiv:2606.10749) por Yuchen Ling, Shengcheng Yu, Zhenyu Chen y Chunrong Fang (Universidad de Nankín y Universidad Técnica de Múnich), preparado para ACM TOSEM. Sintetiza 247 artículos publicados entre enero de 2023 y el 27 de abril de 2026 en un único mapa auditable del estado real del campo.
Su argumento central es de los que este sitio repite: en cuanto un modelo de lenguaje se conecta a un bucle que planifica, invoca herramientas, mantiene memoria y actúa sobre el mundo exterior, la seguridad deja de ser una cuestión de texto inseguro y se convierte en un problema de software y de sistemas: fronteras de confianza, autoridad delegada, estado persistente. El valor del estudio reside menos en un ataque aislado que en el mapa que dibuja —y en las carencias que ese mapa hace visibles.
Cómo funciona
Los autores construyeron el corpus mediante una cadena híbrida auditable —búsqueda en seis bases de datos, una etapa acotada de expansión asistida por LLM (para ampliar la cobertura, nunca como oráculo de inclusión) y snowballing de citas— y luego codificaron a mano cada artículo. Un flujo de tipo PRISMA redujo 275 registros auditados a un corpus normalizado de 247. Cada artículo se etiqueta según las etapas del bucle agéntico: entrada, planificación, decisión, ejecución de herramientas, salida, memoria/estado, supervisión y coordinación multiagente.
Esa lente de ciclo de vida es la aportación. En lugar de catalogar ataques aislados, el estudio rastrea cómo una información no confiable se convierte en una decisión de control, cómo esa decisión se encuentra con la autoridad delegada y cómo la persistencia del estado cambia las propiedades de seguridad del sistema con el tiempo. Cuatro preguntas de investigación estructuran la síntesis: cómo modelar la seguridad de agentes (RQ1), qué superficies de amenaza dominan (RQ2), qué defensas existen y a qué coste (RQ3) y cómo se evalúan las afirmaciones (RQ4).
El propio corpus cuenta una trayectoria. Pasa de 3 artículos en 2023 a 42 en 2024 y 121 en 2025, con 81 más recogidos al 27 de abril de 2026 —ya un tercio del total. Y el 68 % del corpus son preprints de arXiv, frente a un puñado en NDSS, CCS o ICSE. El campo crece rápido pero sigue pre-estandarizado: terminología, modelos de amenaza y protocolos de evaluación no se han asentado.
Por qué importa
Tres hallazgos conviene llevar a las revisiones de diseño.
Primero, el centro de gravedad empírico sigue siendo la inyección de prompts y el secuestro del flujo de control mediado por herramientas —las superficies más estudiadas y evaluadas. Pero el estudio señala la corrupción de estado persistente (memoria envenenada, contexto de larga duración) y la propagación multiagente como las preocupaciones en alza que afrontan los despliegues reales y que la literatura sintetiza poco.
Segundo, las defensas se componen mal. Por separado, guardarraíles, control de privilegios, aislamiento y seguimiento de procedencia funcionan cada uno. Apilados, no suman limpiamente: protegen activos distintos, suponen modelos de confianza distintos, y el estudio no encuentra ninguna pila de seguridad convergente y componible que baste con ensamblar. Un buen resultado en una defensa dice poco del conjunto.
Tercero, los benchmarks miden la ventana equivocada. La mayoría reporta éxito de ataque inmediato en entornos acotados y de un solo turno, dejando infraevaluados el comportamiento a largo horizonte, el riesgo de memoria/coordinación con estado y las acciones sensibles a privilegios —y rara vez miden conjuntamente seguridad, utilidad, latencia y coste. Una defensa que parece sólida en un benchmark puede seguir siendo frágil en un despliegue con estado.
Defensas
La prescripción del estudio es arquitectónica y se reduce a cuatro pilares de ingeniería contra los que contrastar un diseño.
Haga explícitas las fronteras de confianza. Trate salidas de herramientas, documentos recuperados, entradas de memoria y mensajes entre agentes como datos no confiables, no como instrucciones. El modelo no sabe separar ambos de forma fiable; la frontera debe vivir en el sistema, en la línea de la jerarquía de instrucciones y del spotlighting.
Aplique un control de privilegios con principios. Acote cada llamada a herramienta al mínimo privilegio, denegación por defecto, y ligue las capacidades a la tarea y no a la sesión. El secuestro del flujo de control solo escala a daño real si el paso secuestrado conserva amplios privilegios.
Gestione el estado con procedencia. Memoria persistente y contexto largo son ya superficies de ataque. Rastree el origen de cada elemento almacenado, controle las escrituras y considere que una entrada de memoria contaminada puede orientar decisiones futuras, no solo el turno actual.
Evalúe para el despliegue, no para la demo. Elija (o construya) benchmarks que ejerciten horizontes largos, memoria con estado y coordinación, y que reporten utilidad y coste junto a la tasa de éxito de ataque. Como las defensas no se componen gratis, pruebe la pila que despliega, de extremo a extremo —no cada control por separado. La taxonomía de riesgos agénticos de OWASP es una útil verificación de cobertura.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Estudio (SoK) | arXiv:2606.10749v1 | 2026-06-09 | Marco ciclo de vida / sistemas, ACM TOSEM |
| Tamaño del corpus | 247 artículos | 2023-01 → 2026-04-27 | 275 auditados → 251 retenidos → 247 normalizados |
| Crecimiento | 3 → 42 → 121 artículos | 2023 / 2024 / 2025 | +81 al 2026-04-27 (~33 %) |
| Mezcla de venues | 68 % preprints arXiv | — | Campo aún pre-estandarizado |
| Superficies dominantes | Inyección de prompts, secuestro de flujo | — | Las más estudiadas / evaluadas |
| Superficies emergentes | Corrupción de estado, propagación multiagente | — | Poco sintetizadas |
| Sitio acompañante | LLMAgentSecuritySurvey | 2026 | Corpus navegable |
El mensaje no es un ataque nuevo. Es una disciplina: agentes LLM seguros exigen fronteras de confianza explícitas, control de privilegios con principios, estado con procedencia y evaluación alineada con cómo se despliegan realmente los agentes —y el estudio reconoce con honestidad que el campo aún no dispone de una pila que entregue las cuatro cosas a la vez.