DEFENSE LOW NEW

SkillGuard: un marco de permisos para lo que una skill de agente puede hacer en ejecución

Un artículo de junio de 2026 cierra la brecha entre lo que una skill inyecta en el contexto de un agente y lo que le hace hacer, mediante manifiestos, control de acceso deny-by-default y monitorización en ejecución.

2026-06-17 // 6 min affects: llm-agents, agent-skills, tool-calling-agents

¿Qué es esto?

SkillGuard: A Permission Framework for Agent Skills (arXiv:2606.03024, publicado en junio de 2026) es una propuesta defensiva para una de las superficies que más rápido crecen en la IA agéntica: las skills. Una skill es un paquete — instrucciones, definiciones de herramientas, a veces código — que un agente carga para ampliar lo que sabe hacer. El problema que aborda el artículo es que hoy los ecosistemas de skills se apoyan sobre todo en una carga basada en la confianza y una inspección estática: se lee el archivo, se decide que parece correcto y se instala. Eso deja una brecha entre lo que una skill puede inyectar en el contexto del agente y lo que puede hacer que el agente haga en ejecución.

Es una contribución defensiva, del lado de los sistemas. No contiene payloads de explotación. La pregunta que responde es cómo limitar una skill una vez que se está ejecutando, no cómo abusar de ella.

Cómo funciona

SkillGuard replantea una skill como un artefacto ejecutable portador de permisos en lugar de un archivo de texto de confianza, y aplica un modelo de gobernanza de dos planos que regula dos cosas distintas a la vez:

Influencia sobre el contexto — lo que la skill puede introducir en el contexto de razonamiento del agente, o modificar en él.
Efectos secundarios de las acciones — lo que la skill puede hacer que el agente realmente haga: qué herramientas, archivos, destinos de red y objetos protegidos puede tocar.

En concreto, el marco combina varios mecanismos heredados del control de acceso clásico y adaptados a los agentes:

Manifiestos de skill — una declaración explícita de intención y de capacidades requeridas, para que los permisos de una skill sean explícitos y auditables en lugar de implícitos.
Aplicación deny-by-default — se rechaza todo lo que no esté declarado, lo contrario del statu quo de «cargar y confiar».
Control de acceso en ejecución — los permisos se verifican mientras la skill actúa, no solo al inspeccionar sus archivos en la instalación.
Autorización mediada por el usuario — las capacidades de alto impacto exigen una decisión humana en lugar de concederse en silencio.
Inferencia de capacidades y monitorización del comportamiento — el sistema infiere lo que una skill realmente necesita y detecta divergencias entre la intención declarada y el comportamiento observado en ejecución.

Las cifras reportadas dan una idea de la cobertura y el coste. La taxonomía de permisos de SkillGuard cubre el 99,76 % de los objetos protegidos observados, y la generación automática de manifiestos alcanza un 91,0 % de F1 — es decir, el marco puede proponer en gran medida el manifiesto de permisos de una skill sin que un humano lo escriba a mano. En evaluación adversaria, reduce la tasa de éxito de los ataques del 32,37 % al 23,02 % para inyecciones contextuales y del 25,56 % al 16,67 % para inyecciones más evidentes, manteniendo la utilidad en tareas legítimas. Son reducciones parciales, no una eliminación — un punto que conviene tener presente.

Por qué importa

Las skills heredan todas las debilidades de la inyección de prompts y del abuso de herramientas, y añaden encima un problema de empaquetado y distribución. La literatura ya ha cartografiado esta superficie: un estudio de las skills de agentes cubre su arquitectura, su adquisición y sus riesgos de seguridad (arXiv:2602.12430), y trabajos de evaluación como SkillVetBench (arXiv:2606.15899) puntúan las skills de código abierto según su riesgo de seguridad antes de la instalación. El tema recurrente: una skill es contenido de terceros no confiable con privilegios inusuales — puede reescribir las instrucciones del agente y darle herramientas nuevas — y, sin embargo, suele gobernarse con poco más que un vistazo al archivo.

SkillGuard importa porque traslada la aplicación de las reglas a donde el riesgo vive de verdad: en ejecución, con mínimo privilegio. La inspección estática detecta archivos conocidos como maliciosos, pero no ve lo que hace una skill una vez que el agente razona y actúa sobre datos vivos, posiblemente influidos por un atacante. Vincular una skill a un manifiesto declarado y rechazar todo lo que se salga de él convierte el «he leído el README» en una frontera aplicable. El carácter parcial de las reducciones reportadas también deja una lección: una capa de permisos reduce el radio de impacto, no vuelve segura una skill maliciosa o secuestrada.

Defensas

Para los equipos que publican o instalan skills de agentes, las enseñanzas prácticas van más allá de este único marco:

Trate las skills como código no confiable y privilegiado. Una skill que puede editar el contexto y añadir herramientas es un objeto de mayor privilegio que un documento normal. Gobiérnela en consecuencia, no por confianza.
Adopte el deny-by-default para las capacidades. Conceda a una skill solo las herramientas, rutas y destinos de red que declara necesitar; rechace el resto. No deje que la confianza en la instalación se convierta en autoridad en ejecución.
Separe la influencia sobre el contexto de los efectos secundarios de las acciones. Saber que una skill puede moldear el razonamiento es distinto de saber que puede sacar datos. Rastree y controle ambos planos.
Exija autorización humana para las acciones de alto impacto. Las operaciones irreversibles o sensibles (borrados, transferencias, envíos externos, acceso a credenciales) deben requerir una aprobación humana explícita, no una concesión silenciosa.
Monitorice la intención declarada frente al comportamiento en ejecución. Un manifiesto solo sirve si se detectan las desviaciones. Registre y alerte cuando una skill intente alcanzar capacidades que nunca declaró.
No tome una capa de permisos por una garantía. SkillGuard reduce el éxito de las inyecciones pero no lo anula. Combínela con filtrado de entrada/salida, sandboxing y la higiene habitual de la tríada letal (limitar en un mismo bucle el acceso a datos privados, el contenido no confiable y la comunicación externa).

Estado

Elemento	Detalle
Artículo	«SkillGuard: A Permission Framework for Agent Skills»
ID de arXiv	2606.03024
Publicado	Junio de 2026
Tipo	Marco de permisos defensivo — sin payloads de explotación
Modelo	Gobernanza de dos planos: influencia sobre el contexto + efectos secundarios de las acciones
Mecanismos	Manifiestos, deny-by-default, control de acceso en ejecución, autorización mediada por el usuario, inferencia de capacidades, monitorización del comportamiento
Resultados reportados	Taxonomía que cubre el 99,76 % de los objetos protegidos; generación de manifiestos 91,0 % F1; éxito de inyecciones 32,37 %→23,02 % (contextuales) y 25,56 %→16,67 % (evidentes); utilidad preservada