DEFENSE LOW NEW

Skills de agente verificados: gobernanza de capacidades para la cadena SKILL.md

Los skills de agente verificados de NVIDIA (19 de mayo de 2026) añaden escaneo de riesgos, firma criptográfica y tarjetas de skill legibles por máquina a la cadena SKILL.md — una respuesta defensiva a los skills envenenados.

2026-06-16 // 6 min affects: claude-code, openai-codex, cursor, ai-agents

¿Qué es esto?

El 19 de mayo de 2026 (actualizado el 21 de mayo), los equipos de Trustworthy AI y seguridad de NVIDIA publicaron los «skills de agente verificados», una capa de gobernanza de capacidades para los paquetes de instrucciones portables —los archivos SKILL.md y sus adjuntos— que los agentes de código cargan para aprender nuevas tareas. La premisa es que las barreras de ejecución no bastan: también hay que saber de dónde viene un skill, si fue escaneado en busca de riesgos conocidos y si se modificó tras su publicación. «Verificado» significa que un skill está catalogado, escaneado, evaluado, documentado con una tarjeta de skill, firmado y sincronizado en un catálogo público. El trabajo se apoya en la especificación abierta SKILL.md de agentskills.io, de modo que un mismo skill debería funcionar en Claude Code, Codex y Cursor. Es un marco defensivo, no una vulnerabilidad.

Cómo funciona

Un skill verificado recorre una canalización de publicación gestionada por el equipo de producto que lo crea:

repo fuente → revisión → escaneo → evaluación → tarjeta de skill → firma → catálogo → sync

Dos etapas hacen el trabajo de seguridad. El escaneo pasa cada candidato por SkillSpector, que trata un skill como una capacidad desplegable y no como un simple prompt estático. Comprueba riesgos de software clásicos (dependencias vulnerables, scripts sospechosos, patrones de código peligrosos, acceso a credenciales, rutas de exfiltración) y riesgos propios de los agentes: instrucciones ocultas, prompt injection, abuso de disparadores, agencia excesiva, envenenamiento de herramientas y desajustes entre el propósito declarado de un skill, el acceso que solicita y lo que sus artefactos hacen en realidad. Esa capa de intención es clave —un skill puede parecer inofensivo archivo por archivo mientras orienta al agente hacia un comportamiento inseguro—. La cobertura de SkillSpector está alineada con las listas de riesgos LLM y Agentic AI de OWASP y con MITRE ATLAS.

La firma usa OpenSSF Model Signing (OMS): un archivo separado skill.oms.sig cubre cada fichero y subdirectorio del skill, de modo que se puede verificar integridad y autenticidad después de la descarga, y no solo confiar en una entrada de catálogo.

# Verificar un skill descargado con el certificado raíz de NVIDIA
model_signing verify certificate SKILL_DIR \
    --signature SKILL_DIR/skill.oms.sig \
    --certificate-chain nv-agent-root-cert.pem \
    --ignore-unsigned-files

Cada skill verificado se entrega con una tarjeta de skill —un registro de confianza legible por máquina que indica qué hace el skill, quién lo construyó, su licencia, sus dependencias y sus limitaciones, riesgos y mitigaciones conocidos—. El agente carga la tarjeta junto con el skill: los metadatos de confianza viajan con la capacidad en lugar de quedar en la cabeza de un desarrollador.

Por qué importa

Los skills de agente son una de las superficies de cadena de suministro que más rápido crece en la IA agéntica, y llm-hacking ha documentado repetidamente su vertiente ofensiva: registros SKILL.md envenenados, un benchmark de skills de agente maliciosos, fuga de credenciales mediante skills y exfiltración por skills en Copilot/Cowork. El fallo recurrente es el mismo que en la inyección de AGENTS.md: un paquete de instrucciones en disco se trata como contexto de confianza, así que quien controla el paquete controla al agente.

Los skills verificados atacan dos brechas concretas. Primero, pertenecer a un catálogo no es integridad: la mayoría de los registros saben decir quién subió un activo, pero pocos permiten verificarlo criptográficamente tras la descarga; la firma OMS cierra esa ventana de manipulación. Segundo, el escaneo a nivel de archivo no capta la intención, justo donde se esconden los ataques por skill; las comprobaciones de propósito-frente-a-acceso de SkillSpector apuntan a esa capa. Es el espejo «cadena de suministro» de la firma de modelos y, conceptualmente, un punto de aplicación de la jerarquía de instrucciones en la frontera de capacidades.

Defensas

Cómo aprovecharlo —y dónde se detiene—:

Verifique las firmas, no se limite a confiar en el catálogo. Ejecute model_signing verify tras descargar cualquier skill firmado. Un skill sin firma o con firma que no coincide debe tratarse como no fiable, esté donde esté listado.
Lea la tarjeta de skill antes de instalar. Contraste el acceso declarado con el propósito declarado. Un skill de enrutamiento que pide acceso a archivos o red más allá de su endpoint de solver es una señal de alerta que la tarjeta está diseñada para sacar a la luz.
Trate el escaneo como puntual, no como una garantía. Un pase limpio de SkillSpector reduce el riesgo; no demuestra inocuidad. Vuelva a escanear en cada actualización y mantenga su propio SCA/escaneo de secretos en el circuito.
La firma prueba integridad y autenticidad, no buena intención. Un skill correctamente firmado de un editor de confianza puede seguir teniendo demasiados privilegios. Combine la procedencia con controles de ejecución —ejecución en sandbox, acceso a herramientas con mínimo privilegio, barreras de entrada/salida (p. ej. NeMo Guardrails)— para que un skill comprometido o sobredimensionado quede contenido.
Cuide la frontera de confianza. El catálogo verificado actual cubre los skills publicados por NVIDIA, y la firma a escala de todo el ecosistema se describe como una hoja de ruta que NVIDIA está «experimentando públicamente». Los skills de terceros y de la comunidad siguen sin verificar hasta que esa especificación se difunda; gobiérnelos en consecuencia.

Estado

Elemento	Referencia	Fecha	Notas
Anuncio de skills verificados	Blog técnico de NVIDIA	2026-05-19	Actualizado el 2026-05-21; lectura ~8 min
Herramienta de escaneo	SkillSpector (código abierto)	2026	Riesgos de software + propios de agentes, alineados con OWASP/MITRE ATLAS
Esquema de firma	OpenSSF Model Signing (OMS)	2026	`skill.oms.sig` separado, verificable tras la descarga
Especificación abierta	`SKILL.md` de agentskills.io	—	Portable en Claude Code, Codex, Cursor
Alcance	Skills publicados por NVIDIA	—	La firma de todo el ecosistema es una hoja de ruta, aún no universal

El encuadre honesto no es «los skills ya son seguros». Es que la capa de skills por fin dispone de las mismas primitivas de cadena de confianza —procedencia, escaneo, firma, limitaciones documentadas— que el resto de la cadena de suministro de software lleva años teniendo. La verificación le dice que una capacidad es auténtica y fue revisada; es el suelo para confiar en los skills de un agente, no el techo.