DEFENSE LOW NEW

Skills d'agent vérifiés : gouvernance des capacités pour la chaîne SKILL.md

Les skills d'agent vérifiés de NVIDIA (19 mai 2026) ajoutent scan de risques, signature cryptographique et fiches de skill lisibles par machine à la chaîne SKILL.md — une réponse défensive aux skills empoisonnés.

2026-06-16 // 6 min affects: claude-code, openai-codex, cursor, ai-agents

De quoi s’agit-il ?

Le 19 mai 2026 (mis à jour le 21 mai), les équipes Trustworthy AI et sécurité de NVIDIA ont publié les « skills d’agent vérifiés », une couche de gouvernance des capacités pour les bundles d’instructions portables — les fichiers SKILL.md et leurs pièces jointes — que les agents de code chargent pour apprendre de nouvelles tâches. Le constat de départ : les garde-fous d’exécution ne suffisent pas, il faut aussi savoir d’où vient un skill, s’il a été scanné pour des risques connus et s’il a été modifié après publication. « Vérifié » signifie qu’un skill est catalogué, scanné, évalué, documenté par une fiche de skill, signé et synchronisé dans un catalogue public. Le travail s’appuie sur la spécification ouverte SKILL.md de agentskills.io, de sorte qu’un même skill est censé fonctionner sur Claude Code, Codex et Cursor. Il s’agit d’un cadre défensif, pas d’une vulnérabilité.

Comment ça marche

Un skill vérifié traverse un pipeline de publication géré par l’équipe produit qui en est l’auteur :

dépôt source → revue → scan → évaluation → fiche skill → signature → catalogue → sync

Deux étapes assurent le travail de sécurité. Le scan fait passer chaque candidat dans SkillSpector, qui traite un skill comme une capacité déployable et non comme un simple prompt statique. Il vérifie les risques logiciels classiques (dépendances vulnérables, scripts suspects, motifs de code dangereux, accès aux identifiants, chemins d’exfiltration) et les risques propres aux agents : instructions cachées, prompt injection, abus de déclencheurs, agence excessive, empoisonnement d’outils, et écarts entre l’objet déclaré d’un skill, les accès qu’il demande et ce que ses artefacts font réellement. Cette couche d’intention est décisive — un skill peut sembler inoffensif fichier par fichier tout en orientant l’agent vers un comportement dangereux. La couverture de SkillSpector est alignée sur les listes de risques LLM et Agentic AI de l’OWASP et sur MITRE ATLAS.

La signature s’appuie sur OpenSSF Model Signing (OMS) : un fichier détaché skill.oms.sig couvre chaque fichier et sous-répertoire du skill, de sorte qu’on peut vérifier intégrité et authenticité après le téléchargement, et pas seulement faire confiance à une entrée de catalogue.

# Vérifier un skill téléchargé avec le certificat racine de NVIDIA
model_signing verify certificate SKILL_DIR \
    --signature SKILL_DIR/skill.oms.sig \
    --certificate-chain nv-agent-root-cert.pem \
    --ignore-unsigned-files

Chaque skill vérifié est livré avec une fiche de skill — un enregistrement de confiance lisible par machine indiquant ce que fait le skill, qui l’a construit, sa licence, ses dépendances, ainsi que ses limites, risques et mitigations connus. L’agent charge la fiche en même temps que le skill : les métadonnées de confiance voyagent avec la capacité au lieu de rester dans la tête d’un développeur.

Pourquoi c’est important

Les skills d’agent sont l’une des surfaces de chaîne d’approvisionnement qui croît le plus vite dans l’IA agentique, et llm-hacking en a documenté à plusieurs reprises le versant offensif : registres SKILL.md empoisonnés, un benchmark de skills d’agent malveillants, fuite d’identifiants via les skills et exfiltration par skills dans Copilot/Cowork. La faille récurrente est la même que dans l’injection AGENTS.md : un bundle d’instructions sur disque est traité comme un contexte de confiance, donc qui contrôle le bundle contrôle l’agent.

Les skills vérifiés ciblent deux écarts précis. D’abord, l’appartenance à un catalogue n’est pas l’intégrité — la plupart des registres savent dire qui a téléversé un actif, mais peu permettent d’en vérifier cryptographiquement le contenu après téléchargement ; la signature OMS ferme cette fenêtre de falsification. Ensuite, le scan au niveau des fichiers manque l’intention, précisément là où se cachent les attaques par skill ; les vérifications objet-contre-accès de SkillSpector visent cette couche. C’est le miroir « chaîne d’approvisionnement » de la signature de modèles et, conceptuellement, un point d’application de la hiérarchie d’instructions à la frontière des capacités.

Défenses

Comment l’exploiter — et où ça s’arrête :

Vérifiez les signatures, ne faites pas que croire le catalogue. Lancez model_signing verify après avoir récupéré tout skill signé. Un skill non signé ou dont la signature ne correspond pas doit être traité comme non fiable, quel que soit l’endroit où il était listé.
Lisez la fiche de skill avant d’installer. Confrontez les accès déclarés à l’objet déclaré. Un skill de routage qui réclame un accès fichier ou réseau au-delà de son endpoint de solveur est un signal d’alerte que la fiche est conçue pour faire remonter.
Traitez le scan comme ponctuel, pas comme une garantie. Un passage propre de SkillSpector réduit le risque ; il ne prouve pas l’innocuité. Re-scannez à chaque mise à jour et gardez votre propre SCA/scan de secrets dans la boucle.
La signature prouve l’intégrité et l’authenticité, pas la bonne intention. Un skill correctement signé d’un éditeur de confiance peut rester surprivilégié. Associez la provenance à des contrôles d’exécution — exécution en sandbox, accès aux outils en moindre privilège, garde-fous d’entrée/sortie (par ex. NeMo Guardrails) — pour qu’un skill compromis ou surdimensionné reste contenu.
Attention à la frontière de confiance. Le catalogue vérifié actuel couvre les skills publiés par NVIDIA, et la signature à l’échelle de l’écosystème est décrite comme une feuille de route que NVIDIA « expérimente publiquement ». Les skills tiers et communautaires restent non vérifiés tant que cette spécification ne se diffuse pas — gouvernez-les en conséquence.

Statut

Élément	Référence	Date	Notes
Annonce des skills vérifiés	Blog technique NVIDIA	2026-05-19	Mis à jour le 2026-05-21 ; lecture ~8 min
Outil de scan	SkillSpector (open source)	2026	Risques logiciels + propres aux agents, alignés OWASP/MITRE ATLAS
Schéma de signature	OpenSSF Model Signing (OMS)	2026	`skill.oms.sig` détaché, vérifiable après téléchargement
Spécification ouverte	`SKILL.md` agentskills.io	—	Portable sur Claude Code, Codex, Cursor
Périmètre	Skills publiés par NVIDIA	—	La signature de l’écosystème entier est une feuille de route, pas encore universelle

La formulation honnête n’est pas « les skills sont désormais sûrs ». C’est que la couche des skills dispose enfin des mêmes primitives de chaîne de confiance — provenance, scan, signature, limites documentées — que le reste de la chaîne d’approvisionnement logicielle depuis des années. La vérification vous dit qu’une capacité est authentique et a été contrôlée ; c’est le plancher pour faire confiance aux skills d’un agent, pas le plafond.