AGENTS MEDIUM

Sécuriser les agents IA comme des systèmes d'exploitation : la cartographie du CISPA

Un papier du CISPA publié le 14 mai 2026 transpose plusieurs décennies de sécurité des OS aux agents LLM. Testé sur quatre agents de type OpenClaw, deux familles de faiblesses — exfiltration inter-utilisateurs et sortie réseau non autorisée — échouent sur tous les systèmes.

2026-05-26 // 8 min affects: openclaw-like-agents, mcp-servers, tool-using-llm-agents, third-party-skill-marketplaces, agent-runtimes

What is this?

Le 14 mai 2026, Lukas Pirch et six co-auteurs du CISPA Helmholtz Center et de la TU Berlin — parmi lesquels Thorsten Holz et Konrad Rieck — ont publié Toward Securing AI Agents Like Operating Systems sur arXiv (2605.14932, cs.CR, licence CC-BY 4.0). Le papier n’annonce pas une nouvelle classe d’exploits. Il propose quelque chose de plus utile pour les équipes qui construisent : il défend la thèse que les agents LLM ont ré-inventé les problèmes de sécurité que les systèmes d’exploitation ont résolus dans les années 1970, et que la même boîte à outils — isolation des processus, séparation des privilèges, médiation des communications — est la voie de sortie réaliste.

Les auteurs étayent l’analogie par une étude de cas concrète. Ils ont construit une architecture unifiée couvrant les principales piles d’agents open source, projeté les surfaces d’attaque dessus, puis appliqué le même modèle de menace à quatre agents de type OpenClaw largement déployés. Le résultat principal est sévère : deux classes de faiblesses — l’exfiltration inter-utilisateurs et la sortie réseau non autorisée — cassent l’intégralité des agents testés, sous des capacités d’attaquant modestes.

How it works

Le papier représente un agent en quatre briques connectées : un cœur de planification (le LLM), une couche d’outils (compétences, serveurs MCP, navigateurs, shells), une couche mémoire (contexte court terme et stockages long terme) et une frontière de session (état par utilisateur). Chacune de ces briques s’aligne sur un concept d’OS pour lequel la littérature dispose déjà d’un vocabulaire.

Operating system              LLM agent
-----------------             -----------------
Process                  ≈    Session
Process isolation        ≈    Per-user state separation
User vs. kernel          ≈    Trusted plan vs. untrusted tool output
Capabilities / syscalls  ≈    Tool-call ACLs
File system permissions  ≈    Memory + RAG read/write policies
Network namespace        ≈    Egress policy for the agent process
IPC mediation            ≈    Inter-agent / inter-skill communication

À partir de cette carte, le papier énumère deux familles de faiblesses présentes dans tous les systèmes testés :

PI-1 — Exfiltration inter-utilisateurs. Les agents qui partagent un stockage mémoire backend, un cache d’outils ou un index de compétences entre sessions permettent à un utilisateur de récupérer le contenu d’un autre (documents, historique de conversation, secrets collés plus tôt), parfois en une seule requête bien formée. L’analogue OS est l’absence d’isolation au niveau utilisateur : toutes les sessions lisent dans le même espace d’adressage.
NF-1 — Envoi de messages non autorisé. Même les agents présentés comme « répondre uniquement » sortent régulièrement : requêtes HTTP que le développeur croyait isolées, serveurs MCP qui proxient vers des services en amont, compétences qui envoient discrètement des e-mails ou publient ailleurs. Aucun pare-feu de sortie ne protège le processus de l’agent ; dès qu’un outil peut émettre la moindre requête sortante, les chemins d’exfiltration se multiplient.

Le papier documente les deux faiblesses avec des montages reproductibles mais — dans le respect des bonnes pratiques de divulgation — sans publier de payload exploitable. Le propos est structurel, pas anecdotique : même sous des « capacités d’attaquant modestes » (un seul compte utilisateur, un seul document téléversé, une seule compétence installée), les deux frontières tombent.

Le travail rejoint des résultats voisins de la même saison. L’advisory Microsoft Security du 7 mai 2026 sur les RCE dans les frameworks d’agents IA a montré que les prompts s’effondrent en shells dès lors que le runtime confond les privilèges du plan et de l’exécution. L’OWASP GenAI Exploit Round-up Q1 2026, publié le 14 avril 2026, fait le même constat à l’échelle des incidents : les défaillances ne portent plus seulement sur les sorties du modèle, mais sur les identités, les couches d’orchestration et les chaînes d’approvisionnement. Le papier du CISPA fournit le cadrage « sécurité système » qui manquait à ces rapports d’incidents.

Why it matters

Trois points dépassent ce papier.

D’abord, la défaillance est architecturale, pas comportementale. PI-1 et NF-1 ne se résolvent ni par un meilleur classifieur de sécurité, ni par un prompt système plus serré, ni par un filtre de jailbreak plus fin. Un modèle qui suit parfaitement ses instructions fuit toujours entre sessions si elles partagent un backend, et continue à téléphoner dehors si sa couche d’outils peut résoudre des noms d’hôte externes. Les défenses qui s’arrêtent à la sortie du modèle visent la mauvaise couche.

Ensuite, la littérature OS est ici exceptionnellement généreuse. Isolation de processus, capabilities (Capsicum, seL4), contrôle d’accès obligatoire (SELinux, AppArmor), namespaces réseau, médiation IPC : ce ne sont pas des artefacts de recherche. Ce sont trente ans d’ingénierie auditée, déployée, opérationnelle. Les recommandations du papier ne demandent pas aux constructeurs d’agents d’inventer des primitives, mais d’utiliser celles qui existent déjà.

Enfin, les écosystèmes de type MCP amplifient la zone d’impact. Un registre de compétences partagé, un magasin de mémoire multi-tenant, un serveur MCP largement habilité : la valeur de ces architectures vient précisément de leur partage d’état — et ce partage devient la surface d’attaque. Le papier rejoint la tendance plus large décrite dans Careful Adoption of Agentic AI Services de la CISA : les choix d’achat et de conception d’agents sont désormais des décisions de sécurité de premier rang.

Defenses

Les recommandations du papier se traduisent directement en contrôles applicables aujourd’hui.

Exécutez chaque session dans son propre processus ou conteneur. Pas de chemin d’écriture sur un système de fichiers partagé, pas de mémoire commune, pas de cache qui mélange les contenus utilisateurs. La garantie au niveau OS est ce qui arrête PI-1 ; tout ce qui passe au-dessus reste du best-effort.
Refusez par défaut toute sortie réseau du processus d’agent. Listez explicitement le petit ensemble d’hôtes que l’agent doit légitimement joindre (la passerelle modèle, les backends d’outils). Traitez toute autre résolution DNS ou requête HTTP comme une violation de politique, journalisez-la et coupez le flux avant que la réponse ne revienne au modèle. Avec un vrai pare-feu de sortie, NF-1 disparaît.
Traitez chaque sortie d’outil comme une entrée non fiable. Appliquez la même logique de taint-tracking qu’à une donnée saisie par l’utilisateur : les retours d’outils peuvent transporter des instructions, des liens, des charges encodées, et le LLM planificateur ne doit pas agir dessus sans confirmation hors-bande pour toute action modifiant un état.
Bornez chaque appel d’outil par des capabilities. Un outil « lister les fichiers » ne doit pas pouvoir lire un chemin arbitraire. Un outil « récupérer une URL » ne doit pas pouvoir poster. Des ACL par outil, des scopes de jeton par session et un principe de moindre privilège par défaut ferment l’essentiel des mouvements latéraux décrits par le papier.
Médiez les communications inter-agents et inter-compétences. Traitez les appels A → B et les chaînes compétence → compétence comme de l’IPC : schéma validé, débit limité, journalisé, révocable. Le papier le pose comme l’équivalent agentique de la médiation IPC en OS ; et c’est précisément la surface que l’écrit Microsoft sur les RCE a identifiée comme la voie d’escalade la plus accessible.
Auditez les quatre couches sur votre propre agent. L’architecture unifiée du §3 du papier fait un modèle utile : parcourez les couches planification, outils, mémoire, frontière de session, et vérifiez que chacune a un propriétaire nommé, une politique écrite et un contrôle qui l’applique. Tout ce qui reste implicite est le prochain post-mortem.

Status

Élément	Référence	Date	Notes
Papier publié	arXiv:2605.14932v1	2026-05-14	cs.CR, 17 pages, CC-BY 4.0
Institutions	CISPA Helmholtz Center, TU Berlin	2026-05-14	Équipe Holz / Rieck
Systèmes évalués	4 agents de type OpenClaw	2026-05-14	Éditeurs anonymisés dans le papier
Défaillances universelles	PI-1 (exfiltration inter-utilisateurs), NF-1 (sortie non autorisée)	2026-05-14	100 % des systèmes testés
Advisory voisin	Microsoft « Prompts become shells »	2026-05-07	RCE dans les frameworks d’agents IA
Corpus d’incidents voisin	OWASP GenAI Exploit Round-up Q1 2026	2026-04-14	Identités, orchestration, supply chain
Cadrage politique voisin	CISA Careful Adoption of Agentic AI Services	2026	Contrôles côté achat

Aucune mesure isolée ne résout PI-1 ou NF-1. La contribution du papier du CISPA est de nommer une catégorie de défaillance — nous exploitons des systèmes multi-utilisateurs sans les primitives d’isolation que ces systèmes exigent — et de pointer l’étagère d’outils bien rodés qui la traitent. Dans le cadrage des auteurs, un déploiement d’agent en 2026 dont le modèle de menace s’arrête aux scanners de prompt-injection et aux filtres de sortie est un système d’exploitation sans isolation de processus : il ne se trompe pas encore sur le comportement du modèle, mais il se trompe déjà sur la conception du système.