AGENTS MEDIUM NEW

FragFuse : des requêtes fragmentées qui contournent le contrôle d'accès des agents LLM

Un papier arXiv du 14 juin 2026 montre qu'une requête interdite peut être découpée en fragments anodins, stockée dans la mémoire longue de l'agent, puis recomposée à la lecture — contournant les contrôles d'accès dans 86,3 % des cas.

2026-06-17 // 6 min affects: llm-agents, memory-based-agents, agent-access-control

De quoi s’agit-il ?

Le 14 juin 2026, des chercheurs ont publié sur arXiv (cs.CR) le papier FragFuse: Bypassing Access Control of Large Language Model Agents via Memory-Based Query Fragmentation and Fusion. Il documente une attaque contre la couche de contrôle d’accès qui se généralise devant les agents LLM — le garde-fou censé refuser une requête contraire à la politique avant qu’elle n’atteigne un outil ou ne produise une sortie nuisible.

L’idée centrale de FragFuse : ces contrôles inspectent les requêtes une interaction à la fois, alors que les agents modernes disposent d’une mémoire à long terme qui traverse les interactions. Une requête interdite que le filtre bloquerait en un seul tour peut au contraire être découpée en fragments d’apparence anodine, écrite en mémoire au fil de plusieurs tours en apparence inoffensifs, puis réassemblée plus tard via une simple lecture mémoire — de sorte que l’intention nuisible n’apparaît explicitement dans aucune requête vue par le contrôle d’accès. Sur quatre configurations d’agents et trois mécanismes de contrôle d’accès de pointe, les auteurs rapportent un taux de contournement moyen de 86,3 %.

Comment ça marche

La mémoire de l’agent est la surface d’attaque. La technique comporte trois étapes conceptuelles, et le papier ne publie volontairement aucun payload exploitable prêt à l’emploi.

# Conceptuel uniquement — aucun payload fonctionnel.
[1] Fragmenter   requête interdite --> N morceaux anodins (chacun passe le filtre)
[2] Stocker      morceaux écrits en mémoire longue sur plusieurs interactions
[3] Fusionner    une requête ultérieure anodine déclenche lecture + réassemblage à l'exécution

Chaque fragment reste individuellement sous le seuil de « contraire à la politique » du garde-fou : il est donc stocké sans objection. Le tout malveillant ne se matérialise qu’au moment de la fusion, quand l’agent récupère les morceaux en mémoire et les recombine en répondant à une requête finale elle-même d’apparence inoffensive. Comme le contrôle d’accès s’est exécuté sur la requête de surface — et non sur le contenu reconstruit que le modèle assemble en interne — il ne voit jamais ce qu’il était censé bloquer.

Les auteurs notent que FragFuse peut être construit à la main pour un agent donné, mais ils décrivent aussi un schéma d’optimisation qui ajuste les instructions de fusion et les marqueurs utilisés pour étiqueter les fragments sur des modèles substituts, permettant une génération automatisée de l’attaque sans supposer que l’attaquant voit les rouages de la cible. Dans leur évaluation, le taux de réussite de la tâche nuisible de bout en bout est de 41,1 % en moyenne, tandis que le contrôle d’accès appliqué à des charges légitimes ne coûte que 4,4 % de réussite de tâche — un écart que le papier interprète comme la preuve que les contrôles actuels n’achètent que peu de robustesse contre cette classe d’évasion.

C’est le cousin « couche mémoire » des attaques par décomposition de tâche : les deux défont un filtre en répartissant l’intention sur des unités qu’il évalue isolément, et exploitent le fait que l’agent raisonne sur un contexte reconstruit que le filtre n’a jamais inspecté. Cela rejoint aussi les travaux qui traitent la mémoire d’agent comme une surface de flux de contrôle plutôt que comme un stockage passif.

Pourquoi c’est important

Le contrôle d’accès est la couche sur laquelle beaucoup d’équipes parient pour rendre les agents déployables — l’hypothèse étant que, même si l’on peut convaincre un modèle, une barrière distincte refusera l’action dangereuse. FragFuse attaque cette hypothèse de front. Un taux de contournement de 86,3 % contre trois mécanismes publiés signifie que le filtrage au niveau de la requête, seul, n’est pas une frontière fiable pour les agents à état.

Il généralise le même problème structurel que la prompt injection : il n’existe pas de séparation nette entre « ce qu’on a demandé à l’agent » et « ce sur quoi l’agent finit par raisonner », surtout dès lors que la mémoire peut transporter un état d’un tour à l’autre. Un contrôle qui n’inspecte que la requête visible vérifie le mauvais artefact.

Une précision de périmètre : il s’agit de recherche en laboratoire sur une matrice de test définie, pas d’une campagne confirmée dans la nature, et aucun payload fonctionnel n’a été diffusé. À traiter comme un angle mort validé des agents à mémoire, pas comme un exploit actif.

Défenses

Contrôlez le contexte reconstruit, pas seulement la requête. Le défaut central est que le filtrage s’exécute sur la requête de surface. Évaluez le contenu fusionné que l’agent assemble réellement — après lecture mémoire, avant action — pour que l’intention réassemblée entre dans le périmètre. Cela complète l’autorisation d’outils par tâche.
Traitez écritures et lectures mémoire comme des événements de sécurité. Appliquez la politique au point d’entrée et de sortie de la mémoire longue, pas uniquement au prompt. Étiquetez la provenance et re-filtrez les fragments récupérés ensemble plutôt qu’isolément.
Verrouillez les primitives dangereuses. Le préjudice ne se concrétise qu’au moment où l’agent agit : placez approbation et bac à sable sur l’exécution de code, l’egress et l’accès aux secrets — la logique de la règle de deux des agents. Un payload fusionné qui ne peut atteindre aucun outil sensible ne peut achever la tâche.
Contraignez et segmentez la mémoire. Limitez, partitionnez et faites expirer la mémoire par tâche et par utilisateur ; interdisez la fusion inter-tâches par défaut. C’est la mémoire partagée persistante qui rend l’étape de mise en place possible.
Journalisez lecture et réassemblage. Capturez ce que l’agent a tiré de la mémoire et comment il l’a recombiné, pour qu’une attaque fragmentée-puis-fusionnée laisse une trace auditable même si chaque entrée semblait anodine — utile car l’autorisation sous-spécifiée est difficile à auditer après coup.

Statut

Élément	Détail
Technique	FragFuse — fragmentation et fusion de requêtes via la mémoire
Source	arXiv:2606.15609 (cs.CR), publié le 14 juin 2026
Taux de contournement	86,3 % en moyenne sur 3 mécanismes de contrôle d’accès
Réussite tâche nuisible	41,1 % de bout en bout (moyenne)
Coût du contrôle d’accès	4,4 % de dégradation moyenne de réussite sur charges légitimes
Périmètre de test	4 configurations d’agents / domaines ; variantes manuelles + optimisées par substitut
Statut réel	Résultat de recherche ; aucun usage confirmé dans la nature ; aucun payload fonctionnel diffusé