système : OPÉRATIONNEL
← retour à tous les hacks
RESEARCH MEDIUM NEW

La confidentialité des LLM n'est pas un risque unique : par quoi commencer

Une étude de mai 2026 mesure inférence d'appartenance, inférence d'attribut, extraction de données et portes dérobées sous un même modèle de menace. Conclusion : la fuite dépend de vos choix de conception — taille, duplication des données, configuration RAG — plus que de l'attaque.

2026-06-15 // 7 min affects: llm-applications, rag-systems, fine-tuned-llms, open-weight-models

En bref On parle souvent de « confidentialité des LLM » comme d’une inquiétude unique — le modèle a mémorisé quelque chose. Une nouvelle étude, Makhlouf, On the Privacy of LLMs: An Ablation Study (arXiv 2605.02255, 4 mai 2026), place quatre attaques distinctes sous un même modèle de menace et mesure la réaction de chacune aux mêmes facteurs système : architecture, taille, propriétés des données d’entraînement et configuration de la récupération (RAG). L’enseignement pour les équipes est architectural : l’ampleur de votre problème de confidentialité dépend largement de choix de déploiement que vous maîtrisez, et les quatre familles d’attaques ne se comportent pas de la même manière — une seule mitigation ne suffit donc pas.

De quoi s’agit-il ?

Les attaques contre la confidentialité des modèles sont d’ordinaire étudiées séparément, chacune avec son modèle de menace et ses métriques. Cette fragmentation rend difficile le raisonnement sur un déploiement réel, où le même modèle les affronte toutes en même temps. L’article de mai 2026 reproduit un ensemble représentatif de quatre attaques sous une notation et un modèle d’accès unifiés, puis mène une ablation structurée pour identifier les facteurs de déploiement qui pèsent vraiment. Les quatre familles correspondent directement à la catégorie LLM02 : Divulgation d’informations sensibles de l’OWASP :

  • Inférence d’appartenance (MIA) — cet enregistrement précis était-il dans le jeu d’entraînement ?
  • Inférence d’attribut (AIA) — déduire un attribut sensible sur une personne à partir du modèle.
  • Extraction de données (DEA) — faire régurgiter au modèle du texte d’entraînement à l’identique.
  • Portes dérobées (BA) — un déclencheur implanté lors du fine-tuning impose un comportement choisi par l’attaquant.

Comment ça marche

L’étude ne publie pas de nouveaux payloads ; elle mesure des attaques connues dans des conditions contrôlées. C’est le motif rapporté qui compte :

Attaque       Force du signal        Facteur dominant
-----------   --------------------   -------------------------------
MIA           forte, fiable          (surtout variantes masquées)
Backdoor      constamment élevée     présence du déclencheur (par nature)
AIA           plus faible            mais vise des données personnelles
DEA           plus faible            taille du modèle, duplication

Deux facteurs transversaux reviennent. La mémorisation croît avec la capacité, la durée d’entraînement et la duplication des données — les grands modèles entraînés longtemps sur des données dupliquées fuient davantage, un résultat que l’article rattache aux travaux sur la déduplication. Et la configuration à l’inférence compte : la façon dont un système RAG est paramétré modifie la surface exposée, car tout ce que le récupérateur ramène, le modèle peut le restituer. La conclusion centrale : le risque de confidentialité est dépendant du contexte et déterminé par les choix de conception, et non une constante intrinsèque « du modèle ».

Pourquoi c’est important

Si vous traitez la confidentialité comme une simple case à cocher, vous protégerez la mauvaise chose. L’inférence d’appartenance et les portes dérobées produisent des signaux forts et fiables pour un attaquant, tandis que l’inférence d’attribut et l’extraction à l’identique sont plus bruitées — or ce sont justement l’AIA et la DEA qui exposent de vraies données personnelles lorsqu’elles aboutissent. Corollaire : un résultat propre sur une attaque ne dit rien des autres. Cela reformule aussi le choix du modèle comme une décision de confidentialité : opter pour un modèle plus grand, entraîner sur des corpus dupliqués ou brancher un index de récupération mal cloisonné sont chacun des choix pertinents pour la confidentialité, pas de simples arbitrages de qualité ou de latence. C’est l’analogue, côté confidentialité, d’une leçon que le domaine réapprend sans cesse sur la détection — mesurez toute la surface, car l’adversaire choisit l’attaque que votre conception a laissée la moins coûteuse.

Défenses

Considérez la fuite comme une fonction de la conception, et durcissez la conception.

  1. Dédupliquez les données d’entraînement et de fine-tuning. La duplication est l’un des amplificateurs les plus nets de la mémorisation ; la déduplication est l’une des rares mitigations à l’appui empirique constant.
  2. Appliquez la confidentialité différentielle là où les données sont sensibles. Le fine-tuning sous DP (DP-SGD) et l’audit DP bornent et mesurent ce qu’un modèle peut mémoriser ; l’audit par « canaris » (voir arXiv 2512.13352 sur l’inférence d’appartenance pour l’extraction ciblée) permet de quantifier le risque avant publication.
  3. Choisissez le plus petit modèle qui fait le travail. La taille apporte capacité et mémorisation ensemble ; un modèle surdimensionné est un passif de confidentialité plus lourd.
  4. Gouvernez l’index RAG comme une base de données. Gardez les données personnelles brutes hors du corpus de récupération, imposez un contrôle d’accès par utilisateur sur la récupération, et rappelez-vous que le modèle restituera tout ce qu’il est autorisé à aller chercher.
  5. Protégez la chaîne d’approvisionnement contre les portes dérobées. Le taux de succès des backdoors est élevé car les déclencheurs sont fiables ; vérifiez les jeux de fine-tuning et les checkpoints tiers, et testez les comportements conditionnés par un déclencheur.
  6. Évaluez de façon holistique. Lancez les sondes MIA, AIA, DEA et BA ensemble, à configuration fixée, et non isolément — c’est le point méthodologique central de l’article.

Statut

ÉlémentRéférenceDateNote
Ablation unifiée MIA/AIA/DEA/BAarXiv 2605.022554 mai 2026MIA et backdoors forts ; AIA/DEA plus faibles mais visent des PII
MIA pour l’extraction cibléearXiv 2512.13352déc. 2025Signaux d’appartenance utilisés pour piloter l’extraction
Divulgation d’informations sensibles = LLM02OWASP LLM Top 102025–2026Rattache ces attaques à la liste des risques applicatifs

Le cadrage à retenir : il n’existe pas de « réglage de confidentialité » unique pour un LLM. Les chiffres bougent avec l’architecture, la taille, l’hygiène des données et la conception de la récupération — la confidentialité se conçoit donc tout au long du cycle de vie, et se vérifie avec toute la famille d’attaques plutôt qu’avec une seule.

Sources