RESEARCH MEDIUM NEW

SIGIL : prouver que votre texte a servi à entraîner un LLM

Un papier arXiv de juin 2026 propose d'insérer des canaris imperceptibles dans des textes et du code pour prouver, avec un taux de faux positifs contrôlé, qu'un modèle a été entraîné sur vos données.

2026-06-13 // 6 min affects: llms-trained-on-web-scraped-corpora, code-llms, foundation-models

De quoi s’agit-il ?

En juin 2026, des chercheurs ont publié « SIGIL: Subtle Injection for Ground-truth Inference of LLM Training Data — A Statistical Framework for Provable Training Data Membership » (arXiv 2606.06502). Le papier s’attaque à une question devenue très concrète à mesure que les modèles sont entraînés sur des corpus web aspirés sans autorisation : comment un ayant droit peut-il prouver qu’un document précis s’est retrouvé dans le jeu d’entraînement d’un modèle ?

La réponse de SIGIL est proactive plutôt que rétrospective. Au lieu d’interroger un modèle déjà entraîné en espérant détecter une trace statistique ténue, les auteurs insèrent des séquences « canaris » imperceptibles dans les textes et le code que l’ayant droit publie. Tout LLM entraîné par la suite sur ces documents présente une signature comportementale statistiquement détectable lorsqu’on le sonde avec des requêtes ciblées. La posture est forensique et défensive : c’est un outil d’attribution et de protection des droits, pas une attaque contre un système.

Fonctionnement

Le point de départ est une limite connue. Les attaques par inférence d’appartenance (MIA) classiques cherchent à savoir si un échantillon faisait partie des données d’entraînement en mesurant à quel point le modèle est « confiant » ou « surpris » face à lui. Comme Zhang et al. (2024) l’ont argumenté, ces signaux sont faibles et a posteriori : pour un document vu seulement quelques fois, le rapport signal/bruit est faible et la preuve reste probabiliste plutôt que concluante.

SIGIL inverse l’ordre des opérations. Parce que l’ayant droit contrôle le texte avant qu’il ne soit aspiré, il peut le concevoir pour être détectable au maximum tout en restant naturel à la lecture. Le papier définit cinq stratégies de canaris — lexicale rare, expression lexicale, syntaxique, sémantique et motif de code — qui plantent des marqueurs distinctifs mais discrets qu’un modèle peut mémoriser.

La détection est ensuite formulée comme un test d’hypothèse formel. SIGIL calcule un Membership Inference Score (MIS) fondé sur le cadre de Neyman–Pearson, qui fournit un taux de faux positifs (FPR) explicite et contrôlable. Cette rigueur statistique est essentielle : affirmer « ce modèle a été entraîné sur mes données » n’a de valeur — juridique ou technique — que si le risque d’accusation à tort est borné et annoncé.

Les résultats rapportés (tels que résumés dans le résumé du papier) placent les canaris de motif de code en tête, avec une AUC ≈ 0,903 (d de Cohen ≈ 1,84), et les canaris syntaxiques en bas, à AUC ≈ 0,875 (d ≈ 1,63). Fait notable, la détectabilité survit à la réécriture : SIGIL maintiendrait une AUC > 0,86 même sous paraphrase à 100 % (AUC ≈ 0,864), ce que les auteurs attribuent à une fuite sémantique persistant au-delà des modifications de surface. Ces travaux s’inscrivent dans la lignée des filigranes de données pour prouver l’appartenance au pré-entraînement.

Pourquoi c’est important

La provenance des données d’entraînement est passée de curiosité académique à litige bien réel, impliquant éditeurs, mainteneurs open source et constructeurs de modèles. Une preuve d’appartenance robuste et statistiquement défendable change la donne sur trois terrains : l’application du droit d’auteur et des licences, l’audit du respect effectif des opt-out et des directives robots, et la transparence des jeux de données pour les régulateurs. Une méthode au taux de faux positifs annoncé est bien plus crédible dans ces contextes qu’une simple intuition probabiliste.

Il existe une dimension à double usage qu’il faut nommer. Un schéma de canaris capable de prouver l’inclusion pourrait aussi être détourné pour fabriquer une fausse revendication d’appartenance, ou pour empreindre et pister des contenus en aval. C’est précisément pourquoi le cadre de Neyman–Pearson — contrôler les faux positifs plutôt que seulement maximiser la détection — constitue le cœur de la contribution, et non un détail.

Défenses

Pour les ayants droit qui envisagent les canaris : privilégiez les stratégies les plus résistantes à la paraphrase (le papier pointe les variantes motif de code et sémantique), fixez et documentez votre seuil de FPR avant de sonder un modèle, et conservez les artefacts publiés d’origine comme preuves. Un taux de faux positifs borné est ce qui rend une revendication auditable.

Pour les équipes d’entraînement et de données, le même papier tient lieu de check-list d’hygiène qui réduit l’ingestion accidentelle de contenus protégés tout en limitant l’exposition aux revendications : tenez une véritable traçabilité des jeux de données et des licences par document ; respectez robots.txt, les signaux d’opt-out propres à l’IA et les demandes de retrait ; appliquez une déduplication et un filtrage des quasi-doublons agressifs, qui peuvent retirer certains canaris mais ne constituent pas une défense fiable vu la robustesse de SIGIL à la paraphrase. La mitigation durable, c’est la gouvernance — savoir ce que contient le corpus et pouvoir le démontrer — pas l’espoir que les canaris soient filtrés.

État

SIGIL est un cadre de recherche introduit dans une prépublication arXiv (2606.06502) en juin 2026 ; considérez les chiffres d’AUC et de taille d’effet rapportés comme des résultats de préprint, en attente d’évaluation par les pairs et de réplication indépendante. Il s’agit d’une technique forensique et de protection des droits, pas d’un exploit : aucune attaque actionnable ici, et l’usage responsable des canaris repose sur les garanties de faux positifs contrôlés que les auteurs mettent en avant.

Cet article s’appuie sur des recherches publiquement disponibles et est fourni à des fins éducatives et défensives.