RESEARCH MEDIUM NEW

SIGIL: probar que tu texto se usó para entrenar un LLM

Un artículo de arXiv de junio de 2026 propone insertar canarios imperceptibles en textos y código para probar, con una tasa de falsos positivos controlada, que un modelo se entrenó con tus datos.

2026-06-13 // 6 min affects: llms-trained-on-web-scraped-corpora, code-llms, foundation-models

¿Qué es esto?

En junio de 2026, un grupo de investigadores publicó «SIGIL: Subtle Injection for Ground-truth Inference of LLM Training Data — A Statistical Framework for Provable Training Data Membership» (arXiv 2606.06502). El artículo aborda una pregunta que se ha vuelto muy práctica a medida que los modelos se entrenan con corpus web extraídos sin autorización: ¿cómo puede el titular de un contenido probar que un documento concreto acabó en el conjunto de entrenamiento de un modelo?

La respuesta de SIGIL es proactiva en lugar de retrospectiva. En vez de consultar un modelo ya entrenado con la esperanza de detectar un rastro estadístico tenue, los autores insertan secuencias «canario» imperceptibles en los textos y el código que el titular publica. Cualquier LLM entrenado después con esos documentos exhibe una firma de comportamiento estadísticamente detectable al sondearlo con consultas dirigidas. El enfoque es forense y defensivo: es una herramienta de atribución y protección de derechos, no un ataque contra un sistema.

Cómo funciona

El punto de partida es una limitación conocida. Los ataques de inferencia de pertenencia (MIA) clásicos intentan determinar si una muestra estuvo en los datos de entrenamiento midiendo cuán «seguro» o «sorprendido» se muestra el modelo ante ella. Como argumentaron Zhang et al. (2024), esas señales son débiles y a posteriori: para un documento que el modelo vio solo unas pocas veces, la relación señal/ruido es pequeña y la evidencia resulta probabilística en lugar de concluyente.

SIGIL invierte el orden de las operaciones. Como el titular controla el texto antes de que sea extraído, puede diseñarlo para que sea lo más detectable posible sin dejar de leerse con naturalidad. El artículo define cinco estrategias de canario —léxica rara, frase léxica, sintáctica, semántica y patrón de código— que siembran marcadores distintivos pero discretos que un modelo puede memorizar.

La detección se formula entonces como una prueba de hipótesis formal. SIGIL calcula un Membership Inference Score (MIS) basado en el marco de Neyman–Pearson, que ofrece una tasa de falsos positivos (FPR) explícita y controlable. Ese rigor estadístico es clave: afirmar «este modelo se entrenó con mis datos» solo resulta útil —legal o técnicamente— si la probabilidad de una acusación errónea está acotada y declarada.

Los resultados reportados (según el resumen del artículo) sitúan a los canarios de patrón de código a la cabeza, con un AUC ≈ 0,903 (d de Cohen ≈ 1,84), y a los canarios sintácticos al final, con AUC ≈ 0,875 (d ≈ 1,63). De forma notable, la detectabilidad sobrevive a la reescritura: SIGIL mantendría un AUC > 0,86 incluso bajo paráfrasis del 100 % (AUC ≈ 0,864), algo que los autores atribuyen a una fuga semántica que persiste más allá de los cambios superficiales. El trabajo se inscribe en la línea de las marcas de agua de datos para probar la pertenencia al preentrenamiento.

Por qué importa

La procedencia de los datos de entrenamiento ha pasado de ser una curiosidad académica a un litigio real que involucra a editoriales, mantenedores de código abierto y constructores de modelos. Una evidencia de pertenencia robusta y estadísticamente defendible cambia el equilibrio en tres frentes: la aplicación de los derechos de autor y las licencias, la auditoría de si realmente se respetaron las exclusiones (opt-out) y las directivas robots, y la transparencia de los conjuntos de datos ante los reguladores. Un método con una tasa de falsos positivos declarada resulta mucho más creíble en esos contextos que una mera corazonada probabilística.

Hay un matiz de doble uso que conviene nombrar. Un esquema de canarios capaz de probar la inclusión también podría usarse de forma indebida para fabricar una reclamación de pertenencia, o para marcar y rastrear contenidos derivados. Por eso precisamente el marco de Neyman–Pearson —controlar los falsos positivos en lugar de solo maximizar la detección— es el núcleo de la contribución, y no una nota al pie.

Defensas

Para los titulares de contenido que consideren usar canarios: prefieran las estrategias más resistentes a la paráfrasis (el artículo señala las variantes de patrón de código y semántica), fijen y documenten su umbral de FPR antes de sondear un modelo, y conserven los artefactos publicados originales como prueba. Una tasa de falsos positivos acotada es lo que hace auditable una reclamación.

Para los equipos de entrenamiento y de datos, el mismo artículo funciona como una lista de buenas prácticas que reduce la ingesta accidental de contenido protegido y limita la exposición a reclamaciones: mantengan una verdadera trazabilidad de los conjuntos de datos y registros de licencia por documento; respeten robots.txt, las señales de exclusión específicas de IA y las solicitudes de retirada; y apliquen una deduplicación y un filtrado de casi-duplicados agresivos, que pueden eliminar algunos canarios pero no constituyen una defensa fiable dada la robustez de SIGIL frente a la paráfrasis. La mitigación duradera es la gobernanza —saber qué contiene el corpus y poder demostrarlo—, no confiar en que los canarios se filtren.

Estado

SIGIL es un marco de investigación presentado en una preimpresión de arXiv (2606.06502) en junio de 2026; trate las cifras de AUC y tamaño del efecto reportadas como resultados preliminares, a la espera de revisión por pares y de réplica independiente. Es una técnica forense y de protección de derechos, no un exploit: aquí no hay un ataque accionable, y el uso responsable de los canarios depende de las garantías de falsos positivos controlados que los autores subrayan.

Este artículo se basa en investigación disponible públicamente y se ofrece con fines educativos y defensivos.