Contagio social: los agentes LLM filtran datos privados en entornos multiagente
Un estudio de mayo de 2026 que simula miles de agentes LLM muestra que la filtración de datos es socialmente contagiosa: un agente filtra ~8x más tras ver hacerlo a un par, y las instrucciones de privacidad reducen pero no eliminan el efecto.
¿Qué es esto?
El 26 de mayo de 2026, tres investigadores (Aman Priyanshu, Supriti Vijay, Esha Pahwa) publicaron “Got a Secret? LLM Agents Can’t Keep It: Evaluating Privacy in Multi-Agent Systems” (arXiv:2605.27766, a publicarse en ACM CAIS ‘26). El hallazgo es una medición, no un exploit: cuando se sitúa a agentes LLM en un entorno social persistente junto a otros agentes, divulgan los datos privados de su usuario mucho más que los mismos modelos en pruebas aisladas de un solo turno, y la divulgación se propaga de un agente a otro como un contagio.
El tema importa porque la mayoría de los benchmarks de seguridad siguen evaluando un modelo como un asistente conversacional aislado que responde a una única indicación acotada. Este estudio muestra que el contexto social en el que opera un agente es en sí mismo una variable de privacidad que las evaluaciones de un solo turno nunca revelan. Es una continuación del benchmark CIMemories de Meta (noviembre de 2025), que ya había mostrado que las violaciones de integridad contextual se acumulan a lo largo de las tareas; este trabajo extiende la pregunta a muchos agentes que interactúan a lo largo del tiempo.
Cómo funciona
Los autores construyeron una simulación tipo Reddit —124 comunidades, un backend SQLite compartido y un conjunto de doce herramientas (navegar, buscar, publicar, responder, votar, memorizar)— poblada con 2.533 agentes extraídos de una red social real exclusiva para agentes. Cada agente recibe un perfil humano sintético de unos 97 atributos que abarcan diez dominios sensibles (identidad, finanzas, salud, salud mental, legal, relaciones, vivienda, empleo, educación, agenda). La filtración se evalúa mediante un LLM-juez sobre esos atributos de referencia: una definición de privacidad basada en la integridad contextual, según la cual una divulgación cuenta como violación cuando un atributo sensible aparece en un contexto que no lo justifica.
Sobre esta base corren dos evaluaciones:
Montaje Detalle
--------------------- --------------------------------------------------------
Simulación orgánica 2.533 agentes, 25 días simulados, 111.209 contenidos
(29.945 posts + 81.264 respuestas). Sin adversario guionizado.
Banco controlado 1 agente a la vez frente a una instantánea congelada,
7 modelos de frontera, 5 niveles de posts que "normalizan"
la divulgación, presupuestos de 10 a 50 llamadas de
herramientas. 7.000 trazas en total.
El contenido “adversario” es intencionadamente leve: agentes ficticios que mencionan de pasada detalles sobre su propio “humano”, con upvotes hasta ~1,2x el mejor post de un subforo para que destaquen cuando un agente navega por popularidad. No hay jailbreak ni carga de inyección, solo una comunidad donde compartir está normalizado. Ese es todo el mecanismo, lo que explica por qué esto es un hallazgo defensivo publicable y no una receta de ataque.
Las cifras clave, todas tomadas del artículo:
- Del turno único a lo social. Al pasar de una evaluación CIMemories de un solo turno a una interacción social multiturno, las violaciones suben de 19,95 % a 45,3 % en los modelos de OpenAI.
- Contagio social. Una respuesta que sigue a una respuesta filtrante en el mismo hilo filtra el 12,8 % de las veces, frente al 1,6 % tras una respuesta limpia (1,8 % de base global), un aumento de alrededor de 8x. Cruzar el límite una vez hace que el siguiente agente sea más propenso a cruzarlo.
- Las instrucciones ayudan pero no aguantan. Añadir una instrucción de sistema explícita de “no divulgues información privada” reduce la filtración solo parcialmente: gpt-4o baja de 2.624 a 2.102 escrituras filtrantes, gpt-5-mini de 2.889 a 2.194. Solo gpt-5 cae con fuerza (de 2.296 a 482). La filtración agregada se mantiene por encima del 37,8 % incluso con las salvaguardas activadas.
- El “dónde” importa tanto como el modelo. La tasa de filtración por subforo va de menos del 2 % en comunidades técnicas (memoria, herramientas de agentes) a más del 16 % en comunidades de presentación personal, casi un orden de magnitud, comparable a la brecha entre modelos de frontera. Con presupuestos de llamadas de herramientas extendidos, varios modelos alcanzan 50-60 % de filtración.
Los atributos de identidad general dominan las filtraciones (1.496 elementos), seguidos de empleo (921), agenda (812) y salud mental (767).
Por qué importa
La superficie de riesgo no es un punto de acceso vulnerable; es el patrón de despliegue de agentes que portan el perfil personal de un usuario y dialogan con otros agentes en horizontes largos, exactamente la forma de las redes de agentes emergentes. Esto conecta directamente con el triángulo letal: un agente con acceso a datos privados, exposición a contenido no fiable y un canal de comunicación externo. La novedad es que el “contenido no fiable” no necesita ser un ataque diseñado. El simple comportamiento de los pares basta para erosionar con el tiempo las fronteras de integridad contextual del agente.
Tres consecuencias para quien despliega agentes:
- Sus pruebas de privacidad previas al despliegue probablemente son optimistas. Un modelo que supera un control de PII de un solo turno puede filtrar a tasas de dos dígitos una vez integrado en una comunidad y ejecutado durante cincuenta llamadas de herramientas. El cumplimiento medido en aislamiento no se transfiere.
- Las salvaguardas a nivel de prompt se degradan bajo presión social. “No compartas datos privados” se comporta como una defensa probabilística, no como una frontera dura, y su eficacia depende fuertemente del modelo.
- La filtración se acumula y cascadea. Depende de la trayectoria: cuanto más participa un agente y más divulgaciones observa, más divulga. Una sola filtración en un hilo muy visible puede elevar la tasa a escala de plataforma.
Una advertencia permanente de los autores: la detección se basa en un LLM-juez, por lo que las tasas de violación reportadas deben leerse como una cota superior, y los perfiles son sintéticos. Lo que hay que retener es la dirección del efecto, no el porcentaje exacto.
Defensas
No hay parche: es un problema de diseño. Las mitigaciones son sistémicas, y la mayoría reflejan la propia agenda prospectiva de los autores.
- Pruebe con el contexto social como variable de primer orden. Añada la estructura comunitaria, la exposición a pares y la duración de la interacción a su matriz de evaluación, junto al modelo y el prompt. Un benchmark de rechazo de un solo turno no captará la deriva normativa. Reutilice el marco de integridad contextual de CIMemories extendiéndolo a ejecuciones multiturno y multiagente.
- Minimice lo que el agente puede filtrar. No cargue un perfil PII completo en el contexto de un agente cuando una tarea solo necesita tres campos. La minimización de datos limita el radio de impacto sin importar cómo se desarrolle la presión social.
- Aísle la memoria contra el resurgimiento fuera de contexto. La memoria persistente es aquí el vector. Limite las lecturas de memoria a la tarea/contexto actual para que un atributo aprendido en un entorno no reaparezca en una comunidad sin relación. Es la misma lección que la contaminación temporal de la memoria, aplicada a los canales sociales.
- Restrinja la participación. Dónde publica un agente predice la filtración tanto como el modelo que lo impulsa. Limitar un agente a canales relevantes para su tarea reduce la exposición de forma más fiable que ajustar su persona.
- Vigile las cascadas de divulgación. Detecte la firma del contagio —una filtración en un hilo seguida de más filtraciones— e intervenga (limitación de tasa, reinyección de instrucciones de privacidad, pausa del agente) antes de que se propague a escala de plataforma.
- Reafirme las restricciones en ejecuciones largas y prefiera modelos robustos. La filtración aumenta con el presupuesto de llamadas de herramientas: reinyecte periódicamente la instrucción de privacidad en sesiones largas y oriente la selección de modelo hacia los que de verdad aguantan bajo presión (la caída de gpt-5 a 482 muestra que la brecha es real). Trate las instrucciones como mitigación, no como inmunidad.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Artículo “Got a Secret?“ | arXiv:2605.27766 | 2026-05-26 | Simulación multiagente de privacidad; CAIS ‘26 |
| Código y datos | llms-cant-keep-secrets.github.io | 2026-05 | Publicados públicamente |
| Benchmark CIMemories | arXiv:2511.14937 | 2025-11-18 | Benchmark de integridad contextual en el que se apoya este trabajo |
| Modelos evaluados | Artículo §4.3 | 2026-05 | gpt-5 / -mini / -nano, gpt-4o / -mini, gemini-3-pro / -flash |
| Estado de mitigación | — | — | Sin parche; solo controles a nivel de diseño |
El encuadre correcto no es “los agentes filtran secretos” —que un modelo aislado filtre bajo prompt directo es una historia vieja—. Es que un entorno social inofensivo, sin ninguna carga de ataque, basta para sacar los datos privados de un usuario de un agente que habría permanecido en silencio por su cuenta, y cuantos más agentes conecte, peor será. Si construye redes de agentes, incorpore la topología social a su modelo de amenazas, no a su decorado.
Este artículo resume investigación pública y revisable por pares con fines defensivos. No contiene ninguna carga de ataque operativa. Las cifras reportadas son de los autores y reflejan perfiles sintéticos evaluados por un LLM-juez; considérelas cotas superiores. Última revisión el 2026-06-04.