Reconstrucción de imágenes: recuperar imágenes privadas desde los embeddings de un MLLM distribuido
Un artículo de junio de 2026 muestra que un participante pasivo de una tubería de inferencia MLLM distribuida puede reconstruir la imagen de entrada del usuario a partir de los embeddings que retransmite. En caja negra, sin los pesos del modelo.
¿Qué es esto?
Image Prompt Reconstruction Attacks on Distributed MLLM Inference Frameworks (arXiv:2606.18710, [cs.CR], publicado el 17 de junio de 2026, por investigadores de la Shanghai Jiao Tong University y de MBZUAI) describe una fuga de privacidad propia de la inferencia distribuida de grandes modelos multimodales (MLLM). Marcos como Petals y Cake —y plataformas como Together.ai, Prime Intellect o Modal— reparten un modelo entre varias máquinas de consumo: cada participante posee una porción de las capas y transmite los embeddings intermedios al siguiente participante. La conclusión del artículo: cualquier participante de esa cadena puede reconstruir la imagen de entrada que envió un usuario, a partir únicamente de los embeddings que retransmite.
El trabajo es el primero en demostrar la reconstrucción de imágenes contra MLLM. Investigaciones anteriores ya habían mostrado que los prompts de texto se filtraban desde los embeddings intercambiados en la inferencia distribuida; este artículo extiende la amenaza a la modalidad visual, donde una imagen contiene mucho más detalle personal que un breve prompt de texto.
Cómo funciona
El modelo de amenaza es deliberadamente débil, y eso es lo que lo hace notable. El atacante es un participante honesto pero curioso de la tubería. El ataque es de caja negra (sin acceso a los pesos ni a la arquitectura) y pasivo (nunca altera el cómputo, solo observa los embeddings que recibe legítimamente). No se requiere ningún privilegio especial más allá de ser una de las máquinas de la ejecución distribuida.
El ataque tiene dos etapas. Primero, una etapa de extracción de embeddings de imagen separa los tokens de imagen de los tokens de texto dentro de la representación intermedia entrelazada. Los MLLM encierran los tokens visuales entre tokens especiales estables (por ejemplo <start_of_image> / <end_of_image>), y el atacante localiza esas anclas para aislar los embeddings de imagen. En los experimentos del artículo, esta etapa alcanza una precisión de extracción cercana al 100 % en la mayoría de las capas.
A partir de los embeddings extraídos, el artículo construye dos reconstrucciones complementarias:
- MPAA (Multi-resolution Patch Assembly Attack) — una reconstrucción a nivel de píxel. Como los MLLM cortan la imagen en parches de tamaño fijo, cada embedding lleva sobre todo la información de un parche; MPAA recupera los píxeles por parche y los ensambla, fusionando un borrador de alta y baja resolución para el detalle y la estructura. Funciona mejor en las primeras capas, donde el detalle visual aún está intacto.
- IEDA (Image Embedding-guided Diffusion Attack) — una reconstrucción a nivel semántico. Proyecta los embeddings en un espacio semántico y los usa para guiar un modelo de difusión. IEDA es más robusta cuando las capas profundas han fusionado o agrupado parches y el detalle fino ha desaparecido, recuperando el contenido de la escena aunque los píxeles exactos no se puedan.
Los autores evalúan en Gemma 3, Phi 4 Multimodal, Qwen 2.5 VL y Llama 4 Scout, con conjuntos de datos que incluyen CelebA (rostros), COCO Caption y CC3M. MPAA logra una reconstrucción de píxeles de alta fidelidad en las primeras capas; IEDA logra una reconstrucción semántica consistente en todas las capas y los cuatro modelos.
Por qué importa
La inferencia distribuida se vende como una forma de ejecutar modelos grandes a bajo coste mancomunando máquinas no confiables, pero mancomunar máquinas no confiables es precisamente el riesgo. Los embeddings transmitidos entre participantes no son opacos. Son una codificación reversible de la entrada del usuario, y para una imagen esa entrada puede ser un rostro, un documento, una imagen médica o una captura de pantalla. Un participante que aporta tiempo de GPU a un enjambre tipo Petals está, según este trabajo, en posición de cosechar las imágenes de entrada de todos sin infringir nunca el protocolo.
La lección de fondo va más allá de este artículo: una activación intermedia es un dato sensible, no una forma intermedia inofensiva. Es el eco multimodal de la inversión en split learning y de los ataques de inversión de prompts de texto. Allí donde un modelo se corta a través de una frontera de confianza y los estados ocultos en bruto cruzan la red, la parte del otro lado a menudo puede invertirlos hacia la entrada.
Defensas
Trate la frontera de la tubería como una frontera de exfiltración. Si los participantes no son mutuamente de confianza, asuma que cualquier embedding que transmita puede invertirse hacia la entrada. Mantenga las primeras capas, las más reveladoras de la entrada —el codificador de imagen y las primeras capas del decodificador— en hardware de confianza y de primera parte, y distribuya solo las capas profundas, donde la reconstrucción es más difícil.
No envíe estados ocultos en bruto. La investigación sobre el equivalente de texto (arXiv:2606.11592, junio de 2026) explora representaciones que preservan la privacidad, basadas en la teoría de la información, que conservan la utilidad de la tarea mientras eliminan el detalle reversible. La ofuscación aprendida, el cuello de botella (bottleneck) o un ruido calibrado sobre las activaciones transmitidas elevan el coste de la reconstrucción, a cambio de un compromiso de utilidad medible que conviene probar y no presumir.
Proteja el canal y los participantes. Cifre los embeddings en tránsito y controle quién puede unirse a un enjambre de inferencia; un grupo de relés abierto y sin permisos es el peor caso para este ataque. Para cargas muy sensibles, ejecute la inferencia dentro de un entorno de ejecución confiable (TEE) o manténgala en infraestructura de un solo inquilino en lugar de un marco distribuido compartido.
Minimice lo que el modelo ve. La fuga es de la imagen de entrada. Censure o recorte las zonas personales antes del envío cuando la tarea lo permita, y evite sin más hacer pasar rostros, documentos de identidad o imágenes médicas por una inferencia multiparte.
Estado
| Elemento | Detalle |
|---|---|
| Fuente | arXiv:2606.18710 [cs.CR], 17 de junio de 2026 |
| Clase | Reconstrucción de imágenes pasiva, de caja negra (privacidad / fuga de datos) |
| Marco | Inferencia MLLM distribuida (división de capas tipo Petals / Cake) |
| Atacante | Participante honesto pero curioso que retransmite los embeddings intermedios |
| Métodos | Extracción de embeddings (~100 % de precisión) → MPAA (píxel) + IEDA (semántico) |
| Probado en | Gemma 3, Phi 4 Multimodal, Qwen 2.5 VL, Llama 4 Scout |
| Estado | Divulgación de investigación; sin CVE de producto específico; defensa a nivel de diseño |