MULTIMODAL MEDIUM

CrossMPI: inyección de prompt solo por imagen dirige lo que leen y ven los VLM

Un artículo de la Universidad de Xidian publicado en arXiv el 15 de mayo de 2026 presenta CrossMPI: perturbaciones de imagen imperceptibles que modifican cómo los modelos de visión-lenguaje interpretan tanto la imagen como la solicitud textual del usuario, con un 66 % de éxito promedio en cinco LVLM.

2026-05-28 // 7 min affects: minigpt-4, blip-2, instructblip, bliva, qwen2.5-vl

What is this?

El 15 de mayo de 2026, Hao Yang, Zhuo Ma, Yang Liu, Yilong Yang, Guancheng Wang y JianFeng Ma, de la Universidad de Xidian, publicaron en arXiv A Cross-Modal Prompt Injection Attack against Large Vision-Language Models with Image-Only Perturbation (2605.16090, cs.CR/cs.CV). El artículo presenta CrossMPI, una técnica que utiliza perturbaciones de imagen casi imperceptibles para controlar cómo un modelo de visión-lenguaje interpreta a la vez la imagen y la instrucción textual que la acompaña — sin tocar el prompt del usuario.

El planteamiento importa. Los ataques de inyección de prompt multimodal anteriores incrustaban texto visible en imágenes, o sesgaban únicamente la lectura visual del modelo. CrossMPI es transmodal: una perturbación a nivel de píxel reescribe la interpretación conjunta que el modelo hace de la imagen y del texto. En un ejemplo del artículo, una foto de un avión modificada por el atacante lleva al modelo a responder a la pregunta “¿Este avión pertenece a Air Canada?” con “un teléfono móvil”. La imagen sigue pareciendo, para un humano, una foto de avión; el modelo, en cambio, es desviado hacia una tarea completamente distinta.

La cobertura de CSO Online del 18 de mayo de 2026 destaca la relevancia empresarial del trabajo: copilotos, asistentes de procesamiento documental y agentes con capacidades visuales combinan cada vez más imagen y texto, y las defensas de saneamiento textual desplegadas hoy no cubren esta superficie de ataque.

How it works

Un modelo de visión-lenguaje (LVLM) codifica la imagen en una secuencia de tokens visuales mediante un encoder visual, fusiona esos tokens con los tokens textuales del usuario y pasa la secuencia conjunta por una pila de transformers. La mayoría del trabajo adversario sobre imagen previo optimiza perturbaciones contra el espacio de embedding visual — la salida del encoder visual, del orden de 10^5 parámetros. CrossMPI sostiene que ése no es el objetivo correcto.

Los autores optimizan en cambio contra el espacio de estado oculto del modelo — las representaciones internas después de fusionar información visual y textual, del orden de 10^7 parámetros. Ese espacio mayor es más difícil de optimizar, lo que motiva dos restricciones introducidas por el artículo.

Selección de capas críticas de fusión. No todas las capas del transformer contribuyen por igual a la integración transmodal. El artículo mide qué capas portan más información multimodal y restringe la optimización a ellas. En contra de la intuición clásica de los ataques adversarios, las capas más eficaces no son las de salida — se encuentran en el medio del modelo, donde la evidencia visual y la intención textual se encuentran por primera vez.

Asignación decreciente del presupuesto de perturbación según la distancia. La imagen no se perturba de manera uniforme. El artículo utiliza la saliencia Grad-ECLIP para identificar las regiones semánticamente críticas, y luego asigna más presupuesto cerca de esas regiones y progresivamente menos a medida que aumenta la distancia en píxeles. El resultado visible es una perturbación concentrada donde el modelo “mira” — pero acotada para que la imagen siga siendo visualmente fiel para un lector humano.

Componente                      Propósito                              Efecto sobre el LVLM
------------------------------  -------------------------------------  -----------------------------------
Optimización en espacio de      Apuntar a la representación            Control transmodal (imagen+texto)
estado oculto                   multimodal fusionada en vez de a la
                                salida del encoder visual
Selección de capas de fusión    Restringir el gradiente a las capas    Evita el desperdicio de
                                intermedias de fusión                  optimización en capas no fusionantes
Presupuesto decreciente por     Concentrar el ruido cerca de píxeles   Imperceptible para el ojo;
distancia                       salientes vía Grad-ECLIP               preserva la semántica visual
Optimización de perturbación    Objetivo conjunto salida / fusión /    Transferibilidad en caja negra
transmodal                      dominio frecuencial                    entre arquitecturas LVLM

El artículo evalúa contra cinco LVLM open-source — MiniGPT-4, BLIP-2, InstructBLIP, BLIVA y Qwen2.5-VL — y reporta una tasa de éxito promedio del 66,36 %, unos 41 puntos por encima de las baselines anteriores. Las perturbaciones son transferibles en caja negra: un atacante que no tiene los pesos del modelo objetivo puede fabricarlas contra un modelo sustituto.

No se reproduce aquí ningún payload. El preprint en arXiv y su versión HTML son las referencias canónicas para quienes deseen reproducir el resultado en laboratorio.

Why it matters

CrossMPI es una demostración de investigación sobre LVLM open-source, no un exploit observado contra un sistema en producción. Aun así, dos propiedades merecen atención.

Primero, la superficie de ataque es invisible para las defensas solo textuales. La mayoría de los guardarraíles LLM corporativos operan hoy sobre el prompt textual — filtros de entrada, controles de jerarquía de instrucción, validadores de salida. Ninguno inspecciona píxeles. Si su pipeline acepta una imagen de origen no controlado — carga de usuario, captura de pantalla de una página web, documento, captura tomada por un agente — esa imagen puede transportar una instrucción que sus filtros del lado texto jamás verán.

Segundo, el resultado transfiere. La transferibilidad en caja negra es lo que separa un hallazgo curioso de laboratorio de una clase de ataque desplegable. CrossMPI no exige conocer los pesos exactos del modelo objetivo; las perturbaciones generadas contra un modelo abierto conservan un éxito útil contra otros. Los autores señalan explícitamente que la técnica podría “engañar a agentes web basados en VLM” y “perturbar detectores de objetos en condiciones reales”.

La lección estructural es la misma que AudioHijack planteó para el audio: cada nueva modalidad que acepta un modelo es un nuevo canal para inyección de prompt, y las mitigaciones únicamente textuales no cubrirán ninguna de ellas.

Defenses

A finales de mayo de 2026, ninguna defensa cierra esta clase de ataque. El propio artículo evalúa varias y documenta sus límites. La lista defendible más corta, extraída del artículo y de las buenas prácticas en visión adversarial:

Transformaciones de entrada como primera línea barata. El redimensionado aleatorio, la rotación y especialmente el recodificado JPEG rompen la estructura adversarial de alta frecuencia. El artículo las mide las tres: útiles, pero insuficientes en solitario — sólo como una capa entre varias.
Defensas certificadas o por suavizado. SmoothVLM es la defensa más eficaz evaluada por los autores, reduciendo la tasa de éxito por debajo del 5 % en varios escenarios. El suavizado aleatorio tiene un coste en latencia y precisión; los equipos que operan VLM en pipelines de alto rendimiento deben evaluar ese compromiso de forma explícita.
Entrenamiento adversarial sobre perturbaciones multimodales. Entrenar la pila visión-lenguaje con muestras de esta clase de ataque es la dirección de defensa duradera. CrossMPI proporciona una receta reproducible para generar esos datos.
Tratar las imágenes de origen no controlado como instrucciones no fiables. Una imagen subida por un usuario final, extraída de la web o capturada de la pantalla es contenido, no un prompt del sistema. Un agente no debería permitir que el modelo derive autoridad de llamada de herramientas a partir de una imagen sin un paso de confirmación textual independiente.
Restringir la superficie de acción de los agentes visuales. Un agente controlado por un VLM que no puede enviar correo, no puede navegar a URL arbitrarias y no puede mover dinero por sí mismo no puede ser inducido a hacerlo desde una imagen secuestrada. Aplicar la Regla de los Dos para agentes: como mucho dos de “entrada no fiable / herramienta sensible / canal de exfiltración” a la vez.
Registrar la imagen junto con la acción. Cuando un agente VLM ejecuta una acción sensible, conservar la imagen de entrada para que el análisis forense posterior pueda identificar una superposición de tipo CrossMPI. Las perturbaciones adversariales son detectables a posteriori incluso cuando eluden las defensas en tiempo real.
Vigilar el patrón transmodal, no sólo las imágenes. La misma propiedad — una entrada continua, de alta dimensión, no textual, que se fusiona con el texto dentro del modelo — aplica al audio, al vídeo y a las entradas de sensores. Las defensas deben diseñarse de forma agnóstica a la modalidad.

Status

Elemento	Referencia	Fecha	Notas
Artículo	arXiv:2605.16090 v1	2026-05-15	cs.CR / cs.CV
Autores	Equipo Universidad de Xidian	—	Hao Yang, Zhuo Ma, Yang Liu, Yilong Yang, Guancheng Wang, JianFeng Ma
Cobertura de prensa	CSO Online	2026-05-18	Contexto empresarial, comentario de Gartner
LVLM open-source afectados	5 evaluados	—	MiniGPT-4, BLIP-2, InstructBLIP, BLIVA, Qwen2.5-VL
ASR reportada	66,36 % en promedio	—	+41 puntos vs baselines; transferible en caja negra
Defensas evaluadas	Redimensionado, rotación, JPEG, SmoothVLM, DPS	—	SmoothVLM la más eficaz (<5 % ASR en algunos escenarios); ninguna elimina totalmente
Explotación real	No reportada	—	Entorno de investigación controlado, modelos open-source

La era de la defensa de inyección de prompt sólo desde el lado texto está terminando. CrossMPI no es el primer artículo de inyección multimodal, pero ajusta un resultado incómodo: un atacante sin acceso a su prompt textual y sin cambios visibles para el usuario puede, aun así, reescribir lo que su modelo cree que el usuario acaba de pedir. Para los equipos que despliegan funcionalidades de visión-lenguaje, la pregunta ya no es si defender el canal imagen — es cuántas capas de defensa son suficientes.