ADVERSARIAL MEDIUM NEW

M3Att: envenenamiento de RAG médico multimodal sin conocer las consultas

Un artículo de mayo de 2026 envenena un RAG médico de imagen-texto sin conocer de antemano las consultas de los usuarios. Perturbaciones de imagen imperceptibles secuestran la recuperación; un texto guiado por la ambigüedad clínica evade la autocorrección del modelo — y las defensas de prefiltrado apenas lo afectan.

2026-06-17 // 7 min affects: medical-multimodal-rag, lvlm-rag, clinical-decision-support, vision-language-models

¿Qué es esto?

El 11 de mayo de 2026, investigadores de la Universidad Tsinghua, la Beijing University of Posts and Telecommunications, la Northwestern Polytechnical University y la ETH Zúrich publicaron M3Att (arXiv:2605.10253), un marco de envenenamiento de conocimiento dirigido al RAG médico multimodal — esas tuberías que combinan imágenes médicas (radiografía, TC, RM) con texto y entregan la evidencia recuperada a un gran modelo de visión-lenguaje (LVLM) para generar informes o responder preguntas clínicas.

La aportación relevante para los defensores es el modelo de amenaza, no un nuevo payload. Los trabajos previos de envenenamiento de RAG médico suponían que el atacante ya conocía las futuras consultas de la víctima y podía optimizar sus entradas envenenadas contra ellas — una suposición que rara vez se cumple en producción. M3Att la descarta. Solo asume un conocimiento limitado de la distribución de la base de conocimiento, que según los autores puede estimarse mediante interacción ordinaria de caja negra con el sistema RAG. Esto convierte el ataque en un banco de pruebas de red teaming realista en lugar de una curiosidad de laboratorio.

Cómo funciona

M3Att divide el problema en las dos etapas de una tubería RAG — recuperación y generación. Se describe aquí solo a nivel conceptual; no se reproduce ningún parámetro operativo ni payload.

Etapa         RAG normal                     Objetivo de M3Att
------------  -----------------------------  ----------------------------------------
Recuperación  Codifica imagen+texto consulta, Lograr que se recupere una entrada
              toma los k más cercanos        envenenada para consultas nunca vistas
Generación    El LVLM lee la evidencia       Que el texto envenenado sobreviva al
              recuperada, escribe diagnóstico conocimiento médico del modelo

El primer mecanismo, el secuestro de recuperación guiado por la distribución, explota una propiedad de la imagen médica: los estudios de una misma región anatómica se agrupan muy estrechamente en el espacio de embeddings. El ataque modela esa distribución, elige objetivos proxy y aplica perturbaciones imperceptibles a la imagen de la entrada envenenada para que actúe como un disparador agnóstico a la consulta — apareciendo en el conjunto recuperado para una amplia gama de consultas desconocidas, sin alterar la apariencia clínica de la imagen.

El segundo mecanismo, el envenenamiento guiado por la ambigüedad clínica, ataca una defensa que los profesionales suelen creer protectora: un LVLM médico bien entrenado corregiría las falsedades evidentes. M3Att lo elude inyectando desinformación en las regiones de baja confianza, genuinamente ambiguas del razonamiento clínico — por ejemplo, una formulación cautelosa del tipo «no se puede descartar malignidad» que empuja al modelo hacia una postura de falso positivo. Como la afirmación inyectada es plausible y no abiertamente errónea, el modelo no se autocorrige, y la salida es «clínicamente plausible pero incorrecta».

En cinco LVLM y cinco conjuntos de datos, la tasa de éxito del secuestro de recuperación se acerca al ~100 % con una tasa de envenenamiento de alrededor de 0,08, con ganancias notables incluso con presupuestos de envenenamiento bajos.

Por qué importa

Es un ataque a la integridad de la base de conocimiento, no un truco de inyección de prompts, de modo que las barreras habituales de entrada/salida no lo ven. El contenido envenenado ya está dentro del corpus de confianza cuando llega la consulta.

El marco médico hace tangible el impacto: un almacén RAG contaminado puede orientar un diagnóstico o una sugerencia de tratamiento hacia una conclusión falsa pero creíble, y el diseño «guiado por la ambigüedad» derrota precisamente la idea de que el entrenamiento del modelo filtraría la evidencia errónea. En términos de MITRE ATT&CK, esto se acerca a un problema de cadena de suministro / preparación de datos — la corrupción ocurre aguas arriba del razonamiento del agente, donde la supervisión es más débil. Toda organización que ingiera conocimiento médico externo o comunitario en un almacén de recuperación debe tratar ese almacén como una superficie de ataque por derecho propio.

Defensas

El hallazgo más útil del artículo para los equipos defensivos es saber qué defensas fallaron: tres filtros de corpus pre-recuperación — agrupamiento de imágenes, agrupamiento de texto y consistencia intermodal imagen-texto — dejaron la tasa de éxito de la recuperación «prácticamente sin cambios», y controles más fuertes en el momento de la recuperación (filtrado por perplejidad, detección de anomalías, poda por puntuación en retrievers CLIP) tampoco la detuvieron de forma fiable. Las heurísticas distribucionales simples no bastan. Endurecimiento práctico:

Gobierne el corpus como código. Restrinja el acceso de escritura a la base de conocimiento, exija procedencia y firma para cada par imagen-texto, y revise las contribuciones externas o comunitarias antes de la ingesta, no después.
Corrobore antes de confiar. Para salidas de alto riesgo, exija acuerdo entre varias fuentes recuperadas independientes y marque los diagnósticos que se apoyen en una sola entrada.
Mantenga a un humano en el bucle para las decisiones clínicas. Trate la salida del RAG como apoyo a la decisión, nunca como autoridad; asegure que un clínico cualificado revise la cadena de evidencia, sobre todo cuando el modelo se inclina hacia un hallazgo grave.
Vigile la deriva de distribución y la sobrerrepresentación. Detecte las entradas recuperadas de forma desproporcionada en consultas no relacionadas — un disparador agnóstico a la consulta se manifiesta como una entrada «siempre relevante».
Haga red teaming a su propio almacén. Use marcos como M3Att (código público) contra una copia de preproducción para medir su exposición real antes de que lo haga un adversario.

Estado

Elemento	Referencia	Fecha	Notas
Artículo M3Att	arXiv:2605.10253v1 [cs.CR]	2026-05-11	Tsinghua, BUPT, NWPU, ETH Zúrich
Código	github.com/ypr17/M3Att	2026-05	Público, para red teaming
Alcance	5 LVLM × 5 conjuntos de datos, 4 tareas médicas	—	Generación de informes, QA médica
Defensas probadas	Filtros pre-recuperación + en recuperación	—	ASR de recuperación «prácticamente sin cambios»

Es un resultado de investigación en red teaming, no una vulnerabilidad de producto divulgada — no hay parche que aplicar. La lección es arquitectónica: en el RAG médico (y en todo RAG de alto riesgo), la integridad del corpus de recuperación es una propiedad de seguridad de primer orden, y el conocimiento propio del modelo no es una red de seguridad fiable frente a la desinformación plausible.

Nota: este artículo trata sobre investigación en seguridad de la IA en un tema sensible (salud) con fines defensivos. No constituye consejo médico.