sistema: OPERATIVO
← volver a todos los hacks
ADVERSARIAL MEDIUM NEW

PRAC: secuestrar la elección de un agente de uso de ordenador vía su atención

Un artículo de Tübingen (abril de 2026) muestra que una sola imagen de producto perturbada de forma imperceptible puede concentrar la atención visual de un agente de uso de ordenador y dirigir el 82 % de sus selecciones, sin tocar nunca su salida.

2026-06-22 // 6 min affects: qwen3-vl, glm-4.6v, kimi-vl, evocua, computer-use-agents

¿Qué es esto?

Los agentes de uso de ordenador (computer-use agents, CUA) actúan cada vez más en nombre del usuario sobre una interfaz gráfica: navegar por la web, rellenar formularios, tomar decisiones de compra. Se construyen sobre modelos de visión-lenguaje (VLM) que «miran» la pantalla y deciden dónde hacer clic. Un artículo de Dominik Seip y Matthias Hein del Tübingen AI Center (Universidad de Tübingen), publicado en arXiv con la referencia arXiv:2604.08005, presenta PRAC — Preference Redirection via Attention Concentration — un ataque que dirige de forma discreta la opción que el agente elige.

La idea distintiva: PRAC no intenta corromper la salida del modelo, como haría una inyección de prompt o un pop-up malicioso. Manipula las preferencias internas del modelo «redirigiendo su atención hacia un parche adversario sigiloso». En un caso de estudio de comercio electrónico, una sola imagen de producto perturbada hace que el agente «vea» — y por tanto seleccione — el producto del atacante, aunque la imagen siga mostrando el producto real y la perturbación sea apenas perceptible para una persona.

Cómo funciona

PRAC apunta a las puntuaciones de atención dentro del decodificador del modelo de lenguaje, y no a las coordenadas de localización o a la cadena de selección que el agente produce. Conceptualmente, la imagen de producto adversaria se optimiza para «atraer puntuaciones de atención desproporcionadamente altas» a través de las capas del modelo, en relación con las otras imágenes presentes en el contexto; el objetivo formulado es maximizar la proporción de atención visual que recae sobre la imagen objetivo. En el momento de la elección, esa imagen domina lo que el agente mira, y resulta seleccionada.

Como la manipulación reside en la atención interna y no en el texto o la acción producidos, es muy transferible: no necesita optimizar para una salida fija ni para una posición conocida en la cuadrícula. La perturbación está acotada a un presupuesto reducido ‖δ‖∞ ≤ 8/255, «lo bastante pequeño como para que las personas no la noten en absoluto, o la perciban como mucho como una imagen de baja calidad». No se inyecta ninguna instrucción textual: la página sigue siendo de confianza.

Es el modelo de amenaza realista lo que hace notable el ataque. El atacante se modela como un vendedor externo malicioso que «puede manipular la imagen del producto en el sitio pero no tiene control sobre el sitio en sí», no puede elegir la posición de su producto en la cuadrícula ni fijar la salida del agente. Una restricción juega en sentido contrario: los autores «asumen acceso de caja blanca al CUA» (caja negra solo para las variantes afinadas), y señalan ese acceso como una limitación actual.

Por qué importa

Probado contra cuatro agentes VLM de pesos abiertos — Qwen3-VL-8B, GLM-4.6V-Flash, Kimi-VL-A3B y EvoCUA-8B — PRAC alcanza una tasa media de éxito de selección del 82,3 %, frente al 20,8 % de la base limpia (con cinco productos, una elección aleatoria vale ~20 %), y «≥ 15 % más de selección que la mejor línea base». El ataque se transfiere a los descendientes afinados de esos modelos con una caída de solo 0–40 %, porque «la vulnerabilidad a nuestro ataque se hereda de la arquitectura base».

Es un ataque a la integridad de la decisión del agente, no una fuga de datos, pero sus consecuencias son comerciales y adversarias. Convierte discretamente «¿qué producto compró el agente?» en algo que un tercero puede sesgar, y ese desvío de selección se generaliza a «cualquier tarea que requiera una selección autónoma del CUA a partir de información visual». Se inscribe en la línea de amenazas visuales previas a los CUA, como los pop-ups adversarios, evadiendo a la vez las defensas textuales que estas provocaron.

Defensas

El hallazgo incómodo: las salvaguardas habituales lo pasan por alto por completo, porque el comportamiento del agente permanece dentro de las «interacciones de usuario esperadas» y su salida es benigna.

  1. No confiar en los filtros de salida. Los modelos que «monitorizan y filtran las salidas para detectar violaciones de seguridad son ineficaces» aquí: no hay ninguna cadena maliciosa que atrapar. Los filtros de inyección en la entrada también lo pierden, ya que no se inyecta nada textual.
  2. Las defensas a nivel de prompt no bastan. Los autores probaron Instruction Hierarchy y un Reflection Prompt; ambos fueron «considerados ineficaces» contra el ataque, con PRAC teniendo aún éxito el 58–97 % de las veces según el modelo.
  3. Tratar las entradas visuales como adversarias. La vía realista que señala el artículo es la robustez a nivel de modelo — «entrenamiento adversario u otras técnicas» — para que los VLM usados como CUA resistan la manipulación de atención en lugar de corregirla aguas abajo.
  4. Añadir comprobaciones de selección no visuales. Cuando un CUA toma decisiones de peso (compras, aprobaciones), condicionarlas a datos estructurados fuera de banda (precio, reputación del vendedor, identificadores de producto) en lugar de a la sola imagen renderizada, y mantener a un humano en el bucle para las acciones de alto valor.
  5. Limitar la confianza otorgada al activo de un único vendedor. Una imagen perturbada de un tercero no controlado no debería poder dominar una selección; diversifique las señales que guían la decisión.

Estado

ElementoReferenciaNotas
ArtículoarXiv:2604.08005Seip y Hein, Tübingen AI Center
AtaquePRAC — preference redirection via attention concentrationApunta a la atención del decodificador, no a la salida
Modelos probadosQwen3-VL-8B, GLM-4.6V-Flash, Kimi-VL-A3B, EvoCUA-8BSSR media 82,3 % vs 20,8 % limpio
Modelo de amenazaUna imagen de producto perturbada, ‖δ‖∞ ≤ 8/255, caja blancaCaja negra para las variantes afinadas
Código«publicado a más tardar cuando el artículo sea aceptado»Aún no disponible al momento de redactar

Para recordar: PRAC subraya que la atención de un agente es una superficie de ataque, igual que su prompt o su salida. Mientras una imagen perturbada pueda dominar lo que un agente VLM mira, las defensas que solo inspeccionan texto o salidas no verán venir la manipulación, y la corrección duradera reside en la robustez del modelo, no en un filtro aguas abajo.

Sources