Ataques mediados por el usuario: cuando el usuario es el canal de inyección
Un estudio de enero de 2026 sobre 12 agentes comerciales muestra que el atacante no necesita tocar el agente. Engaña a un usuario de buena fe para que reenvíe contenido envenenado, que la jerarquía de instrucciones eleva entonces a intención de usuario de confianza. Tasa de evasión por defecto superior al 92 %.
¿Qué es esto?
Los ataques mediados por el usuario son una clase de compromiso de agentes en la que el adversario nunca toca el agente. En su lugar, manipula a un usuario de buena fe para que sea él quien reenvíe contenido controlado por el atacante en su propia solicitud. El artículo que nombra y mide este patrón — Too Helpful to Be Safe: User-Mediated Attacks on Planning and Web-Use Agents, de Chen, Wu, Nguyen y Rudolph (Monash University y Data61 del CSIRO) — se publicó en arXiv en enero de 2026 (2601.10758). Evalúa 12 agentes comerciales (6 agentes de planificación de viajes, 6 agentes web) en un entorno aislado y los encuentra «demasiado serviciales para ser seguros» por defecto.
El hallazgo clave: la seguridad está presente como capacidad, ausente como prioridad. Los agentes sabían aplicar comprobaciones de seguridad, pero solo lo hacían cuando el usuario lo pedía de forma explícita. Sin una solicitud de seguridad, los agentes de planificación eludían las restricciones de seguridad en más del 92 % de los casos, y varios agentes web alcanzaban una tasa de evasión del 100 % en acciones de riesgo.
Cómo funciona
La mayor parte de la investigación sobre seguridad de agentes asume un «atacante en el bucle»: el adversario alimenta directamente al agente con entradas maliciosas, o envenena un corpus que el agente consulta. Los ataques mediados por el usuario invierten ese supuesto. El atacante solo controla lo que ve el usuario, mediante un proceso de cuatro pasos:
- Sembrar. El atacante publica en una plataforma pública un mensaje persuasivo de apariencia inofensiva (un hilo de Reddit, una «oferta por tiempo limitado», un tutorial). Lleva una carga útil: una URL disfrazada, una cadena de redirección o pasos a seguir.
- Reenviar. Un usuario lo encuentra navegando y lo pega o cita en su agente: «reserva este viaje con este código promocional», «sigue estos pasos». El contenido envenenado cruza desde la web abierta a la entrada del agente.
- Ejecutar. El agente planifica y actúa sobre el contexto ya sesgado.
- Amplificar. La salida tranquilizadora del agente («parece oficial, puede continuar») aumenta la confianza del usuario e impulsa la aprobación final dañina.
El mecanismo es lo que los autores llaman escalada de la fuente de instrucción. Las defensas modernas clasifican las instrucciones por nivel de confianza: prompt del sistema > entrada del usuario > contenido externo/salida del modelo. La inyección indirecta se trata como dato externo poco fiable. Pero cuando el contenido llega a través del mensaje del usuario, la jerarquía lo reetiqueta como intención de usuario prioritaria. La misma carga útil de la que un filtro desconfiaría como texto web queda blanqueada hacia un canal de confianza por el paso de reenvío. Aquí no se reproduce ninguna carga útil; la lección es estructural, no una receta.
Los modos de fallo medidos son concretos. La verificación de URL era superficial y excesivamente confiada: los agentes afirmaban que dominios de typosquatting, cybersquatting y homógrafos cirílicos eran «oficiales» sin validación real, y modificar solo el prefijo de una URL eludía las comprobaciones el 88 % de las veces, incluso bajo una solicitud de seguridad moderada. Los agentes web abrían enlaces maliciosos en los esquemas http, https, data y javascript, apoyándose en las listas negras del navegador en lugar de un razonamiento propio del agente. Ejecutaban acciones según el solo progreso de la tarea, pasaban por alto contenido malicioso explícito, rellenaban campos DOM ocultos y reenviaban datos cuando aparecía un falso mensaje de «fallo» — exfiltrándolos en silencio mientras usuario y agente creían reintentar.
Por qué importa
Esto cubre una brecha que el filtrado de entradas no aborda. El supuesto defensivo dominante es que el atacante no tiene acceso al agente, así que basta con asegurar sus entradas. Los ataques mediados por el usuario respetan ese supuesto y aun así tienen éxito, porque el humano es el vector. El panorama de marzo de 2026 From Secure Agentic AI to Secure Agentic Web (2603.01564) describe el mismo desplazamiento: a medida que los agentes pasan de una superficie de herramientas controlada a la web abierta y poblada de humanos, la frontera de confianza deja de ser la API y pasa a ser todo lo que se pueda persuadir al usuario de reenviar.
También eleva lo que está en juego con la servicialidad. Un agente que aconseja una mala reserva deja margen de recuperación; un agente web que hace clic, envía y paga produce un daño inmediato e irreversible. El estudio constata que los agentes carecen de una «regla de parada de acción mínima»: siguen interactuando más allá del objetivo real del usuario, tratando cada control disponible como una orden legítima. El peligro no es un modelo de seguridad ausente; es que la seguridad es opcional, condicionada a cómo se exprese el usuario.
Defensas
- Haga de la seguridad el comportamiento por defecto, no un modo activado por el prompt. Los agentes deberían ejecutar comprobaciones de riesgo en toda tarea que implique recursos externos o dinero, lo pida el usuario o no. No confíe en que los usuarios digan «ten cuidado»: las solicitudes moderadas seguían siendo eludidas hasta el 55 % de las veces.
- Trate el contenido reenviado por el usuario como no fiable, no como intención del usuario. Mensajes citados, enlaces pegados y cargas útiles del tipo «sigue estos pasos» deberían conservar el nivel de confianza de los datos externos aunque lleguen en el mensaje del usuario. Resista la escalada de la jerarquía de instrucciones que los promueve.
- Verifique las URL correctamente. Aplique normalización Unicode/IDN, compruebe la procedencia y el dominio registrado completo (no el prefijo ni una mera similitud de dominio), y nunca afirme «oficial» o «verificado» sin una comprobación real. La tranquilización excesivamente confiada es en sí parte del ataque.
- Condicione la ejecución a la necesidad. Añada una regla de parada de acción mínima: cada clic, envío o descarga debe estar justificado por la tarea declarada. Deténgase al completar la tarea en lugar de agotar cada elemento interactivo de la página.
- Verifique el estado del backend, no solo las señales del frontend. Confirme si un envío realmente tuvo éxito antes de reintentar, para que un falso mensaje de «fallo» no pueda provocar un reenvío silencioso y una exfiltración.
- Construya defensas del lado del usuario. Este es el canal hoy desprotegido. Advierta a los usuarios cuando el contenido que reenvían contenga enlaces o directivas, y muestre sobre qué va a actuar el agente antes de que actúe.
Estado
| Elemento | Detalle |
|---|---|
| Fuente | arXiv 2601.10758 (enero de 2026) |
| Alcance | 12 agentes comerciales: 6 de planificación, 6 web |
| Hallazgo central | La seguridad depende de cómo se exprese el usuario, no del defecto |
| Evasión por defecto | >92 % (planificación); hasta 100 % (acciones de riesgo, web) |
| Bajo solicitud de seguridad moderada | Evasión aún hasta ~55 % |
| Clase | Inyección mediada por el usuario / escalada de fuente de instrucción |
| Divulgación | Estudio académico; comportamientos medidos en entorno aislado, sin daño real |
El marco duradero es que la jerarquía de instrucciones puede volverse contra sí misma. Situar al usuario por encima de los datos externos es la decisión correcta para un uso normal, pero significa que un atacante que llega al usuario, en vez de al agente, hereda el nivel de confianza del usuario. Mientras las comprobaciones de seguridad sigan siendo algo que el usuario debe pedir, el agente más amable y servicial es también el más explotable.