AGENTS MEDIUM NEW

Deje de obsesionarse con el prompt: secuestrar el razonamiento y la memoria de un agente

Un artículo de abril de 2026, JailAgent, lleva a un agente a llamadas de herramienta maliciosas sin tocar el prompt del usuario, perturbando su traza de razonamiento y su recuperación de memoria. El prompt nunca fue toda la superficie de ataque.

2026-06-02 // 6 min affects: llm-agents, tool-using-agents, reasoning-models, memory-augmented-agents

¿Qué es esto?

La mayoría de las defensas contra la inyección de prompts parten de un supuesto: el peligro llega por la entrada. Se etiqueta el turno del usuario, el documento recuperado, la salida de la herramienta; se decide qué fragmentos son «instrucciones» y cuáles son «datos»; se filtran los malos. Dos artículos recientes de red teaming sostienen que ese encuadre pasa por alto el lugar donde los agentes modernos realmente deciden qué hacer.

El 7 de abril de 2026, Yanxu Mao, Peipei Liu, Tiehan Cui y sus coautores publicaron Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents (arXiv:2604.05549). Su marco, JailAgent, induce a un agente a ejecutar acciones maliciosas sin modificar el prompt del usuario. Opera en la capa que está debajo del prompt: la trayectoria de razonamiento del agente y su recuperación de memoria.

JailAgent es el sucesor de UDora (arXiv:2503.01908, primera versión el 28 de febrero de 2025, última revisión el 12 de noviembre de 2025; Jiawei Zhang, Shuang Yang, Bo Li), que introdujo la idea central: un agente LLM «razona o planifica extensamente antes de ejecutar sus acciones finales», de modo que la propia traza de razonamiento es un punto donde un atacante puede dirigir al modelo. En conjunto, ambos trabajos transmiten un único mensaje a los defensores: la cadena de razonamiento y la memoria forman parte de la superficie de ataque, no son internos neutros.

Cómo funciona

Esta sección describe la forma de la técnica, no un ataque ejecutable. No se reproduce aquí ningún payload, cadena de activación ni código de optimización; quien quiera el método debe acudir a los artículos.

El mecanismo de UDora, según su resumen, es un bucle:

1. Ejecutar el agente sobre la tarea y capturar su traza de razonamiento.
2. Identificar en esa traza los puntos donde una pequeña perturbación
   inclinaría al agente hacia una acción objetivo (maliciosa).
3. Usar el razonamiento perturbado como objetivo sustituto y optimizar.
4. Iterar hasta que el agente llame a la herramienta / ejecute la acción elegida.

Nunca se le dice al agente «ignora tus instrucciones». En cambio, se inclina su propio razonamiento intermedio para que la llamada de herramienta dañina parezca el siguiente paso natural hacia el que el modelo ya se dirigía.

JailAgent (abril de 2026) generaliza esto y elimina por completo la dependencia de ediciones del prompt. Sus tres etapas, según los autores, son:

Trigger Extraction — localizar las señales, en el contexto o la memoria, en las que el agente se apoya cuando decide actuar.
Reasoning Hijacking — dirigir de forma adaptativa y en tiempo real la trayectoria de razonamiento hacia el objetivo del atacante, en lugar de con una plantilla fija.
Constraint Tightening — estrechar el espacio de opciones del agente mediante una función objetivo optimizada, de modo que la acción insegura se convierta en el camino de menor resistencia.

Los autores informan de que esto se transfiere entre modelos y escenarios. El mecanismo importa más que cualquier cifra aislada: como la manipulación vive en la ruta razonamiento-memoria, una barrera que solo inspecciona el prompt puede dar por limpia la entrada y aun así ver al agente pasar a la acción.

Por qué importa

De aquí se derivan dos consecuencias prácticas.

Primero, los clasificadores de entrada no son un control completo. Una defensa que puntúa el mensaje del usuario y el texto recuperado en busca de contenido «de tipo instrucción» puede devolver un veredicto limpio mientras el compromiso ocurre durante la planificación. Esto coincide con los resultados teóricos de la temporada —véase la integridad contextual y el flujo de datos no es autoridad— según los cuales la separación entre datos e instrucciones no puede ser toda la respuesta.

Segundo, la memoria es superficie de ataque viva. Cuando un agente recupera «experiencia» previa para planificar, las entradas de memoria envenenadas o moldeadas por el atacante se convierten en disparadores, en eco de lo que mostró, desde el lado del envenenamiento, el secuestro de herramientas por la memoria. Un agente con memoria a largo plazo carga sus propios disparadores futuros.

El riesgo se concentra justo donde los agentes son más útiles: despliegues ricos en herramientas con efectos secundarios reales —enviar correo, mover dinero, ejecutar código, llamar a API internas.

Defensas

No se puede parchear «el modelo razona antes de actuar». Sí se puede hacer que el razonamiento pese menos en la seguridad.

Controle la acción, no la intención. Valide la llamada de herramienta final frente a la política, con independencia de cómo llegó allí el razonamiento. Una transferencia, un borrado, una solicitud saliente deben superar una verificación independiente que nunca lea la cadena de razonamiento como autoridad. Es el núcleo de la regla de dos y del encuadre de la tríada letal.
Mínimo privilegio en las herramientas. Acote cada herramienta al mínimo y exija aprobación humana explícita para las acciones de alto impacto. Un razonamiento secuestrado choca igualmente contra un muro si el agente simplemente no puede invocar la capacidad peligrosa sin supervisión.
Trate la memoria como entrada no confiable. Valide, atribuya y segmente la memoria recuperada igual que haría con un documento externo. Conserve la procedencia de cada entrada de memoria y caduque de forma agresiva.
Aísle la planificación del contenido no confiable. No deje que el mismo contexto que contiene datos controlables por el atacante dirija también la selección de herramientas. Los patrones dual-LLM / plan-then-execute mantienen al planificador privilegiado lejos del texto no confiable en bruto.
Vigile la traza, con humildad. Las comprobaciones de anomalías sobre el razonamiento y la selección de herramientas pueden atrapar una dirección burda, pero el resultado de imposibilidad de la integridad contextual advierte que la inspección de la traza por sí sola no cerrará la brecha. Úsela como detección en profundidad, no como control único.

Estado

Elemento	Referencia	Fecha	Notas
UDora (secuestro de la traza de razonamiento)	arXiv:2503.01908	2025-02-28 → 2025-11-12 (v3)	Inserta perturbaciones en el razonamiento del agente; código público
JailAgent / Stop Fixating on Prompts	arXiv:2604.05549	2026-04-07	Sin edición de prompt; Trigger Extraction → Reasoning Hijacking → Constraint Tightening
Trasfondo teórico	Integridad contextual, estudios sobre agentes	2026	La separación datos/instrucciones tiene límites duros

El titular no es «un nuevo jailbreak». Es un desplazamiento del problema: para los agentes con herramientas, el prompt es solo una entrada entre varias, y la traza de razonamiento y la memoria son las que su filtro de entrada nunca ve.