PROMPT INJECTION MEDIUM NEW

ASPI: pedir aclaración amplía la superficie de inyección

Un benchmark de arXiv del 17 de mayo de 2026 muestra que cuando un agente se detiene a pedir una aclaración al usuario, el éxito de la inyección sube de menos del 2 % a más del 34 % en o3 y Gemini-3-Flash.

2026-06-03 // 6 min affects: o3, gemini-3-flash, llm-agents

¿Qué es esto?

El 17 de mayo de 2026, un equipo de Scale AI (Udari Madhushani Sehwag, Zhengyang Shan, Heming Liu, Dileepa Lakshan, Joseph Brandifino y Max Fenkell) publicó ASPI: Seeking Ambiguity Clarification Amplifies Prompt Injection Vulnerability in LLM Agents en arXiv (2605.17324, cs.CR). El hallazgo incomoda porque señala un comportamiento que todo el sector considera buena práctica: ante una tarea poco especificada, un agente bien diseñado debe detenerse y preguntar al usuario qué quería decir antes de actuar.

ASPI — Ambiguous-State Prompt Injection — es un benchmark de 728 escenarios tarea-ataque que aísla el estado «pedir aclaración» como un estado distinto del agente y mide si entrar en ese estado cambia la facilidad con que se secuestra al agente. La respuesta, en diez modelos de frontera, es sí, y de forma marcada. Los datos y el arnés son públicos en github.com/scaleapi/aspi.

Cómo funciona

El benchmark compara el mismo escenario en dos configuraciones emparejadas. En la configuración de ejecución, el agente recibe una instrucción totalmente especificada y solo encuentra contenido adversario de forma indirecta, a través de los datos que devuelve una herramienta. En la configuración de aclaración, la instrucción está poco especificada: el agente debe primero formular una pregunta al usuario e incorporar la respuesta a su plan antes de actuar. Todo lo demás se mantiene constante —misma tarea, mismo contenido inyectado, mismas herramientas— de modo que cualquier diferencia en el éxito es atribuible a la propia transición de estado.

Setting          Agent flow                                    Adversarial entry point
---------------  --------------------------------------------  -----------------------------
Execution        instruction -> act -> tool data               tool-returned content
Clarification    instruction -> ASK USER -> incorporate -> act  clarification interface + data

La brecha medida es grande. El éxito de ataque sube del 1,8 % al 34,0 % en o3 y del 2,2 % al 35,7 % en Gemini-3-Flash, con el mismo sentido del efecto en el resto de los diez modelos probados. Un análisis de descomposición divide la causa en dos. Hay un desplazamiento dependiente del estado: una vez en modo «estoy resolviendo una ambigüedad», el modelo procesa el contenido entrante con mayor credulidad, tratando el texto con apariencia de instrucciones como algo que ejecutar en lugar de datos que escrutar. Y hay un efecto específico del canal: la respuesta de aclaración es una segunda vía de entrada, solicitada por el agente, que llega prevalidada como «el usuario respondiendo a mi pregunta» —una frontera más débil que la salida de herramienta, de la que el agente ya desconfía—. El artículo se detiene a propósito en caracterizar la superficie; entrega un benchmark, no un payload armado.

Por qué importa

La mayoría de las evaluaciones de seguridad de agentes se ejecutan en la configuración de ejecución —tarea totalmente especificada, un único canal adversario— y la tesis central de ASPI es que esto subestima sistemáticamente la superficie de ataque real de los agentes interactivos. La robustez en una tarea limpia y totalmente especificada no se transfiere a la robustez una vez que el agente entabla un ida y vuelta con el usuario, que es justamente el modo en el que los asistentes en producción pasan buena parte de su tiempo.

Esto conecta con un tema que recorre la literatura de seguridad de agentes de junio de 2026: los agentes son frágiles precisamente en sus costuras de interacción. El resumen de Adversa AI del 1 de junio de 2026 agrupa ASPI junto a trabajos que sostienen que la separación entre datos e instrucciones puede ser intrínsecamente difícil. La lectura práctica: los turnos de aclaración son un canal privilegiado, y todo canal privilegiado que un atacante pueda influir se convierte en objetivo. Si el contenido inyectado puede moldear la pregunta que se hace al usuario, o colarse en lo que el usuario pega de vuelta, el agente lo encuentra en su estado más sugestionable.

Defensas

Cuatro mitigaciones se derivan directamente del enfoque del artículo, aunque ASPI no prescribe ninguna.

Evalúe los agentes en el estado de aclaración, no solo en ejecución. Añada variantes de tareas poco especificadas a su suite de red team. Un modelo que aprueba un benchmark de inyección totalmente especificado puede fallar en pleno diálogo, y no lo verá en un ranking de «solo ejecución».
Trate la respuesta de aclaración como entrada no confiable. La respuesta del usuario no es un canal de control confiable solo porque el agente la haya solicitado. Sométala al mismo filtrado de instrucciones, etiquetado de procedencia y comprobaciones de política que aplica a la salida de herramienta.
Mantenga fija la política de acción a través de las transiciones de estado. Las decisiones de alcance, acceso a herramientas e irreversibilidad no deben relajarse porque el agente pase a modo «resolución de ambigüedad». Reconfirme las acciones de alto impacto frente al objetivo original, anterior a la aclaración.
Prefiera una aclaración acotada al texto libre. Cuando sea viable, resuelva la ambigüedad con opciones limitadas (elegir uno de N) en lugar de una respuesta abierta capaz de transportar instrucciones, estrechando el canal que el artículo identifica.

Estado

Elemento	Referencia	Fecha	Notas
Artículo ASPI	arXiv:2605.17324 (cs.CR, cs.AI)	2026-05-17	728 escenarios, 10 modelos de frontera, ejecución vs. aclaración emparejadas
Resultado principal	o3 1,8 % → 34,0 %; Gemini-3-Flash 2,2 % → 35,7 %	2026-05-17	El estado de aclaración amplifica el éxito de los ataques
Datos + arnés	github.com/scaleapi/aspi	2026-05	Benchmark público reproducible
Contexto	Resumen de seguridad agéntica de Adversa AI	2026-06-01	Clasifica ASPI entre las vulnerabilidades de agentes

ASPI no describe un fallo parcheable en un producto; describe una propiedad de cómo los agentes actuales gestionan un estado en el que están diseñados para entrar a menudo. La conclusión útil es concreta y accionable: si su agente alguna vez pregunta a un usuario «¿qué quería decir?», sus pruebas de seguridad deben devolverle esa misma pregunta.