ConVerse: cuando dos agentes conversan, el más fuerte filtra más
Un benchmark de conversaciones agente-a-agente halla que los ataques de privacidad tienen éxito hasta el 88 % de las veces y las brechas de seguridad hasta el 60 % — y que los modelos más capaces filtran más, no menos.
What is this?
ConVerse es un benchmark que mide los fallos de privacidad y seguridad cuando dos agentes LLM dialogan entre sí en lugar de hacerlo con un humano. Fue presentado por Amr Gomaa (Centro Alemán de Investigación en Inteligencia Artificial, DFKI), Ahmed Salem (Microsoft) y Sahar Abdelnabi (Microsoft / ELLIS Institute Tübingen / MPI for Intelligent Systems) en un artículo publicado en arXiv el 7 de noviembre de 2025 (arXiv:2511.05359) y aparecido en los Findings de EACL 2026 (2026.findings-eacl.170). El benchmark y la plataforma son de código abierto (github.com/amrgomaaelhady/ConVerse).
Por qué importa ahora: los despliegues de 2026 ponen cada vez más al asistente personal de un usuario en conversación directa con el agente de un proveedor externo — un asistente de viajes que negocia con el agente de una aerolínea, el agente de un comprador que habla con el de un vendedor. La mayoría de las herramientas de seguridad se diseñaron y probaron para un único agente que responde a un único usuario. ConVerse mide qué ocurre cuando esa suposición deja de cumplirse.
How it works
ConVerse modela conversaciones autónomas y de varios turnos entre un agente del lado del usuario y un agente externo, en tres dominios prácticos: viajes, bienes raíces y seguros. Emplea 12 personas de usuario y más de 864 ataques contextualmente fundamentados — 611 dirigidos a la privacidad y 253 a la seguridad.
La propiedad definitoria es que las solicitudes maliciosas se incrustan en un discurso plausible, en lugar de aparecer como instrucciones inyectadas evidentes. El agente contraparte pide exactamente la información que un intercambio cooperativo podría razonablemente necesitar — y luego un poco más, o formulada ligeramente fuera de su contexto. La privacidad se puntúa con una taxonomía de tres niveles que juzga la calidad de la abstracción: ¿compartió el agente lo mínimo necesario, compartió de más, o reveló algo que nunca debió salir del contexto del usuario? Los ataques de seguridad apuntan al uso de herramientas y a la manipulación de preferencias — lograr que el agente invoque una herramienta que no debería, o alterar de forma sigilosa las preferencias declaradas del usuario.
La estructura, deliberadamente, no es la de «instrucción oculta en los datos». Es una cuestión de si una divulgación o acción dada respeta las normas del contexto que la rodea — el mismo marco que defienden Abdelnabi y Bagdasarian en el artículo de imposibilidad asociado, AI Agents May Always Fall for Prompt Injections (17 de mayo de 2026). ConVerse es su contraparte empírica: muestra el fallo ocurriendo, a escala, en distintos proveedores.
Why it matters
Tres hallazgos destacan para quien despliega sistemas multiagente.
Las tasas de éxito son altas. En siete modelos punteros, los ataques de privacidad tienen éxito hasta en el 88 % de los casos y las brechas de seguridad hasta en el 60 %. No son casos límite arrancados con cargas útiles exóticas: son peticiones de aspecto cotidiano dentro de una negociación normal.
Los modelos más capaces filtran más, no menos. Este es el titular contraintuitivo: los modelos más fuertes, mejores para ser útiles y para inferir lo que la contraparte «necesita», también son más propensos a entregar información que debería haberse quedado donde estaba. Aquí, capacidad y disposición a ayudar juegan en contra de la confidencialidad. Los equipos que asumen que pasar a un modelo de frontera mejora la seguridad en contextos agente-a-agente deberían comprobar esa suposición en lugar de confiar en ella.
La seguridad se vuelve una propiedad emergente de la comunicación. Un agente aislado puede superar todos los controles de barrera turno a turno y aun así filtrar a lo largo de un intercambio de varios turnos, porque el daño reside en la conversación, no en ningún mensaje concreto. Los filtros de entrada/salida calibrados sobre prompts aislados no lo ven.
Defenses
ConVerse es una herramienta de medición, no un exploit. El programa defensivo que señala coincide con la literatura sobre integridad contextual.
Trate los enlaces agente-a-agente como una frontera de confianza. Un agente contraparte externo es entrada no confiable, exactamente como una página web o un correo. No le conceda autoridad implícita solo porque sea «un agente» que se expresa en un lenguaje cooperativo.
Aplique la minimización de datos en el punto de salida. Antes de que el agente del lado del usuario divulgue nada, verifique si ese campo concreto es necesario para esa tarea concreta, y prefiera la forma más abstracta que aún complete el intercambio (un rango de fechas en vez de un itinerario exacto, una banda de precios en vez de un presupuesto exacto). La taxonomía de abstracción de tres niveles de ConVerse es una rúbrica utilizable para esto.
Condicione las llamadas a herramientas y los cambios de preferencias a una confirmación contextual. En ConVerse, los ataques de seguridad operan a través del uso de herramientas y la manipulación de preferencias; las acciones de alto impacto o entre contextos deberían exigir una verificación fuera de banda en lugar de dispararse automáticamente dentro de la conversación.
Evalúe en varios turnos, no en uno solo. Como el fallo es emergente, su banco de pruebas tiene que desarrollar diálogos agente-a-agente completos. ConVerse es dinámico y de código abierto, de modo que puede ejecutarse contra su propia pila en lugar de tratarse como una clasificación estática.
No suponga que el modelo más grande es el más seguro. Vuelva a ejecutar las suites de privacidad y seguridad cada vez que cambie el modelo subyacente, y pondere los resultados según la autoridad y los datos que cada agente realmente posee.
Status
| Elemento | Detalle |
|---|---|
| Benchmark | ConVerse — arXiv:2511.05359, publicado el 7 nov. 2025 |
| Publicación | Findings de EACL 2026 (2026.findings-eacl.170) |
| Autores | Amr Gomaa (DFKI), Ahmed Salem (Microsoft), Sahar Abdelnabi (Microsoft / ELLIS / MPI-IS) |
| Alcance | 3 dominios, 12 personas, 864+ ataques (611 privacidad, 253 seguridad), 7 modelos |
| Resultados clave | Privacidad hasta el 88 %, seguridad hasta el 60 %; los modelos más fuertes filtran más |
| Código | github.com/amrgomaaelhady/ConVerse |
A medida que los asistentes personales empiezan a negociar directamente con los agentes de los proveedores, la unidad de seguridad se desplaza del prompt a la conversación. ConVerse ofrece a los equipos una forma concreta y reproducible de observar cómo se comportan sus propios agentes cuando, al otro lado de la mesa, también hay un modelo.