sistema: OPERATIVO
← volver a todos los hacks
AGENTS MEDIUM NEW

AIRQ evalúa 100 agentes de IA en producción: el 98 % acumula la tríada letal

El AI Risk Quadrant de Adversa AI (junio de 2026) puntúa 100 agentes comerciales por superficie de ataque, radio de impacto y defensas. Solo el 11 % está bien defendido; la ejecución de herramientas explica por sí sola el 76 % del radio de impacto.

2026-06-04 // 7 min affects: claude-code, github-copilot, openai-codex, openclaw

¿Qué es esto?

En junio de 2026, Adversa AI publicó el AI Risk Quadrant (AIRQ), una evaluación independiente que puntúa 100 agentes de IA comerciales y de acceso público en diez clases. La metodología se construyó con colaboradores y revisores procedentes de OWASP, CoSAI, la Cloud Security Alliance y el NIST; tanto el marco como el informe se publican de forma abierta y gratuita. Según Help Net Security el 3 de junio de 2026, se presenta como la primera calificación de seguridad comparativa para productos agénticos: el referente neutral que faltaba a los compradores.

La conclusión principal es contundente: el 98 % de los agentes evaluados ya acumula la «tríada letal», y solo el 11 % es a la vez muy capaz y está bien defendido. Lo cubrimos porque convierte una advertencia arquitectónica conocida en cifras medidas y comparables, justo el artefacto que un equipo de seguridad puede llevar a una revisión de compra.

Cómo funciona

AIRQ es un marco de puntuación, no un ataque. Califica cada agente en tres ejes independientes más una capa de evidencia:

Eje                   Pregunta que responde
--------------------  -----------------------------------------------
Superficie de ataque  ¿Qué grado de exposición tiene el agente en sus
                      rutas de entrada y de ejecución?
Radio de impacto      ¿Qué tan grave es una compromisión: a qué datos
                      y acciones llega el agente?
Controles defensivos  ¿Qué detiene realmente un ataque: identidad
                      restringida, aislamiento de ejecución, puntos
                      de aprobación?
Capa de evidencia     ¿Qué solidez tiene la prueba pública de cada
                      control declarado? (código fuente / auditoría
                      externa > ficha del proveedor)

Cruzar superficie de ataque y defensa produce el cuadrante homónimo: amplio alcance con defensa débil = Exposed Giant; amplio alcance con defensa equivalente = Fortified Leader; estrecho y bien protegido = Tight Operator; estrecho y poco protegido = Humble Provider. La cuarta capa es lo que la mayoría de las puntuaciones omite, y es relevante, porque el informe determina que el 83 % de las defensas declaradas no son verificables públicamente. AIRQ puntúa por separado la afirmación y la prueba: una página de marketing no puede hacerse pasar por un control probado.

La «tríada letal» presente en el 98 % de la muestra es la combinación de acceso a datos privados, exposición a contenido no confiable y capacidad de realizar acciones salientes. Cuando esos tres elementos coinciden, un solo documento envenenado —el patrón de la inyección de prompt indirecta— puede volver a un agente contra su operador en todos los sistemas que alcanza. Ocho de las diez clases de agentes muestran 100 % de exposición a la tríada.

Por qué importa

El valor del informe reside en su cuantificación. Una variable domina: si un agente ejecuta herramientas, y si esa ejecución está aislada en una sandbox, explica el 76 % del radio de impacto, superando a la clase de agente, la reputación del proveedor y cada control defensivo por separado. El triaje se abarata: haga estas dos preguntas antes de leer ninguna presentación.

La distribución preocupa. El cuarenta por ciento de los agentes cae en el cuadrante Exposed Giants, que según el informe concentra el 60 % del presupuesto total de riesgo. Capacidad y defensa avanzan en sentidos opuestos en la mayor parte del mercado: los agentes de código ocupan el segundo puesto en capacidad pero el octavo en defensa, y los agentes de uso de ordenador registran una puntuación media de salvaguardas de salida de cero (ningún punto por validación de salida, bloqueo de canales de exfiltración o saneamiento del renderizado). Peor aún: estos agentes de alto riesgo suelen ser las herramientas de autoservicio, de adopción ascendente, que eluden por completo los procesos de compra.

La auditoría no es defensa. El informe señala que el 37 % de los agentes registra bien pero puntúa mal en los cuatro controles que realmente previenen el daño, y que el 38 % completa acciones irreversibles antes de que cualquier vía de monitorización pueda activarse. Un registro que se dispara después de una acción irreversible es análisis forense, no protección.

Defensas

AIRQ funciona también como lista de verificación defensiva. Sus listas de factores se corresponden con las guías de NIST, OWASP, MITRE, CoSAI y CSA, por lo que sirven como cuestionario de compra y como ayuda para delimitar un ejercicio de red team.

  1. Haga del sandboxing una condición de compra. Un aislamiento documentado y probado reduce el riesgo residual unas 2,6×; el aislamiento a nivel de contenedor o nube alcanza unas . La mayor parte del beneficio proviene del primer paso: exíjalo antes de cualquier despliegue.

  2. Reduzca primero el radio de impacto. Dado que la ejecución de herramientas explica la mayor parte del daño, limite las herramientas que el agente puede invocar, restrinja su identidad con credenciales de corta duración y alcance reducido, y aísle su entorno de ejecución. Una compromisión en un perímetro acotado sigue siendo un resultado de prueba controlado.

  3. Rompa la tríada. Rara vez necesita los tres elementos —acceso a datos privados, ingesta de contenido no confiable y acción saliente— en el mismo contexto. Separe el agente que lee la entrada no confiable del que posee las credenciales o puede actuar hacia el exterior.

  4. Exija evidencia, no fichas técnicas. Con un 83 % de controles declarados no verificables, trate toda afirmación no respaldada como ausente. Pida a los proveedores las respuestas a los factores AIRQ respaldadas por código fuente o auditoría externa.

  5. Controle las acciones irreversibles y revise el flujo de acciones. Coloque una aprobación humana o por política ante todo lo que no se pueda deshacer, y asegúrese de que la monitorización pueda activarse antes de la acción, no después.

  6. Puntúe dos veces y reaudite cada trimestre. Una misma plataforma se puntúa de forma distinta según la entregue el proveedor o la configure el cliente. Revise con un calendario: las categorías con pocos CVE están en fase de predescubrimiento, no a salvo.

Estado

ElementoReferenciaFechaNotas
Informe y marco AIRQAdversa AI2026-06100 agentes, 10 clases; metodología abierta
Prevalencia de la tríada letalAIRQ2026-0698 % de la muestra; 8/10 clases al 100 %
Bien defendidos (Fortified Leaders)AIRQ2026-0611 % de los agentes
Exposed GiantsAIRQ2026-0640 % de la muestra, 60 % del presupuesto de riesgo
Ejecución de herramientas → radio de impactoAIRQ2026-06Explica el 76 % del radio de impacto
Beneficio del sandboxingAIRQ2026-06~2,6× de reducción del riesgo residual; ~6× con aislamiento de contenedor/nube
Defensas sin verificarAIRQ2026-0683 % de las afirmaciones no verificables públicamente
Cobertura independienteHelp Net Security2026-06-03«Solo el 11 % de los agentes en producción supera el listón de seguridad»

La conclusión no es que un producto concreto sea inseguro, sino que el mercado agéntico ha desplegado capacidad muy por delante de la contención, y que ahora existe una forma pública y reproducible de medir la brecha. Trate al agente (no al modelo subyacente) como la unidad de riesgo, compare dentro de una misma clase y haga del sandboxing y de los controles verificados el precio del despliegue.

Sources