sistema: OPERATIVO
← volver a todos los hacks
DEFENSE MEDIUM NEW

La tríada letal ya es la norma: defienda a los agentes en tiempo de ejecución

La tríada letal antes señalaba agentes de riesgo. A mediados de 2026 describe a todo agente útil, así que evitarla por arquitectura ya no basta. La defensa se traslada a cinco señales de comportamiento en ejecución.

2026-06-18 // 6 min affects: ai-agents, microsoft-365-copilot, notion-ai, claude-cowork, superhuman-ai

¿Qué es esto?

En junio de 2025, Simon Willison nombró la «tríada letal»: un agente que tiene a la vez acceso a datos privados, exposición a contenido no confiable y capacidad de comunicarse hacia el exterior constituye una vía de exfiltración casi garantizada mediante inyección de prompt indirecta. Lo tratamos en La tríada letal. Un año después, un análisis de CSO del 15 de junio de 2026 del investigador Ax Sharma lleva el argumento más lejos: la tríada ha dejado de ser una señal de riesgo elevado, porque ahora describe el funcionamiento básico de prácticamente todo agente que se despliega de verdad. Cuando una señal de alerta está presente en el 100 % de los despliegues, ya no distingue nada. La pregunta defensiva se desplaza, pues, de «¿mi agente presenta la tríada?» a «¿cómo distingo un agente-tríada comprometido de uno sano?» — un problema de ejecución, no de arquitectura.

Cómo funciona

El razonamiento es simple. Un agente de soporte lee fichas de clientes (datos privados), ingiere mensajes y adjuntos (contenido no confiable) y llama a CRM o API de reembolsos (comunicación externa). Un asistente de correo lee tu bandeja, procesa mensajes de desconocidos y envía respuestas. Quite una sola pata y el agente se vuelve, en palabras de Sharma, «más parecido a una caja de búsqueda que a un agente». El CISO de Sophos, Ross McKerchar, hacía la misma observación en una publicación de mayo de 2026, hablando del «costo arquitectónico de la utilidad». La Regla de Dos de Meta —que cubrimos en Agents Rule of Two— intenta limitar los agentes a dos de las tres propiedades por sesión, pero la propia sección de limitaciones de Meta reconoce que muchos casos de uso deseados no encajarán, y que diseños conformes «aún pueden ser propensos a fallar».

La evidencia ya está aquí. Según el informe de Breached.Company, entre el 7 y el 15 de enero de 2026, cuatro asistentes en producción —IBM Bob, Superhuman AI, Notion AI y Claude Cowork de Anthropic— filtraron datos mediante inyección de prompt indirecta. En el caso de Cowork, una instrucción oculta en un documento subido dirigió al agente a exfiltrar archivos a través de un dominio de API en lista blanca: invisible para los controles perimetrales e indistinguible de un comportamiento normal hasta que los datos ya se habían ido.

Por qué importa

Si la tríada es ya el mínimo, los controles de perímetro y de arquitectura no pueden por sí solos detectar el compromiso, porque nada estructural separa la acción maliciosa de la legítima. Un agente comprometido no se comporta de forma anómala: sigue instrucciones, que es su función. Lo que cambia es de quién son las instrucciones, y eso solo se hace visible en el nivel de las acciones reales del agente en ejecución. Este replanteamiento importa a quien dimensiona su detección: el presupuesto va a la observabilidad de agentes y a la telemetría de comportamiento, no solo a la revisión de diseño previa.

Defensas

El análisis de CSO reduce la detección a cinco señales de ejecución. Trátelas como el equivalente EDR/SIEM para agentes —instrumentación que a la mayoría de los despliegues todavía les falta—:

  • Anomalías en el seguimiento de instrucciones. Marque acciones sin vínculo plausible con la tarea del usuario —por ejemplo, una petición de «resume este informe» que dispara una solicitud saliente a un dominio desconocido—. El contenido ingerido se lo ordenó.
  • Secuencias de llamadas a herramientas que rompen la topología esperada. Un agente de código que corrige un fallo debería tocar archivos, pruebas y documentación, no API de correo o calendario. Marque las llamadas transversales aunque cada una parezca legítima por separado. Véase intercepción de llamadas a herramientas en ejecución.
  • Exfiltración por canales de bajo ancho de banda. URL de imágenes codificadas, datos metidos en parámetros de API, enlaces en documentos generados. La detección exige correlacionar los datos a los que el agente tuvo acceso con lo que incluyó en su salida: visibilidad de extremo a extremo, no solo la respuesta final. Véase egreso silencioso.
  • Acceso a credenciales fuera del alcance de la tarea. Un agente que corrige un fallo de renderizado no tiene motivo para leer credenciales en la nube. El mínimo privilegio es el control arquitectónico; vigilar el acceso a secretos fuera de alcance es la capa de detección que atrapa sus fallos.
  • Anomalías de escritura en memoria. La memoria persistente permite que una entrada envenenada lleve instrucciones-disparador latentes entre sesiones. Audite las escrituras en memoria que contengan texto tipo instrucción, o que ocurran en sesiones que ingirieron contenido no confiable. Véase envenenamiento de la memoria del agente.

Ninguna de estas señales sustituye al mínimo privilegio ni a la aprobación humana para acciones de alto riesgo: son la capa de detección que asume que esos controles fallarán a veces.

Estado

ElementoDetalle
ConceptoTríada letal (Willison, junio de 2025)
Afirmación nuevaLa tríada = configuración por defecto de los agentes desplegados (CSO, 15 jun. 2026)
Evidencia4 asistentes filtraron por inyección, 7–15 ene. 2026 (Breached.Company)
Respuesta arquitectónicaRegla de Dos de Meta (oct. 2025); reducción del radio de impacto, Sophos (mayo 2026)
Postura recomendadaDetección de comportamiento en ejecución sobre 5 señales

La lección duradera: un control que todos disparan no es un control. A medida que los agentes convergen hacia la tríada por diseño, los defensores deben dejar de tratarla como una barrera y empezar a instrumentar lo que el agente hace en ejecución, porque el próximo compromiso se verá exactamente como trabajo normal, hasta que los datos ya se hayan ido.

Sources