sistema: OPERATIVO
← volver a todos los hacks
RESEARCH LOW NEW

CyBiasBench: los agentes LLM ofensivos repiten siempre los mismos ataques

Un benchmark de mayo de 2026 registró 630 sesiones de ataque y constató que los agentes LLM en escenarios cíber ofensivos se concentran en un subconjunto reducido de familias de ataque, sin importar el prompt. Es el sesgo, no la habilidad, lo que decide qué intentan.

2026-06-03 // 6 min affects: llm-coding-agents, autonomous-offensive-agents

¿Qué es esto?

CyBiasBench es un benchmark publicado en mayo de 2026 (arXiv 2605.07830) que plantea una pregunta acotada pero útil: cuando se lanza un agente LLM contra un objetivo y se le pide que ataque, ¿qué intenta realmente? — y ¿depende eso del prompt o del propio agente?

Los autores ejecutaron 630 sesiones de ataque, enfrentando cinco agentes a tres objetivos bajo cuatro condiciones de prompt, y observaron cómo cada agente distribuía su esfuerzo entre diez familias de ataque. El hallazgo principal resulta incómodo para quien modela a los atacantes asistidos por IA como generalistas flexibles: cada agente se concentra en un subconjunto reducido de familias de ataque, y ese subconjunto apenas se mueve al cambiar el prompt. Los agentes tienen un estilo propio. Recurren a las mismas técnicas, encajen o no con el objetivo.

Es un estudio de medición, no un exploit. Informa a los defensores sobre el comportamiento de los agentes ofensivos, exactamente el tipo de hallazgo que ayuda a anticiparlos.

Cómo funciona

La metodología es deliberadamente anodina, y eso le da credibilidad. En lugar de fiarse de la narración del agente sobre lo que hizo, CyBiasBench registra el tráfico HTTP en bruto que genera cada agente y clasifica cada petición con un clasificador determinista basado en el OWASP Core Rule Set (CRS). Cada petición se asigna a una familia de ataque —la misma taxonomía que usa un firewall de aplicaciones web—, de modo que la medición es reproducible e independiente de lo que el agente declara de sí mismo.

Con cada petición etiquetada, el equipo midió dos cosas por agente: cómo reparte su esfuerzo entre las diez familias (la distribución de asignación por familia, resumida por su entropía) y cómo responde ese reparto cuando el prompt lo dirige explícitamente hacia otra familia.

Surgieron dos patrones:

  • Sesgo explícito. Los agentes difieren en su familia de ataque dominante y en la entropía de su asignación. Algunos se dispersan; otros se colapsan casi por completo sobre una o dos familias. La familia dominante es una propiedad del agente, no del escenario.
  • Inercia del sesgo («bias momentum»). Cuando el prompt empuja a un agente hacia una familia que diverge de su preferencia libre, el agente se resiste. El direccionamiento funciona peor justo donde más se necesitaría: al intentar apartar al agente de su técnica favorita.

Es clave que el artículo señala que el sesgo se caracteriza mejor como un rasgo del agente que como un motor del éxito del ataque. La familia preferida de un agente no es necesariamente la más eficaz. La fijación es conductual, no estratégica: el agente no se concentra porque funcione, sino porque es lo que hace.

Por qué importa

Si construye modelos de amenaza para la intrusión asistida por IA, la suposición intuitiva es que un agente LLM explora toda la superficie de ataque —un generalista incansable que lo prueba todo—. CyBiasBench dice lo contrario para los agentes evaluados: se comportan más como un operador junior con unos pocos movimientos favoritos, de los que cuesta apartarlos.

Esto tiene dos consecuencias. Para los defensores, los atacantes predecibles son una buena noticia: si un agente dado se apoya de forma fiable en un pequeño conjunto de familias, el tráfico que produce es más identificable que el de un red teamer humano, y una detección calibrada para esas familias captura una parte desproporcionada de su actividad. Para los red teams y evaluadores, es una advertencia: un único agente listo para usar no proporciona cobertura amplia. Si su evaluación asistida por IA se apoya en un solo agente, hereda sus puntos ciegos, y «el agente no encontró nada» informa sobre el sesgo del agente, no sobre la exposición de su objetivo. Esto conecta con hallazgos previos sobre cómo el red teaming agéntico comprime los plazos sin ampliar necesariamente la cobertura.

También complica el diseño de benchmarks. Una clasificación que evalúa agentes ofensivos sobre una sola distribución de objetivos puede premiar a un agente cuya familia favorita coincide con la prueba, y penalizar a uno más equilibrado: mide el ajuste, no la capacidad. En parte por eso importan meta-benchmarks como CAIBench y suites de tareas como Cybench: la capacidad debe leerse a través de muchos escenarios antes de poder separarla del sesgo.

Defensas

Esto es investigación, así que las «defensas» consisten en aprovechar el hallazgo más que en parchear un agujero.

  1. Perfile a los agentes, no solo a los ataques. Si los adversarios usan agentes conocidos, construya la detección en torno a las familias de ataque dominantes de cada agente. El tráfico categorizado por CRS en CyBiasBench es reproducible: puede caracterizar el estilo propio de un agente en su laboratorio y convertirlo en un a priori para WAF/IDS.

  2. No equipare «un agente quedó limpio» con «estamos seguros». La cobertura de un solo agente está limitada por su sesgo. Ejecute varios agentes arquitectónicamente distintos en cualquier evaluación asistida por IA y compare sus distribuciones de asignación para estimar la superficie que ninguno tocó.

  3. Trate la baja entropía de asignación como un hueco de cobertura, no como un resultado. Si su agente de red team dedicó el 80 % de sus peticiones a una sola familia, las familias ignoradas no están auditadas: programe allí un seguimiento humano o con un agente de sesgo distinto.

  4. Registre el tráfico en bruto, clasifique de forma determinista. El método central del estudio —capturar HTTP, clasificar con OWASP CRS, ignorar la autodeclaración del agente— es una forma barata y neutral de auditar lo que sus agentes hacen realmente frente a lo que afirman. Los registros de ataque autodeclarados no son prueba.

  5. Incorpore el sesgo a sus modelos de amenaza. Al estimar el comportamiento de un atacante asistido por IA, modele a un operador sesgado con inercia, no a uno omnisciente. El atacante realista a corto plazo sobreutiliza unas pocas técnicas y se resiste a la reorientación, lo que hace su tráfico de fase inicial más ruidoso y más capturable que el de un humano experto.

Estado

ElementoReferenciaFechaNotas
Artículo CyBiasBencharXiv 2605.078302026-05630 sesiones, 5 agentes, 3 objetivos, 4 condiciones de prompt, 10 familias de ataque
Método de clasificaciónOWASP Core Rule SetEtiquetado determinista por familia de ataque a partir del HTTP en bruto
Hallazgo claveSesgo de selección de ataque + «inercia del sesgo»; el sesgo es un rasgo del agente, no un motor del éxito
Cobertura relacionadaCAIBench, Cybench2024–2025Benchmarks multiescenario para separar capacidad y ajuste

La conclusión, acotada y práctica, es esta: los agentes LLM ofensivos de hoy no son los generalistas omniscientes que a menudo suponen los modelos de amenaza. Tienen hábitos, esos hábitos son medibles, y los hábitos medibles son defendibles. Perfile al agente, ejecute varios y observe lo que su tráfico hace de verdad, no lo que sus registros afirman.

Sources