sistema: OPERATIVO
← volver a todos los hacks
RESEARCH MEDIUM NEW

Proprietary Problems: el estudio de Cisco con 15 modelos cerrados muestra que las puntuaciones de seguridad de un solo turno pasan por alto la mayor parte del riesgo multiturno

Un estudio de Cisco del 27 de mayo de 2026 sobre 15 modelos insignia cerrados de OpenAI, Anthropic, Google, Amazon y xAI mide tasas de éxito de ataque multiturno entre el 7,89 % y el 88,30 %, con brechas de hasta 55 puntos respecto al régimen de un solo turno.

2026-05-29 // 8 min affects: gpt-5.2, gpt-5.4, claude-opus-4.5, claude-opus-4.6, claude-sonnet-4.5, claude-sonnet-4.6, claude-haiku-4.5, gemini-3-pro, nova-lite, nova-micro, nova-2-lite, grok-4.1-fast

¿De qué se trata?

El 27 de mayo de 2026, Nicholas Conley y Amy Chang, del equipo de AI Defense de Cisco, publicaron Proprietary Problems: No Frontier Model Is Multi-Turn Immune, junto con un informe completo descargable. El estudio evalúa 15 modelos insignia cerrados y propietarios: OpenAI (GPT-5.2 y la familia GPT-5.4), Anthropic (Claude Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5), Google (Gemini 3 Pro), Amazon (Nova Lite, Nova Micro, Nova 2 Lite) y xAI (Grok 4.1 Fast, en configuraciones de razonamiento y no razonamiento), bajo un protocolo emparejado de un turno frente a varios turnos. Amplía el trabajo previo de Cisco, Death by a Thousand Prompts (noviembre de 2025), centrado en ocho modelos de pesos abiertos.

El hallazgo es estructural: las cifras publicadas de tasa de éxito de ataque (ASR) en un solo turno —que sustentan tarjetas de modelo, informes de seguridad y decisiones de compra— no son un indicador fiable de lo que consigue un atacante adaptativo a lo largo de varios turnos. Todos los modelos de la cohorte fallan ante una fracción no trivial de los ataques multiturno.

Cómo funciona

El banco de pruebas lanza un corpus fijo contra cada modelo en condiciones idénticas: 30 090 prompts de un solo turno (2 006 por modelo) y 6 986 ataques multiturno repartidos en 1 456 conversaciones. Las estrategias de ataque se agrupan en cinco familias que reflejan cómo iteran los adversarios reales: Role-Play / Adopción de persona, Ambigüedad contextual / Distracción, Reformulación tras rechazo, Descomposición y recomposición de información, y Crescendo / Escalada incremental. La taxonomía del Cisco Integrated AI Security and Safety Framework se aplica después para los cortes por estrategia.

Las cifras principales se presentan emparejadas, de modo que cada modelo puede leerse en ambos ejes:

ModeloASR un turnoASR multiturnoBrecha
Grok 4.1 Fast (sin razonamiento)alto88,30 %muy amplia
Gemini 3 Pro18,10 %73,35 %+55,25 pts
GPT-5.42,74 %24,68 %~9×
Familia Claude (Opus / Sonnet / Haiku)2,19 % – 3,64 %11,16 % – 16,20 %~4-5×
Grok 4.1 Fast (razonamiento activo)43,47 %
Nova 2 Lite34,05 %7,89 %−34,74 pts

Sobresalen dos patrones. Primero, el orden de los modelos cambia entre regímenes: el mejor en un solo turno puede quedar a media tabla en multiturno, y a la inversa. Ocho de los 15 modelos superan una brecha absoluta de 15 puntos en una u otra dirección. Segundo, la configuración en el momento del despliegue mueve los números decenas de puntos: activar el modo de razonamiento de Grok 4.1 Fast reduce aproximadamente a la mitad su ASR multiturno — un cambio que, según los autores, no aparece documentado en ningún benchmark público ni tarjeta de modelo conocida.

Los fallos se concentran en unas pocas superficies tácticas. Cisco indica un 37,50 % de ASR ponderado en procedimientos Imposter AI, un 29,21 % en Soft Paraphrase y un 27,69 % en System Prompts. En el lado de contenidos, predominan discurso de odio, lenguaje obsceno y consejo especializado.

Por qué importa

El estudio formaliza una intuición que circulaba desde hace dos años en los informes de red team: un alineamiento que aguanta ante un prompt único no aguanta necesariamente bajo presión iterativa. Las cifras de Cisco son coherentes con la literatura académica —especialmente el resultado TrustNLP 2025 de un incremento del 71 % en la vulnerabilidad tras cinco turnos respecto a la evaluación de un solo turno— y con el propio estudio de modelos abiertos de Cisco, donde el ASR multiturno fue de 2× a 10× la línea base y alcanzó el 92,78 % en Mistral Large-2. En conjunto, la vulnerabilidad multiturno parece una propiedad de la frontera actual, no un rasgo asociado a una filosofía de alineamiento concreta o a la disponibilidad de pesos.

Para compras, gobernanza y aseguramiento, la consecuencia práctica es que una tarjeta de modelo con 2,74 % de ASR de un turno no describe el mismo producto que un modelo que sostiene un 24,68 % de ASR multiturno — y sin datos emparejados ambos son indistinguibles. El NIST AI Risk Management Framework, el borrador NIST Cyber AI Profile (IR 8596) y el artículo 15 del Reglamento de IA de la UE piden pruebas de robustez adversarial, pero ninguno especifica todavía el régimen de interacción, la descomposición por estrategia ni el etiquetado del soporte de los cortes que los datos de Cisco sugieren.

Defensas

Cisco traduce los resultados en tres rutinas aptas para procesos de compra, que no exigen herramientas nuevas:

  • Publicar el ASR por familia de estrategia en cada lanzamiento de modelo, junto con la cifra global. El ASR multiturno agregado oculta variaciones útiles por estrategia.
  • Condicionar los despliegues al top-3 de procedimientos y al top-3 de tipos de contenido (Imposter AI, Soft Paraphrase, System Prompts; discurso de odio, lenguaje obsceno, consejo especializado), con un umbral de regresión de 3 puntos calibrado por encima de la mayor semianchura del intervalo de confianza al 95 % de un turno.
  • Someter a revisión manual cualquier modelo con una brecha absoluta superior a 15 puntos entre regímenes. En esta cohorte, la regla activa ocho de los 15 modelos, incluidos GPT-5.4, Gemini 3 Pro, las dos configuraciones de Grok y las tres variantes de Nova.

A nivel de sistema, la conclusión de los autores es que, si ningún modelo base es seguro en régimen iterativo, el perímetro de seguridad debe salir del modelo: barandillas en tiempo de ejecución, monitorización, políticas de aplicación, clasificadores de intención y persona en los turnos siguientes, y red teaming que ejercite explícitamente escaladas tipo Crescendo en lugar de solo prompts aislados.

Estado

Es investigación industrial, no una CVE. No hay parche que aplicar. La señal accionable está en los procesos de evaluación y compra: cualquier benchmark que un proveedor presente a un comprador debería ahora esperarse por pares —un turno y multiturno— y con desglose por familia de estrategia. El LLM Security Leaderboard de Cisco publica señales adversariales sobre modelos de frontera en este formato; el PDF completo de Proprietary Problems incluye intervalos de confianza por modelo y el mapa estrategia × modelo mencionado.

Sources