RESEARCH MEDIUM NEW

Proprietary Problems : l'étude Cisco sur 15 modèles fermés montre que les scores de sûreté en un tour ratent l'essentiel du risque multi-tours

Une étude Cisco publiée le 27 mai 2026, portant sur 15 modèles phares fermés d'OpenAI, Anthropic, Google, Amazon et xAI, mesure des taux de succès d'attaque multi-tours allant de 7,89 % à 88,30 % — et des écarts pouvant atteindre 55 points par rapport au régime mono-tour.

2026-05-29 // 8 min affects: gpt-5.2, gpt-5.4, claude-opus-4.5, claude-opus-4.6, claude-sonnet-4.5, claude-sonnet-4.6, claude-haiku-4.5, gemini-3-pro, nova-lite, nova-micro, nova-2-lite, grok-4.1-fast

De quoi parle-t-on ?

Le 27 mai 2026, Nicholas Conley et Amy Chang, de l’équipe AI Defense de Cisco, ont publié Proprietary Problems: No Frontier Model Is Multi-Turn Immune, accompagné d’un rapport complet téléchargeable. L’étude évalue 15 modèles phares fermés et propriétaires : OpenAI (GPT-5.2 et la famille GPT-5.4), Anthropic (Claude Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5), Google (Gemini 3 Pro), Amazon (Nova Lite, Nova Micro, Nova 2 Lite) et xAI (Grok 4.1 Fast, en mode raisonnement et non-raisonnement), selon un protocole apparié mono-tour / multi-tours. Elle prolonge le précédent travail de Cisco, Death by a Thousand Prompts (novembre 2025), qui portait sur huit modèles à poids ouverts.

Le constat est structurel : les chiffres publiés de taux de succès d’attaque (ASR) en un seul tour — base des fiches modèle, des rapports de sûreté et des décisions d’achat — ne sont pas un indicateur fiable de ce qu’un attaquant adaptatif obtient au fil de plusieurs échanges. Tous les modèles de la cohorte échouent sur une part non triviale des attaques multi-tours.

Comment ça marche

Le banc d’essai envoie un corpus fixe à chaque modèle, dans des conditions identiques : 30 090 prompts mono-tour (2 006 par modèle) et 6 986 attaques multi-tours réparties sur 1 456 conversations. Les stratégies d’attaque sont regroupées en cinq familles qui correspondent à la manière dont les adversaires réels itèrent : Role-Play / Adoption de persona, Ambiguïté contextuelle / Diversion, Reformulation après refus, Décomposition et recomposition d’informations, et Crescendo / Escalade incrémentale. La taxonomie du Cisco Integrated AI Security and Safety Framework est ensuite appliquée pour découper les résultats.

Les chiffres principaux sont présentés en paire, pour pouvoir lire chaque modèle sur les deux axes :

Modèle	ASR mono-tour	ASR multi-tours	Écart
Grok 4.1 Fast (sans raisonnement)	élevé	88,30 %	très large
Gemini 3 Pro	18,10 %	73,35 %	+55,25 pts
GPT-5.4	2,74 %	24,68 %	~9×
Famille Claude (Opus / Sonnet / Haiku)	2,19 % – 3,64 %	11,16 % – 16,20 %	~4-5×
Grok 4.1 Fast (raisonnement activé)	—	43,47 %	—
Nova 2 Lite	34,05 %	7,89 %	−34,74 pts

Deux schémas se détachent. D’une part, l’ordre des modèles change entre les régimes : le mieux noté en mono-tour peut se retrouver au milieu du peloton en multi-tours, et inversement. Huit modèles sur quinze présentent un écart absolu supérieur à 15 points, dans un sens ou dans l’autre. D’autre part, la configuration au moment du déploiement déplace les chiffres de plusieurs dizaines de points : activer le mode raisonnement de Grok 4.1 Fast divise par environ deux son ASR multi-tours — un écart qui, à la connaissance des auteurs, n’est documenté sur aucun benchmark public ni aucune fiche modèle.

Les échecs se concentrent sur quelques surfaces tactiques. Cisco rapporte 37,50 % d’ASR pondéré sur les procédures Imposter AI, 29,21 % sur Soft Paraphrase et 27,69 % sur les System Prompts. Côté contenus, les discours haineux, la grossièreté et les conseils spécialisés dominent.

Pourquoi c’est important

L’étude formalise une intuition qui circulait depuis deux ans dans les comptes-rendus de red team : un alignement qui tient sur un prompt unique ne tient pas nécessairement sous pression itérative. Les chiffres de Cisco sont cohérents avec la littérature académique — notamment le résultat TrustNLP 2025 d’une vulnérabilité accrue de 71 % après cinq tours par rapport à une évaluation mono-tour — et avec la propre étude open-weight de Cisco, où l’ASR multi-tours allait de 2× à 10× au-delà de la ligne de base, jusqu’à 92,78 % sur Mistral Large-2. Pris ensemble, ces résultats donnent l’image d’une vulnérabilité multi-tours qui est une propriété de la frontière actuelle, plutôt qu’un trait d’une philosophie d’alignement ou d’un régime de poids particulier.

Pour l’achat, la gouvernance et l’assurance, la conséquence pratique est qu’une fiche modèle qui affiche 2,74 % d’ASR mono-tour ne désigne pas le même produit qu’un modèle tenant la ligne à 24,68 % d’ASR multi-tours — et qu’en l’absence de données appariées, les deux sont indiscernables. Le NIST AI Risk Management Framework, le projet NIST Cyber AI Profile (IR 8596) et l’article 15 du règlement européen sur l’IA appellent tous à des tests de robustesse adverse, mais aucun ne précise le régime d’interaction, la décomposition par stratégie ni l’étiquetage du support des tranches que les données Cisco suggèrent de nécessaires.

Défenses

Cisco traduit ses résultats en trois rituels exploitables côté achats, qui n’exigent aucun outillage nouveau :

Publier l’ASR par famille de stratégie à chaque sortie de modèle, en plus du chiffre global. L’ASR multi-tours agrégé masque des variations significatives par stratégie.
Conditionner le déploiement au top-3 des procédures et au top-3 des catégories de contenu (Imposter AI, Soft Paraphrase, System Prompts ; discours haineux, grossièreté, conseils spécialisés), avec un seuil de régression de 3 points calibré au-delà de la plus grande demi-largeur d’intervalle de confiance à 95 % observée en mono-tour.
Soumettre à revue manuelle tout modèle présentant un écart absolu supérieur à 15 points entre les régimes. Dans cette cohorte, la règle fait remonter huit modèles sur quinze, dont GPT-5.4, Gemini 3 Pro, les deux configurations de Grok et les trois variantes de Nova.

Au niveau système, la conclusion des auteurs est que si aucun modèle de base n’est sûr en régime itératif, le périmètre de sécurité doit sortir du modèle : garde-fous d’exécution, supervision, politiques applicatives, classifieurs d’intention et de persona sur les tours suivants, et red teaming qui exerce explicitement les escalades de type Crescendo plutôt que seulement des prompts isolés.

Statut

Il s’agit d’une recherche industrielle, pas d’une CVE. Il n’y a pas de correctif à appliquer. Le signal actionnable se trouve dans les processus d’évaluation et d’achat : tout benchmark présenté à un acheteur par un fournisseur devrait désormais être attendu en double — chiffres mono-tour et multi-tours — avec une décomposition par famille de stratégie. Le LLM Security Leaderboard de Cisco publie des signaux adverses sur les modèles de frontière dans ce format ; le PDF complet du rapport Proprietary Problems contient les intervalles de confiance par modèle et la carte stratégie × modèle évoquée plus haut.