système : OPÉRATIONNEL
← retour aux catégories

RESEARCH

(10)

10 hack(s).

RESEARCH MEDIUM NEW

Mesurer la capacité d'exploitation des LLM : ExploitBench, ExploitGym et SCONE-bench

Le 22 mai 2026, Anthropic a publié les résultats de Mythos Preview sur trois nouveaux benchmarks d'exploitation. Les chiffres — et la manière dont les benchmarks décomposent la chaîne d'exploit — changent la façon dont les défenseurs doivent penser la capacité offensive frontière.

2026-05-29//8 min
RESEARCH MEDIUM NEW

Proprietary Problems : l'étude Cisco sur 15 modèles fermés montre que les scores de sûreté en un tour ratent l'essentiel du risque multi-tours

Une étude Cisco publiée le 27 mai 2026, portant sur 15 modèles phares fermés d'OpenAI, Anthropic, Google, Amazon et xAI, mesure des taux de succès d'attaque multi-tours allant de 7,89 % à 88,30 % — et des écarts pouvant atteindre 55 points par rapport au régime mono-tour.

2026-05-29//8 min
RESEARCH MEDIUM NEW

Le fossé sécurité agent-humain : ce que la production déploie, ce que la recherche étudie

Un papier UCLA du 23 mai 2026 audite 59 études académiques, 21 systèmes d'agents en production et 26 plugins de sécurité — et constate que les défenses préférées des chercheurs n'ont aucun déploiement en production.

2026-05-29//7 min
RESEARCH MEDIUM NEW

La taxe d'autonomie : comment l'entraînement défensif casse les agents LLM

Un papier USC du 19 mars 2026 mesure le coût de l'entraînement anti-injection sur la compétence des agents — les modèles défendus expirent sur 99 % des tâches, contre 13 % pour la baseline.

2026-05-29//7 min
RESEARCH MEDIUM

Empoisonner la tour de garde : quand les copilotes SOC lisent des logs contrôlés par l'attaquant

Un papier du 23 mai 2026 formalise l'injection de prompt par substrat de logs — du contenu adverse glissé dans les champs de logs pour piloter les assistants LLM des SOC. La meilleure défense laisse passer 11,8 % d'injections en moyenne.

2026-05-28//8 min
RESEARCH MEDIUM

MultiBreak : 10 389 prompts multi-tours révèlent comment les jailbreaks conversationnels percent l'alignement des LLM

Un papier publié à ICML 2026 le 3 mai dernier dévoile le benchmark multi-tours le plus large et le plus diversifié à ce jour. Il enregistre des écarts de taux de succès d'attaque allant jusqu'à 54 points sur DeepSeek-R1-7B et 34,6 sur GPT-4.1-mini par rapport à l'état de l'art précédent, et quantifie comment un alignement qui tient en un tour s'effondre sur plusieurs.

2026-05-27//8 min
RESEARCH LOW

Teaching Claude Why : comment Anthropic a fait passer la mésalignement agentique à zéro

Le 8 mai 2026, l'équipe Alignment Science d'Anthropic a publié une étude de cas montrant qu'apprendre à Claude à expliquer son raisonnement éthique — et non simplement à le démontrer — réduit la mésalignement agentique de 96 % à moins de 1 %.

2026-05-27//8 min
RESEARCH MEDIUM

Intégrité contextuelle : pourquoi les défenses contre l'injection de prompt échouent

Un papier de mai 2026 d'Abdelnabi et Bagdasarian relit l'injection de prompt à travers l'Intégrité Contextuelle et montre que séparer données et instructions est une erreur de catégorie.

2026-05-25//7 min
RESEARCH MEDIUM

Quand l'attaquant est un autre LLM : les grands modèles de raisonnement en jailbreakers autonomes

Un papier Nature Communications formalisé en mai 2026 montre que quatre modèles de raisonnement — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini et Qwen3 235B — jailbreakent neuf LLM cibles avec un taux de succès global de 97,14 %, à partir d'un simple prompt système.

2026-05-25//7 min
RESEARCH LOW

Sleeper agents : backdoors cachées qui survivent à l'entraînement de sécurité

Anthropic a démontré que des modèles entraînés avec des phrases-déclencheurs cachées conservent leur comportement backdoor même après l'entraînement de sécurité RLHF standard. Les implications pour les LLM en open-weight sont significatives.

2026-05-03//14 min