ADVERSARIAL

(14)

14 hack(s).

Effondrer l'accélération des LLM : une attaque contre le speculative decoding

Un article de mai 2026 montre que de minuscules perturbations d'entrée peuvent effondrer discrètement le gain du speculative decoding — en réduisant le débit sans modifier la sortie visible du modèle.

2026-07-16//6 min

ADVERSARIAL MEDIUM NEW

Un seul document empoisonné qui détourne le raisonnement d'un modèle

Un article présenté à SIGIR '26 montre qu'un unique document adverse dans un corpus RAG peut orienter un modèle de raisonnement vers la réponse choisie par l'attaquant — sans inondation, en imitant le style de raisonnement du modèle.

2026-07-14//6 min

ADVERSARIAL MEDIUM NEW

Manipuler les relecteurs IA par une simple réécriture de forme

Nul besoin d'un prompt caché pour tromper un relecteur LLM. Deux articles de juin 2026 montrent qu'en réécrivant uniquement la mise en forme d'un papier — jamais les résultats — on gonfle les scores de relecture IA de plus d'un point.

2026-07-09//8 min

ADVERSARIAL MEDIUM NEW

Manipulation d'opinion à l'échelle du discours contre les RAG en boîte noire

Un article de mai 2026 montre comment un budget de poisoning réduit et camouflé, réparti sur un réseau de sujets, peut faire dériver la position d'un système RAG en boîte noire sur de nombreuses requêtes liées, et pas une seule.

2026-07-08//7 min

ADVERSARIAL MEDIUM NEW

PRAC : détourner le choix d'un agent informatique via son attention

Un papier de Tübingen (avril 2026) montre qu'une seule image produit imperceptiblement perturbée peut concentrer l'attention visuelle d'un agent informatique et orienter 82 % de ses sélections — sans jamais toucher à sa sortie.

2026-06-22//6 min

ADVERSARIAL MEDIUM NEW

Quand le relecteur IA ne sait pas lire la figure : attaques cross-modales sur le peer review

Un papier arXiv de juin 2026 (PaperGuard) montre que les relecteurs IA sont vulnérables non seulement via le texte, mais via les figures — injection de prompt en boîte noire et perturbations d'images en boîte blanche renversent toutes deux le verdict.

2026-06-20//6 min

ADVERSARIAL MEDIUM NEW

Rapid Poison : quand une défense anti-jailbreak devient une surface d'attaque

Un papier arXiv du 15 juin 2026 montre que l'étape de prolifération des défenses Rapid Response peut être empoisonnée à un taux de 1 %, forçant jusqu'à 100 % de faux positifs ou 96 % de faux négatifs dans le classifieur.

2026-06-19//8 min

ADVERSARIAL MEDIUM NEW

Black-Hole Attack : empoisonner une base vectorielle via la géométrie des embeddings

Un papier du 7 avril 2026 montre que quelques vecteurs placés près du centroïde sont remontés dans jusqu'à 99,85 % des top-10 — un empoisonnement de base vectorielle indépendant des requêtes et du modèle.

2026-06-18//6 min

ADVERSARIAL MEDIUM NEW

M3Att : empoisonnement de RAG médical multimodal sans connaître les requêtes

Un papier de mai 2026 empoisonne un RAG médical image-texte sans connaître à l'avance les requêtes des utilisateurs. Des perturbations d'image imperceptibles détournent la récupération ; un texte guidé par l'ambiguïté clinique échappe à l'autocorrection du modèle — et les défenses de pré-filtrage n'y changent presque rien.

2026-06-17//7 min

ADVERSARIAL MEDIUM NEW

CRCP : l'empoisonnement de corpus RAG qui survit au chunking et au reranking

Un article arXiv du 9 juin 2026 montre que beaucoup d'attaques par empoisonnement de corpus échouent discrètement après le reranking — et propose CRCP, une variante "chunk-aware" conçue pour survivre aux pipelines RAG réalistes. La leçon porte sur la façon d'évaluer, pas seulement de défendre.

2026-06-15//6 min

ADVERSARIAL MEDIUM NEW

HPAA : une typographie que l'humain lit mais que les LLM de modération ratent

Un article du 8 juin 2026 introduit les attaques adverses perceptibles par l'humain : un texte nuisible qui reste évident pour un lecteur, mais échappe à la modération par LLM grâce à une manipulation typographique.

2026-06-11//5 min

ADVERSARIAL MEDIUM NEW

SlotGCG : la position du token adverse, pas seulement son contenu, conditionne le jailbreak

Un papier de juin 2026 montre que les jailbreaks de type GCG gagnent ~14 % d'efficacité quand les tokens adverses sont placés à des emplacements corrélés à l'attention — et conservent 42 % de succès face au filtrage d'entrée.

2026-06-08//6 min

ADVERSARIAL MEDIUM NEW

SilentRetrieval : un empoisonnement de corpus RAG fluide qui passe les filtres de perplexité

Un préprint arXiv du 27 mai 2026 propose une attaque en deux temps qui cache des déclencheurs de détournement dans des documents fluides, atteignant 57 % de succès LLM sur Natural Questions et MS MARCO avec un seul document empoisonné par requête.

2026-05-29//7 min

ADVERSARIAL MEDIUM

Usability as a Weapon : quand une demande d'amélioration rend le code généré vulnérable

Un paper arXiv du 11 mai 2026 montre que demander à un LLM de coder « plus vite », « plus simple » ou avec « une fonctionnalité de plus » fait silencieusement disparaître les protections. UPAttack atteint 98,1 % sur GPT-5.2-chat et Gemini-3.

2026-05-26//8 min