HPAA : une typographie que l'humain lit mais que les LLM de modération ratent
Un article du 8 juin 2026 introduit les attaques adverses perceptibles par l'humain : un texte nuisible qui reste évident pour un lecteur, mais échappe à la modération par LLM grâce à une manipulation typographique.
De quoi s’agit-il ?
Le 8 juin 2026, des chercheurs ont publié « What the Eyes See, the LLMs Miss : Exploiting Human Perception for Adversarial Text Attacks » (arXiv 2606.09700). L’article nomme une classe d’attaque qu’il appelle Human-Perceptible Adversarial Attacks (HPAA) : un texte nuisible qu’un lecteur humain reconnaît instantanément, mais qu’un système de modération de contenu fondé sur un LLM ne parvient pas à signaler.
Le mécanisme n’est pas une obfuscation au sens habituel. Les mots nuisibles sont toujours là, toujours lisibles à l’écran. L’attaque exploite un décalage perceptif : l’humain interprète un bloc de texte à l’aide d’indices visuels — espacement, mise en valeur, disposition spatiale — tandis que le modèle de modération consomme le même contenu sous forme d’un flux de tokens qui efface l’essentiel de cette structure visuelle. Un contenu « lisible comme nuisible » pour une personne peut ainsi devenir « effectivement invisible » pour le classifieur qui le lit.
Comment ça marche
Un LLM de modération ne voit pas de pixels. Il voit des tokens. Une typographie que le cerveau humain reconstitue en un mot clair peut être découpée par le tokeniseur en fragments qui ne correspondent plus au terme nuisible que le modèle de sûreté a appris à détecter.
HPAA s’appuie sur trois familles de manipulation typographique, appliquées de façon à préserver la lecture visuelle tout en fragmentant la lecture tokenisée :
Levier L'humain lit… Le tokeniseur voit…
-------------------- ------------------------ ----------------------------
Espacement un mot cohérent plusieurs fragments anodins
Mise en valeur un terme mis en valeur caractères décoratifs + bouts
Disposition spatiale une phrase en 2-D une suite brouillée de gauche
à droite
Aucun payload fonctionnel n’est reproduit ici. La chaîne nuisible visible est représentée par [REDACTED] — ce qui importe pour les défenseurs est la forme du contournement, pas une recette à copier-coller. Le constat de l’article est structurel : le modèle de modération et l’humain lisent deux documents différents qui partagent les mêmes pixels.
Cela voisine avec l’évasion par le canal image, sans s’y confondre. Les attaques multimodales de « smuggling » comme Making MLLMs Blind cachent le contenu nuisible dans des images rendues ; HPAA reste dans le canal texte et exploite l’écart entre glyphes affichés et tokens.
Pourquoi c’est important
La modération de contenu est l’un des usages de sûreté des LLM les plus déployés — filtrage de commentaires, annonces de marketplace, sécurité des chats, tri des signalements d’abus, contrôle publicitaire. La plupart de ces chaînes supposent que si un modèle peut lire le texte, il peut le juger.
HPAA brise cette hypothèse dans le pire sens. Ici, un faux négatif n’est pas une curiosité : c’est du contenu nuisible qui atteint un public humain pendant que le tableau de bord affiche « propre ». Comme l’attaque préserve par conception la lisibilité humaine, elle est taillée pour le contenu destiné à être vu — harcèlement, discours haineux, arnaques — plutôt que pour glisser des instructions à un agent. Le laboratoire des auteurs résume l’asymétrie sans détour : les humains voient le texte, le LLM non.
Le corollaire gênant : agrandir le modèle de modération ne referme pas forcément l’écart, car l’écart réside dans la tokenisation et la représentation d’entrée, pas dans le raisonnement du modèle. Un classifieur plus intelligent lit toujours le flux de tokens fragmenté.
Défenses
La parade consiste à cesser de faire comme si le flux de tokens était le document que voit l’humain, et à faire converger les deux vues avant de juger.
-
Normalisez avant de classifier. Faites passer l’entrée par une normalisation Unicode, un repliement des espaces, une réduction des homoglyphes et une suppression des caractères de largeur nulle avant le modèle de modération. Une bonne partie des ruses d’espacement et de mise en valeur s’effondre sous une canonicalisation agressive.
-
Rendre puis lire. Affichez le texte tel que l’utilisateur le verra, puis jugez-le via le canal visuel — OCR ou modèle de vision — et comparez ce verdict au verdict purement textuel. Une divergence entre « ce que ça affiche » et « ce que ça tokenise » est en soi un fort signal d’abus. C’est l’intuition derrière des défenses comme Eyes Closed, Safety On, appliquée à la modération plutôt qu’à la défense anti-jailbreak.
-
Signalez les anomalies structurelles. Un espacement intra-mot inhabituel, des suites de caractères décoratifs, une disposition 2-D dans un champ censé être en prose simple sont peu coûteux à détecter par heuristique et rares dans le contenu légitime. Traitez-les en « à examiner », pas en « validé ».
-
Défense en profondeur. Conservez des couches déterministes mots-clés/regex (opérant sur la forme normalisée) à côté du LLM. Elles sont rustiques, mais ne se font pas berner par les mêmes choses que le modèle.
-
Testez avec des adversaires perceptifs. Ajoutez des transformations de type HPAA à votre corpus de red team et mesurez le taux de faux négatifs sur du contenu visiblement nuisible, pas seulement sur du texte propre. Si votre évaluation n’utilise que des chaînes non transformées, elle est aveugle précisément à cette défaillance.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| Article HPAA | arXiv 2606.09700 | 2026-06-08 | Introduit les attaques adverses perceptibles par l’humain |
| Note du laboratoire | CSU-JPG Lab | 2026 | « People see text, but LLM not » |
| Connexe (canal image) | Making MLLMs Blind, arXiv 2604.06950 | 2026-04 | Smuggling via images rendues, canal distinct |
| Patron de défense | Eyes Closed, Safety On, arXiv 2403.09572 | 2024-03 | Transformation image-vers-texte comme couche de sûreté |
À retenir : non pas « les LLM de modération sont inutiles », mais plus précis et plus actionnable : un système de modération qui juge uniquement le flux de tokens juge un document différent de celui que lisent vos utilisateurs. Refermez cet écart — normaliser, afficher, comparer — avant qu’un attaquant ne le fasse à votre place.