sistema: OPERATIVO
← volver a todos los hacks
ADVERSARIAL MEDIUM NEW

HPAA: tipografía que el humano lee pero los LLM de moderación pasan por alto

Un artículo del 8 de junio de 2026 presenta los ataques adversarios perceptibles por humanos: texto dañino que sigue siendo evidente para un lector, pero que evade la moderación por LLM mediante manipulación tipográfica.

2026-06-11 // 5 min affects: llm-content-moderation, text-moderation-pipelines, multimodal-llm-moderation

¿Qué es esto?

El 8 de junio de 2026, un equipo de investigadores publicó “What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks” (arXiv 2606.09700). El trabajo nombra una clase de ataque que llama Human-Perceptible Adversarial Attacks (HPAA): texto dañino que un lector humano reconoce de inmediato, pero que un sistema de moderación de contenido basado en un LLM no logra marcar.

El mecanismo no es ofuscación en el sentido habitual. Las palabras dañinas siguen ahí, todavía legibles en pantalla. El ataque explota un desajuste perceptivo: el humano interpreta un bloque de texto mediante señales visuales —espaciado, énfasis, disposición espacial—, mientras que el modelo de moderación consume el mismo contenido como un flujo de tokens que descarta gran parte de esa estructura visual. Un contenido «legible como dañino» para una persona puede así volverse «efectivamente invisible» para el clasificador que lo lee.

Cómo funciona

Un LLM de moderación no ve píxeles. Ve tokens. Una tipografía que el cerebro humano reensambla en una palabra clara puede ser dividida por el tokenizador en fragmentos que ya no coinciden con el término dañino que el modelo de seguridad aprendió a detectar.

HPAA se apoya en tres familias de manipulación tipográfica, aplicadas de modo que se preserve la lectura visual mientras se fragmenta la lectura tokenizada:

Palanca               El humano lee…            El tokenizador ve…
--------------------  ------------------------  ----------------------------
Espaciado             una palabra coherente     varios fragmentos inocuos
Énfasis visual        un término enfatizado     caracteres decorativos + restos
Disposición espacial  una frase en 2-D          una secuencia revuelta de
                                                izquierda a derecha

Aquí no se reproduce ningún payload funcional. La cadena dañina visible se representa con [REDACTED]: lo que importa para los defensores es la forma de la evasión, no una receta para copiar y pegar. La conclusión del artículo es estructural: el modelo de moderación y el humano leen dos documentos distintos que comparten los mismos píxeles.

Esto se ubica junto a la evasión por el canal de imagen, sin confundirse con ella. Los ataques multimodales de «smuggling» como Making MLLMs Blind ocultan el contenido dañino dentro de imágenes renderizadas; HPAA permanece en el canal de texto y explota la brecha entre glifos mostrados y tokens.

Por qué importa

La moderación de contenido es uno de los usos de seguridad de los LLM más desplegados: filtrado de comentarios, anuncios de marketplace, seguridad en chats, triaje de reportes de abuso, control publicitario. La mayoría de estos flujos asume que si un modelo puede leer el texto, puede juzgarlo.

HPAA rompe ese supuesto en la peor dirección. Aquí, un falso negativo no es una curiosidad: es contenido dañino que alcanza a un público humano mientras el panel informa «limpio». Como el ataque preserva por diseño la legibilidad humana, está hecho a medida para el contenido destinado a ser visto —acoso, discurso de odio, estafas— y no para colar instrucciones a un agente. El laboratorio de los autores resume la asimetría sin rodeos: los humanos ven el texto, el LLM no.

El corolario incómodo: agrandar el modelo de moderación no cierra necesariamente la brecha, porque la brecha reside en la tokenización y la representación de entrada, no en el razonamiento del modelo. Un clasificador más inteligente sigue leyendo el flujo de tokens fragmentado.

Defensas

La solución es dejar de fingir que el flujo de tokens es el documento que ve el humano, y hacer converger ambas vistas antes de juzgar.

  1. Normalice antes de clasificar. Pase la entrada por normalización Unicode, colapso de espacios, plegado de homoglifos y eliminación de caracteres de ancho cero antes del modelo de moderación. Buena parte de los trucos de espaciado y énfasis de HPAA se desmorona bajo una canonicalización agresiva.

  2. Renderizar y leer. Renderice el texto tal como lo verá el usuario, júzguelo luego a través del canal visual —OCR o un modelo de visión— y compare ese veredicto con el veredicto solo-texto. Una divergencia entre «cómo se renderiza» y «cómo se tokeniza» es en sí misma una fuerte señal de abuso. Es el mismo instinto detrás de defensas como Eyes Closed, Safety On, aplicado a la moderación en lugar de a la defensa anti-jailbreak.

  3. Marque anomalías estructurales. Un espaciado intra-palabra inusual, secuencias de caracteres decorativos o una disposición 2-D en un campo que debería ser prosa simple son baratos de detectar por heurística y raros en contenido legítimo. Trátelos como «a revisar», no como «aprobado».

  4. Defensa en profundidad. Conserve capas deterministas de palabras clave/regex (operando sobre la forma normalizada) junto al LLM. Son rudimentarias, pero no caen en los mismos engaños que el modelo.

  5. Pruebe con adversarios perceptivos. Añada transformaciones de tipo HPAA a su corpus de red team y mida la tasa de falsos negativos sobre contenido visiblemente dañino, no solo sobre texto limpio. Si su evaluación solo usa cadenas sin transformar, es ciega justo ante este fallo.

Estado

ElementoReferenciaFechaNotas
Artículo HPAAarXiv 2606.097002026-06-08Presenta los ataques adversarios perceptibles por humanos
Nota del laboratorioCSU-JPG Lab2026«People see text, but LLM not»
Relacionado (canal imagen)Making MLLMs Blind, arXiv 2604.069502026-04Smuggling vía imágenes renderizadas, canal distinto
Patrón de defensaEyes Closed, Safety On, arXiv 2403.095722024-03Transformación imagen-a-texto como capa de seguridad

La conclusión no es «los LLM de moderación son inútiles». Es más estrecha y más accionable: un sistema de moderación que juzga solo el flujo de tokens está juzgando un documento distinto del que leen sus usuarios. Cierre esa brecha —normalizar, renderizar, comparar— antes de que un atacante lo haga por usted.

Sources