ADVERSARIAL MEDIUM NEW

HPAA：人能读懂、审核大模型却看不见的排版攻击

2026 年 6 月 8 日的一篇论文提出“人类可感知对抗攻击”：有害文本对读者依然一目了然，却能凭借排版操纵绕过基于大模型的内容审核。

2026-06-11 // 5 min affects: llm-content-moderation, text-moderation-pipelines, multimodal-llm-moderation

这是什么？

2026 年 6 月 8 日，研究者发布了 《What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks》（arXiv 2606.09700）。论文为一类攻击命名为 人类可感知对抗攻击（Human-Perceptible Adversarial Attacks，HPAA）：人类读者一眼就能识别为有害的文本，基于大模型的内容审核系统却无法将其标记出来。

其机制并非通常意义上的混淆。有害词语仍然在那里，在屏幕上依然可读。攻击利用的是一种感知错位：人类借助视觉线索——间距、强调、空间排布——来理解一段文字，而审核模型把同一内容当作 token 流来处理，丢弃了其中大部分视觉结构。对人来说”读起来就是有害”的内容，对阅读它的分类器而言可能”实际上不可见”。

工作原理

审核大模型看不到像素，它看到的是 token。人脑能重新拼合成一个清晰词语的排版，可能被分词器切成若干碎片，不再匹配安全模型学过的有害词。

HPAA 依赖三类排版操纵，施加方式使得视觉阅读得以保留，而分词后的阅读被打碎：

手段            人类读到……          分词器看到……
------------    ------------------   ----------------------------
间距            一个完整的词         若干无害的短碎片
视觉强调        一个被强调的词       装饰字符 + 残段
空间排布        二维布局的短语       从左到右被打乱的字符序列

此处不复现任何可用的载荷。可见的有害字符串以 [REDACTED] 表示——对防御者而言重要的是绕过的形态，而非可复制粘贴的配方。论文的结论是结构性的：审核模型和人类读的是两份不同的文档，只是共用同一批像素。

这与图像通道的规避相邻但不相同。像 Making MLLMs Blind 这类多模态”走私”攻击把有害内容藏进渲染后的图片中；而 HPAA 停留在文本通道，利用所显示字形与 token 之间的落差。

为什么重要

内容审核是大模型部署最广的安全用途之一——评论过滤、市场商品列表、聊天安全、滥用举报分流、广告审查。这些流程大多假设：只要模型能读懂文本，就能对文本作出判断。

HPAA 朝最坏的方向打破了这一假设。这里的漏报绝非小事：它意味着有害内容触达人类受众，而仪表盘却显示”干净”。由于攻击在设计上保留了人类可读性，它专为意在被看到的内容而生——骚扰、仇恨言论、诈骗——而不是为了向智能体偷渡指令。作者所在实验室直白地概括了这种不对称：人类看到文本，大模型看不到。

令人不安的推论是：把审核模型做得更大，未必能弥合这一落差，因为落差存在于分词与输入表示中，而非模型的推理能力。更聪明的分类器读到的，仍是被打碎的 token 流。

防御

对策是不再假装 token 流就是人类看到的文档，并在判断之前让两种视图收敛。

先归一化，再分类。 在进入审核模型之前，对输入做 Unicode 归一化、折叠空白、同形字符归并、剥离零宽字符。HPAA 的大量间距与强调花招在激进的规范化下会崩解。
先渲染，再阅读。 按用户将看到的样子渲染文本，然后通过视觉通道——OCR 或视觉模型——来判断，并将该判断与纯文本判断作比较。“渲染出来是什么”与”分词成什么”之间的分歧本身就是强烈的滥用信号。这与 Eyes Closed, Safety On 等防御的思路相同，只是用于审核而非反越狱防御。
标记结构异常。 异常的词内间距、装饰字符序列、本应是纯文本字段中的二维排布，用启发式即可低成本检出，且在正常内容中罕见。将其判为”待复核”，而非”放行”。
纵深防御。 在大模型旁保留确定性的关键词/正则层（作用于归一化后的形态）。它们虽笨拙，却不会被欺骗模型的同一手法所骗。
用感知型对手测试。 把 HPAA 类变换加入红队语料，针对视觉上明显有害的内容（而非仅干净文本）测量漏报率。若评测只用未变换的字符串，就恰恰对这一失效视而不见。

状态

项目	参考	日期	备注
HPAA 论文	arXiv 2606.09700	2026-06-08	提出人类可感知对抗攻击
实验室札记	CSU-JPG Lab	2026	”People see text, but LLM not”
相关（图像通道）	Making MLLMs Blind, arXiv 2604.06950	2026-04	经渲染图片走私，通道不同
防御范式	Eyes Closed, Safety On, arXiv 2403.09572	2024-03	以图像转文本作为安全层

要点不是”审核大模型没用”，而是更具体、更可落地的一句话：只判断 token 流的审核系统，判断的是一份与用户所读不同的文档。 在攻击者替你弥合这一落差之前——归一化、渲染、比较——先把它补上。

HPAA：人能读懂、审核大模型却看不见的排版攻击

这是什么？

工作原理

为什么重要

防御

状态

Sources