HPAA:人能读懂、审核大模型却看不见的排版攻击
2026 年 6 月 8 日的一篇论文提出“人类可感知对抗攻击”:有害文本对读者依然一目了然,却能凭借排版操纵绕过基于大模型的内容审核。
这是什么?
2026 年 6 月 8 日,研究者发布了 《What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks》(arXiv 2606.09700)。论文为一类攻击命名为 人类可感知对抗攻击(Human-Perceptible Adversarial Attacks,HPAA):人类读者一眼就能识别为有害的文本,基于大模型的内容审核系统却无法将其标记出来。
其机制并非通常意义上的混淆。有害词语仍然在那里,在屏幕上依然可读。攻击利用的是一种感知错位:人类借助视觉线索——间距、强调、空间排布——来理解一段文字,而审核模型把同一内容当作 token 流来处理,丢弃了其中大部分视觉结构。对人来说”读起来就是有害”的内容,对阅读它的分类器而言可能”实际上不可见”。
工作原理
审核大模型看不到像素,它看到的是 token。人脑能重新拼合成一个清晰词语的排版,可能被分词器切成若干碎片,不再匹配安全模型学过的有害词。
HPAA 依赖三类排版操纵,施加方式使得视觉阅读得以保留,而分词后的阅读被打碎:
手段 人类读到…… 分词器看到……
------------ ------------------ ----------------------------
间距 一个完整的词 若干无害的短碎片
视觉强调 一个被强调的词 装饰字符 + 残段
空间排布 二维布局的短语 从左到右被打乱的字符序列
此处不复现任何可用的载荷。可见的有害字符串以 [REDACTED] 表示——对防御者而言重要的是绕过的形态,而非可复制粘贴的配方。论文的结论是结构性的:审核模型和人类读的是两份不同的文档,只是共用同一批像素。
这与图像通道的规避相邻但不相同。像 Making MLLMs Blind 这类多模态”走私”攻击把有害内容藏进渲染后的图片中;而 HPAA 停留在文本通道,利用所显示字形与 token 之间的落差。
为什么重要
内容审核是大模型部署最广的安全用途之一——评论过滤、市场商品列表、聊天安全、滥用举报分流、广告审查。这些流程大多假设:只要模型能读懂文本,就能对文本作出判断。
HPAA 朝最坏的方向打破了这一假设。这里的漏报绝非小事:它意味着有害内容触达人类受众,而仪表盘却显示”干净”。由于攻击在设计上保留了人类可读性,它专为意在被看到的内容而生——骚扰、仇恨言论、诈骗——而不是为了向智能体偷渡指令。作者所在实验室直白地概括了这种不对称:人类看到文本,大模型看不到。
令人不安的推论是:把审核模型做得更大,未必能弥合这一落差,因为落差存在于分词与输入表示中,而非模型的推理能力。更聪明的分类器读到的,仍是被打碎的 token 流。
防御
对策是不再假装 token 流就是人类看到的文档,并在判断之前让两种视图收敛。
-
先归一化,再分类。 在进入审核模型之前,对输入做 Unicode 归一化、折叠空白、同形字符归并、剥离零宽字符。HPAA 的大量间距与强调花招在激进的规范化下会崩解。
-
先渲染,再阅读。 按用户将看到的样子渲染文本,然后通过视觉通道——OCR 或视觉模型——来判断,并将该判断与纯文本判断作比较。“渲染出来是什么”与”分词成什么”之间的分歧本身就是强烈的滥用信号。这与 Eyes Closed, Safety On 等防御的思路相同,只是用于审核而非反越狱防御。
-
标记结构异常。 异常的词内间距、装饰字符序列、本应是纯文本字段中的二维排布,用启发式即可低成本检出,且在正常内容中罕见。将其判为”待复核”,而非”放行”。
-
纵深防御。 在大模型旁保留确定性的关键词/正则层(作用于归一化后的形态)。它们虽笨拙,却不会被欺骗模型的同一手法所骗。
-
用感知型对手测试。 把 HPAA 类变换加入红队语料,针对视觉上明显有害的内容(而非仅干净文本)测量漏报率。若评测只用未变换的字符串,就恰恰对这一失效视而不见。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| HPAA 论文 | arXiv 2606.09700 | 2026-06-08 | 提出人类可感知对抗攻击 |
| 实验室札记 | CSU-JPG Lab | 2026 | ”People see text, but LLM not” |
| 相关(图像通道) | Making MLLMs Blind, arXiv 2604.06950 | 2026-04 | 经渲染图片走私,通道不同 |
| 防御范式 | Eyes Closed, Safety On, arXiv 2403.09572 | 2024-03 | 以图像转文本作为安全层 |
要点不是”审核大模型没用”,而是更具体、更可落地的一句话:只判断 token 流的审核系统,判断的是一份与用户所读不同的文档。 在攻击者替你弥合这一落差之前——归一化、渲染、比较——先把它补上。