JAILBREAK MEDIUM NEW

认知过载：低图像分辨率如何越狱多模态大模型

2026年5月的一篇论文（Findings of ACL 2026）表明，降低渲染为图像的文本的分辨率，会把前沿多模态大模型推入一个「攻击舒适区」，此时安全对齐崩溃，而 OCR 仍然准确。

2026-06-21 // 5 min affects: gpt-4.1, claude-sonnet-4.5, claude-haiku-4.5, gemini-2.5-flash, qwen3-vl, doubao-seed-1.6

这是什么？

在一篇题为 Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment（arXiv 2605.07250，2026 年 5 月发布，被 Findings of ACL 2026 接收）的论文中，西湖大学与加州大学默塞德分校的研究者——Zhixue Song、Boyan Han、Yiwei Wang 和 Chi Zhang——报告了多模态大模型中一种反直觉的失效模式。

现代长上下文系统越来越多地采用「视觉上下文压缩」：与其输入一大堆 token，不如把文本渲染成图像再交给视觉编码器（这一思路由 2025 年的 Glyph 框架推广）。作者发现，仅仅降低该图像的分辨率，就会大幅提高越狱成功率——即便文本对模型而言仍然完全可读。没有对抗性后缀，没有混淆，只是同一条恶意请求的更模糊的图片而已。

工作原理

研究团队在 GPT-4.1、Claude Sonnet 4.5、Claude Haiku 4.5、Gemini 2.5 Flash、Qwen3-VL 和 Doubao-Seed-1.6 上，将渲染分辨率（DPI）从 15 扫描到 300，并在每一档测量两个量：OCR 准确率（模型还能读出文本吗？）与攻击成功率（恶意指令是否被执行？）。

结果呈现出一条倒 U 形曲线。高 DPI 时图像清晰，安全对齐稳固；极低 DPI 时文本不可读，什么也不会发生。但二者之间存在作者所称的「攻击舒适区」（Attack Comfort Zone，ACZ），视模型而定约为 45–150 DPI，此时 OCR 准确率仍高于 80%，攻击成功率却急剧飙升。报告的峰值十分惊人：Claude Sonnet 4.5 在清晰输入下为 0.000，在约 60 DPI 时升至约 0.92；GPT-4.1 从 0.127 升至约 0.85；Gemini 2.5 Flash 在约 150 DPI 时达约 0.98。

逐层安全探针揭示了机制。在清晰图像上，有害内容在模型的浅层即被标记；而在 ACZ 图像上，这种检测被推迟到深层——即「安全特征延迟」。作者的解释是「认知过载假说」：辨认退化图像会把早期算力全部占用在转写上，从而饿死同时进行的安全检查。该效应并非低分辨率独有——噪声注入、几何畸变和遮挡都会引发同样的飙升——且在中文与英文提示下均能复现。

为什么重要

这是「视觉压缩范式」本身的属性，而非孤立漏洞。当产品为了廉价地扩展上下文窗口而采用图像渲染上下文时，它们也继承了纯文本安全测试永远看不到的攻击面。模型在干净输入上通过安全评测，却在同一指令的缩小版本上失守。任何在前沿多模态大模型之上构建 OCR、文档理解或截图阅读智能体的人都会暴露在风险中，因为触发条件——较低的保真度——与寻常无害的图像质量波动难以区分。

防御

论文提出了一种轻量的、提示词层面的缓解措施，称为 Structured Cognitive Offloading（结构化认知卸载）。它不要求模型一遍完成阅读与判断，而是强制一条串行流水线：(1) 先把图像转写为文本（OCR），(2) 对转写后的文本进行独立的安全评估，然后才 (3) 生成回复。将识别与推理解耦，可在保留正常 OCR 效用的同时，恢复大部分被削弱的防御完整性。

面向构建者的实用要点：

在转写后的文本上运行安全分类器，而不仅是在原始图像上；并将任何「文本渲染为图像」的输入视为不可信。
在多种分辨率与扰动下做红队测试，而不仅是清晰图像：扫描 DPI，加入模糊/噪声/遮挡，并测试非英文提示。
不要假设纯文本安全评估能迁移到多模态流水线：同一条提示作为 token 可能安全，作为模糊图像却可能危险。

状态

项目	详情
披露	arXiv 2605.07250，2026 年 5 月；Findings of ACL 2026
受影响	使用视觉上下文压缩的前沿多模态大模型（GPT-4.1、Claude Sonnet/Haiku 4.5、Gemini 2.5 Flash、Qwen3-VL、Doubao-Seed-1.6）
触发条件	中等图像分辨率（「攻击舒适区」，约 45–150 DPI）及其他视觉退化
缓解	Structured Cognitive Offloading（转写 → 独立安全检查 → 回复）

认知过载：低图像分辨率如何越狱多模态大模型

这是什么？

工作原理

为什么重要

防御

状态

Sources