系统:运行中
← 返回所有攻击
JAILBREAK MEDIUM NEW

认知过载:低图像分辨率如何越狱多模态大模型

2026年5月的一篇论文(Findings of ACL 2026)表明,降低渲染为图像的文本的分辨率,会把前沿多模态大模型推入一个「攻击舒适区」,此时安全对齐崩溃,而 OCR 仍然准确。

2026-06-21 // 5 min affects: gpt-4.1, claude-sonnet-4.5, claude-haiku-4.5, gemini-2.5-flash, qwen3-vl, doubao-seed-1.6

这是什么?

在一篇题为 Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment(arXiv 2605.07250,2026 年 5 月发布,被 Findings of ACL 2026 接收)的论文中,西湖大学与加州大学默塞德分校的研究者——Zhixue Song、Boyan Han、Yiwei Wang 和 Chi Zhang——报告了多模态大模型中一种反直觉的失效模式。

现代长上下文系统越来越多地采用「视觉上下文压缩」:与其输入一大堆 token,不如把文本渲染成图像再交给视觉编码器(这一思路由 2025 年的 Glyph 框架推广)。作者发现,仅仅降低该图像的分辨率,就会大幅提高越狱成功率——即便文本对模型而言仍然完全可读。没有对抗性后缀,没有混淆,只是同一条恶意请求的更模糊的图片而已。

工作原理

研究团队在 GPT-4.1、Claude Sonnet 4.5、Claude Haiku 4.5、Gemini 2.5 Flash、Qwen3-VL 和 Doubao-Seed-1.6 上,将渲染分辨率(DPI)从 15 扫描到 300,并在每一档测量两个量:OCR 准确率(模型还能读出文本吗?)与攻击成功率(恶意指令是否被执行?)。

结果呈现出一条倒 U 形曲线。高 DPI 时图像清晰,安全对齐稳固;极低 DPI 时文本不可读,什么也不会发生。但二者之间存在作者所称的「攻击舒适区」(Attack Comfort Zone,ACZ),视模型而定约为 45–150 DPI,此时 OCR 准确率仍高于 80%,攻击成功率却急剧飙升。报告的峰值十分惊人:Claude Sonnet 4.5 在清晰输入下为 0.000,在约 60 DPI 时升至约 0.92;GPT-4.1 从 0.127 升至约 0.85;Gemini 2.5 Flash 在约 150 DPI 时达约 0.98。

逐层安全探针揭示了机制。在清晰图像上,有害内容在模型的浅层即被标记;而在 ACZ 图像上,这种检测被推迟到深层——即「安全特征延迟」。作者的解释是「认知过载假说」:辨认退化图像会把早期算力全部占用在转写上,从而饿死同时进行的安全检查。该效应并非低分辨率独有——噪声注入、几何畸变和遮挡都会引发同样的飙升——且在中文与英文提示下均能复现。

为什么重要

这是「视觉压缩范式」本身的属性,而非孤立漏洞。当产品为了廉价地扩展上下文窗口而采用图像渲染上下文时,它们也继承了纯文本安全测试永远看不到的攻击面。模型在干净输入上通过安全评测,却在同一指令的缩小版本上失守。任何在前沿多模态大模型之上构建 OCR、文档理解或截图阅读智能体的人都会暴露在风险中,因为触发条件——较低的保真度——与寻常无害的图像质量波动难以区分。

防御

论文提出了一种轻量的、提示词层面的缓解措施,称为 Structured Cognitive Offloading(结构化认知卸载)。它不要求模型一遍完成阅读与判断,而是强制一条串行流水线:(1) 先把图像转写为文本(OCR),(2) 对转写后的文本进行独立的安全评估,然后才 (3) 生成回复。将识别与推理解耦,可在保留正常 OCR 效用的同时,恢复大部分被削弱的防御完整性。

面向构建者的实用要点:

  • 转写后的文本上运行安全分类器,而不仅是在原始图像上;并将任何「文本渲染为图像」的输入视为不可信。
  • 在多种分辨率与扰动下做红队测试,而不仅是清晰图像:扫描 DPI,加入模糊/噪声/遮挡,并测试非英文提示。
  • 不要假设纯文本安全评估能迁移到多模态流水线:同一条提示作为 token 可能安全,作为模糊图像却可能危险。

状态

项目详情
披露arXiv 2605.07250,2026 年 5 月;Findings of ACL 2026
受影响使用视觉上下文压缩的前沿多模态大模型(GPT-4.1、Claude Sonnet/Haiku 4.5、Gemini 2.5 Flash、Qwen3-VL、Doubao-Seed-1.6)
触发条件中等图像分辨率(「攻击舒适区」,约 45–150 DPI)及其他视觉退化
缓解Structured Cognitive Offloading(转写 → 独立安全检查 → 回复)

Sources