MULTIMODAL MEDIUM NEW

CrossMPI:仅靠图像的提示注入操纵视觉语言模型的阅读与观看

西安电子科技大学团队于 2026 年 5 月 15 日在 arXiv 发布的论文提出 CrossMPI:不可察觉的图像扰动改变视觉语言模型对图像和用户文本指令的联合理解,在五个 LVLM 上平均成功率达 66%。

2026-05-28 // 7 min affects: minigpt-4, blip-2, instructblip, bliva, qwen2.5-vl

What is this?

2026 年 5 月 15 日,来自西安电子科技大学的 Hao Yang、Zhuo Ma、Yang Liu、Yilong Yang、Guancheng Wang 和 JianFeng Ma 在 arXiv 发布了论文 A Cross-Modal Prompt Injection Attack against Large Vision-Language Models with Image-Only Perturbation(2605.16090,cs.CR/cs.CV)。论文提出了 CrossMPI,该技术利用几乎不可察觉的图像扰动,在完全不改动用户文本提示的前提下,同时操控视觉语言模型对图像和文本指令的理解。

这一定位很关键。此前的多模态提示注入要么在图像中嵌入可见文字,要么仅影响模型对图像的解读。CrossMPI 是跨模态的:像素级的扰动重写了模型对图像与文本的联合解释。论文中的一个例子里,被攻击者修改后的飞机照片让模型在用户提问”这架飞机是否属于加拿大航空?”时回答”一部手机”。在人眼看来,图像仍是一架飞机;模型却被引导去执行完全不同的任务。

CSO Online 2026 年 5 月 18 日的报道指出了该研究的企业意义:副驾、文档处理助手以及具备视觉能力的智能体越来越频繁地融合图像与文本,而当前部署的文本侧清洗防御并不能覆盖这种攻击面。

How it works

大型视觉语言模型(LVLM)通过视觉编码器将图像编码为一串视觉 token,与用户的文本 token 融合后,共同输入到 Transformer 堆栈中。以往大多数图像对抗工作针对视觉嵌入空间(视觉编码器的输出,约 10^5 个参数)进行优化。CrossMPI 论证这并非正确的优化目标。

作者转而针对模型的隐藏状态空间进行优化,即视觉与文本信息融合之后的内部表示,规模约为 10^7 个参数。这一更大参数空间更难优化,因此论文引入了两项约束。

融合关键层选择。 Transformer 各层对跨模态融合的贡献并不均衡。论文测量了哪些层承载最多的多模态信息,并将优化限制在这些层。与对抗攻击的传统直觉相反,最有效的层不是输出层,而是位于模型中部的层——也正是视觉证据与文本意图首次汇合的位置。

基于距离递减的扰动预算分配。 图像并非被均匀扰动。论文使用 Grad-ECLIP 显著性图识别图像中语义关键区域,然后在这些区域附近分配更多的扰动预算,随着像素距离增大,预算逐步减少。可见的结果是:扰动集中在模型”注视”之处,但被约束在使人眼仍能识别原图的范围内。

组件                            作用                                   对 LVLM 的影响
------------------------------  -------------------------------------  -----------------------------------
隐藏状态空间优化                 针对融合后的多模态表示进行优化         实现跨模态控制(图像+文本)
                                而非视觉编码器输出
融合关键层选择                   将梯度流限制在中部融合层               避免在非融合层浪费优化资源
基于距离的递减预算               基于 Grad-ECLIP 在显著像素附近         人眼不可察觉;保留视觉语义
                                集中噪声
跨模态扰动优化                   输出 / 融合 / 频域联合目标             跨 LVLM 架构具备黑盒可迁移性

论文在五个开源 LVLM——MiniGPT-4、BLIP-2、InstructBLIP、BLIVA 和 Qwen2.5-VL——上进行基准测试,平均攻击成功率达 66.36%,比此前基线高出约 41 个百分点。扰动在黑盒条件下也具有可迁移性:攻击者即使没有目标系统的权重,也可以针对替代模型生成扰动。

此处不复现任何 payload。希望在实验室中复现该结果的研究者可以查阅 arXiv 预印本及其 HTML 版本。

Why it matters

CrossMPI 是针对开源 LVLM 的研究演示,并非针对生产系统的真实利用。但其两项性质仍值得重视。

第一,该攻击面对纯文本防御不可见。当前企业 LLM 护栏大多在文本提示侧工作——输入过滤、指令层级检查、输出验证——没有一个会检查像素。如果您的流水线接受来自不可信源的图像(用户上传、网页截图、文档、智能体抓取的屏幕截图),这张图像就可能携带一条您的文本侧过滤器永远看不见的指令。

第二,结果可迁移。黑盒可迁移性正是把实验室趣闻和可部署攻击类区分开的属性。CrossMPI 不要求攻击者掌握目标模型的精确权重;针对一个开源模型生成的扰动在其他模型上仍保有可观的成功率。作者明确指出,该技术可能”误导基于 VLM 的网络智能体”,并”扰乱真实世界中的目标检测器”。

结构性教训与 AudioHijack 为音频模态所揭示的相同:模型每接受一种新模态,就为提示注入开辟了一条新通道;仅靠文本层面的防御无法覆盖其中任何一条。

Defenses

截至 2026 年 5 月底,没有任何一种防御能够彻底关闭这一攻击类。论文本身评估了若干方案并记录了其局限。结合论文与对抗视觉领域的常规实践,可给出一份较短但能站得住脚的防御清单:

输入变换作为低成本的第一道防线。 随机缩放、旋转,尤其是 JPEG 重编码,可以破坏高频对抗结构。论文对这三种方法都做了评测——有用,但单独使用并不足够;它们只能作为多层防御中的一层。
认证或基于平滑的防御。 SmoothVLM 是论文评测中最有效的防御,在若干场景下将攻击成功率压到 5% 以下。随机化平滑伴随延迟与精度成本;在高吞吐量流水线上运行 VLM 的团队需要明确权衡这一代价。
针对多模态扰动的对抗训练。 使用此类攻击的样本对视觉语言堆栈进行对抗训练,是较为持久的防御方向。CrossMPI 提供了一份可复现的”训练数据”生成方案。
将不可信源的图像视为不可信指令。 由终端用户上传、从网络抓取或屏幕截取的图像是内容,而非系统提示。智能体不应在没有独立文本确认步骤的情况下,允许模型从图像派生工具调用授权。
限制视觉智能体的动作面。 由 VLM 驱动、且本身就不能发邮件、不能浏览任意 URL、不能转账的智能体,无法被被劫持的图像逼着去做这些事。应用智能体二选其二法则:在”不可信输入 / 敏感工具 / 外泄通道”中最多只允许同时具备其中两项。
将图像与动作一同记录。 当 VLM 智能体执行敏感动作时,保留输入图像,以便事后取证可以识别 CrossMPI 风格的覆盖层。即使对抗扰动绕过了实时防御,事后仍可被检出。
关注跨模态模式,而不仅仅是图像。 同一性质——一种连续、高维、非文本的输入,在模型内部与文本融合——同样适用于音频、视频和传感器输入。防御应被设计为与模态无关。

Status

项目	参考	日期	备注
论文	arXiv:2605.16090 v1	2026-05-15	cs.CR / cs.CV
作者	西安电子科技大学团队	—	Hao Yang、Zhuo Ma、Yang Liu、Yilong Yang、Guancheng Wang、JianFeng Ma
媒体报道	CSO Online	2026-05-18	企业背景,Gartner 评论
受影响开源 LVLM	5 个	—	MiniGPT-4、BLIP-2、InstructBLIP、BLIVA、Qwen2.5-VL
报告 ASR	平均 66.36%	—	比基线高出 41 个百分点;黑盒可迁移
评测过的防御	缩放、旋转、JPEG、SmoothVLM、DPS	—	SmoothVLM 最有效(某些场景 <5%);均未完全消除
真实利用	未见报告	—	受控研究环境,开源模型

“在文本侧防御提示注入”的时代正在结束。CrossMPI 不是第一篇多模态注入论文,但它进一步收紧了一项令人不安的结论:攻击者无需触及您的文本提示,也无需让用户察觉图像的任何变化,就可能改写模型对用户请求的理解。对于交付视觉语言功能的团队来说,问题已经不再是是否要保护图像通道——而是需要叠加多少层防御才足够。