系统:运行中
← 返回所有攻击
JAILBREAK MEDIUM NEW

多片段视频越狱:为什么视频会击穿多模态大模型的安全防线

2026 年 6 月的一篇 ACL 论文表明,视频通道是比图像更脆弱的安全边界:当视频被切分为多个多样化短片段时,攻击成功率随之上升。

2026-06-14 // 6 min affects: video-mllms, multimodal-llms, vision-language-models

这是什么?

2026 年 6 月 1 日,Choongwon Kang、Seungjong Sun、Hyunmin Jun 与 Jang Hyun Kim 发表了 Jailbreaking Multimodal Large Language Models using Multi-Clip Video(arXiv:2606.02111),该论文被 ACL 2026 主会接收。它探讨了早期视觉越狱研究遗留的一个问题:既然多模态大语言模型(MLLM)已能处理视频,那么视频输入的哪些属性真正削弱了它们的安全对齐?

作者给出的结论是:视频通道是一条可被量化的、比静态图像通道更脆弱的安全边界,且这种脆弱性会随视频内容的多样性而增强。这是一项关于攻击面的研究发现,面向防御者呈现——此处没有可复制的攻击载荷,只有关于多模态防护在何处失守的结构性教训。

工作原理

为隔离该效应,作者构建了 MCV-SafetyBench,一个包含 2,920 段视频的数据集。每段视频由多个短片段拼接而成,这些片段呈现与同一有害查询松散相关的多样化情境,而非一段连续场景。随后,他们在该基准上评测了八个有代表性的视频 MLLM

测量得出三项发现,它们对威胁建模最为关键:

  1. 攻击成功率随片段数量上升。 把同一请求拆分到更多短而多样的片段中,模型比面对单个片段时更可能顺从。
  2. 视频模态比图像模态更脆弱。 以视频而非静态图像呈现内容,会带来更高的攻击成功率。
  3. 动态且多样胜过静态且单一。 动态视频比静态视频更有效,情境更为多样的视频比单一情境的视频更有效。
  单张静态图像              -> 成功率较低
  一个静态片段              -> 较高
  多个短片段、               -> 更高
    情境多样                   (成功率 ∝ 片段数量 + 多样性)

论文支持的直觉是:安全对齐主要在文本和单张图像上训练与测试,因此模型的拒绝行为在这些模态上校准得最好。把一个请求摊薄到许多短而情境多样的片段,会稀释任一帧的”有害信号”,却仍让模型重建出整体意图——安全分类器看到的是碎片,推理核心看到的是全貌。

这与更广泛的文献一致。2026 年 5 月的研究 Jailbreaking Vision-Language Models Through the Visual Modality(arXiv:2605.00583)从另一角度得出相同结论——视觉输入路径是反复出现的薄弱环节;而 Qi 等人 AAAI 2024 的奠基性工作 Visual Adversarial Examples Jailbreak Aligned Large Language Models(arXiv:2306.13213)早已论证”视觉输入连续且高维的特性使其成为薄弱环节”。2026 年的这篇论文把这一脉络从图像延伸到了视频的时间性、多片段结构。

为何重要

视频输入早已不再罕见。随着可接收上传片段的 MLLM 进入消费级助手、内容审核流水线,以及观看屏幕录像或摄像头画面的智能体工作流,内容到达所经由的模态本身就成了攻击面的一部分。本研究的结果表明,攻击者无需经过对抗性优化的扰动,仅凭选择视频而非文本或图像,并将请求拆分为多样化片段,就能让胜算倾向自己一方。

诚实的表述是有边界的:这些是作者在自有基准上、针对八个模型得出的结果,并非经独立复现的保证;绝对数值取决于具体模型和有害性判定器。但其方向——片段越多、越多样,绕过越多——被一致地报告出来,并为防御者指明了该关注之处。

防御

论文自身的缓解措施以及实践要点,均不需要任何攻击代码:

  1. 将视频路径视为一等的审核边界。 若你的安全分类器只看到提示文本或单帧采样图像,它恰恰对本研究指认为最薄弱的通道视而不见。应沿时间轴采样并筛查多帧,而非单张缩略图。
  2. 借用更稳健的模态。 作者提出的防御利用图像模态相对更高的稳健性——在模型据此行动之前,让视频内容经由对齐更好的图像路径重新核查。跨模态一致性检查是此处的具体范式。
  3. 跨片段聚合意图。 由于风险在多样片段上累积,应针对组合意图评估整个多片段输入,而非孤立地为每个片段打分。逐片段放行每个碎片的过滤器,仍可能放过拼装后的请求。
  4. 限流并标记碎片化。 以大量彼此无关的短片段递交的请求是一种异常,值得标记以做更严格的审查,尤其是在自动摄入媒体的智能体流水线中。
  5. 用视频测试,而不仅是文本。 在红队套件中加入视频与多片段用例。仅覆盖文本和单张图像的安全评测,会高估一个具备视频能力的模型的实际对齐程度。

现状

项目参考日期备注
多片段视频越狱arXiv:2606.021112026-06-01ACL 2026 主会;MCV-SafetyBench(2,920 段视频),8 个视频 MLLM
关键发现arXiv:2606.021112026-06-01成功率随片段数量、多样性与动态性上升;视频 > 图像
提出的防御arXiv:2606.021112026-06-01利用图像模态的相对稳健性
视觉模态越狱(VLM)arXiv:2605.005832026-05佐证视觉路径为反复出现的薄弱环节
视觉对抗样本arXiv:2306.13213AAAI 2024奠基性:高维视觉输入即薄弱环节

要点不是”视频模型已被攻破”,而是安全对齐不会在各模态间均匀迁移——而视频,尤其是碎片化的多片段视频,是当下的柔软边缘。若你部署或运营具备视频能力的助手,这一通道本身就应纳入你的威胁模型。

本文介绍的是一项已公开发表的安全研究发现,仅供防御与教育用途,不含任何可利用的攻击载荷。

Sources