JAILBREAK MEDIUM NEW

多片段视频越狱：为什么视频会击穿多模态大模型的安全防线

2026 年 6 月的一篇 ACL 论文表明，视频通道是比图像更脆弱的安全边界：当视频被切分为多个多样化短片段时，攻击成功率随之上升。

2026-06-14 // 6 min affects: video-mllms, multimodal-llms, vision-language-models

这是什么？

2026 年 6 月 1 日，Choongwon Kang、Seungjong Sun、Hyunmin Jun 与 Jang Hyun Kim 发表了 Jailbreaking Multimodal Large Language Models using Multi-Clip Video（arXiv:2606.02111），该论文被 ACL 2026 主会接收。它探讨了早期视觉越狱研究遗留的一个问题：既然多模态大语言模型（MLLM）已能处理视频，那么视频输入的哪些属性真正削弱了它们的安全对齐？

作者给出的结论是：视频通道是一条可被量化的、比静态图像通道更脆弱的安全边界，且这种脆弱性会随视频内容的多样性而增强。这是一项关于攻击面的研究发现，面向防御者呈现——此处没有可复制的攻击载荷，只有关于多模态防护在何处失守的结构性教训。

工作原理

为隔离该效应，作者构建了 MCV-SafetyBench，一个包含 2,920 段视频的数据集。每段视频由多个短片段拼接而成，这些片段呈现与同一有害查询松散相关的多样化情境，而非一段连续场景。随后，他们在该基准上评测了八个有代表性的视频 MLLM。

测量得出三项发现，它们对威胁建模最为关键：

攻击成功率随片段数量上升。 把同一请求拆分到更多短而多样的片段中，模型比面对单个片段时更可能顺从。
视频模态比图像模态更脆弱。 以视频而非静态图像呈现内容，会带来更高的攻击成功率。
动态且多样胜过静态且单一。 动态视频比静态视频更有效，情境更为多样的视频比单一情境的视频更有效。

  单张静态图像              -> 成功率较低
  一个静态片段              -> 较高
  多个短片段、               -> 更高
    情境多样                   （成功率 ∝ 片段数量 + 多样性）

论文支持的直觉是：安全对齐主要在文本和单张图像上训练与测试，因此模型的拒绝行为在这些模态上校准得最好。把一个请求摊薄到许多短而情境多样的片段，会稀释任一帧的”有害信号”，却仍让模型重建出整体意图——安全分类器看到的是碎片，推理核心看到的是全貌。

这与更广泛的文献一致。2026 年 5 月的研究 Jailbreaking Vision-Language Models Through the Visual Modality（arXiv:2605.00583）从另一角度得出相同结论——视觉输入路径是反复出现的薄弱环节；而 Qi 等人 AAAI 2024 的奠基性工作 Visual Adversarial Examples Jailbreak Aligned Large Language Models（arXiv:2306.13213）早已论证”视觉输入连续且高维的特性使其成为薄弱环节”。2026 年的这篇论文把这一脉络从图像延伸到了视频的时间性、多片段结构。

为何重要

视频输入早已不再罕见。随着可接收上传片段的 MLLM 进入消费级助手、内容审核流水线，以及观看屏幕录像或摄像头画面的智能体工作流，内容到达所经由的模态本身就成了攻击面的一部分。本研究的结果表明，攻击者无需经过对抗性优化的扰动，仅凭选择视频而非文本或图像，并将请求拆分为多样化片段，就能让胜算倾向自己一方。

诚实的表述是有边界的：这些是作者在自有基准上、针对八个模型得出的结果，并非经独立复现的保证；绝对数值取决于具体模型和有害性判定器。但其方向——片段越多、越多样，绕过越多——被一致地报告出来，并为防御者指明了该关注之处。

防御

论文自身的缓解措施以及实践要点，均不需要任何攻击代码：

将视频路径视为一等的审核边界。 若你的安全分类器只看到提示文本或单帧采样图像，它恰恰对本研究指认为最薄弱的通道视而不见。应沿时间轴采样并筛查多帧，而非单张缩略图。
借用更稳健的模态。 作者提出的防御利用图像模态相对更高的稳健性——在模型据此行动之前，让视频内容经由对齐更好的图像路径重新核查。跨模态一致性检查是此处的具体范式。
跨片段聚合意图。 由于风险在多样片段上累积，应针对组合意图评估整个多片段输入，而非孤立地为每个片段打分。逐片段放行每个碎片的过滤器，仍可能放过拼装后的请求。
限流并标记碎片化。 以大量彼此无关的短片段递交的请求是一种异常，值得标记以做更严格的审查，尤其是在自动摄入媒体的智能体流水线中。
用视频测试，而不仅是文本。 在红队套件中加入视频与多片段用例。仅覆盖文本和单张图像的安全评测，会高估一个具备视频能力的模型的实际对齐程度。

现状

项目	参考	日期	备注
多片段视频越狱	arXiv:2606.02111	2026-06-01	ACL 2026 主会；MCV-SafetyBench（2,920 段视频），8 个视频 MLLM
关键发现	arXiv:2606.02111	2026-06-01	成功率随片段数量、多样性与动态性上升；视频 > 图像
提出的防御	arXiv:2606.02111	2026-06-01	利用图像模态的相对稳健性
视觉模态越狱（VLM）	arXiv:2605.00583	2026-05	佐证视觉路径为反复出现的薄弱环节
视觉对抗样本	arXiv:2306.13213	AAAI 2024	奠基性：高维视觉输入即薄弱环节

要点不是”视频模型已被攻破”，而是安全对齐不会在各模态间均匀迁移——而视频，尤其是碎片化的多片段视频，是当下的柔软边缘。若你部署或运营具备视频能力的助手，这一通道本身就应纳入你的威胁模型。

本文介绍的是一项已公开发表的安全研究发现，仅供防御与教育用途，不含任何可利用的攻击载荷。

多片段视频越狱：为什么视频会击穿多模态大模型的安全防线

这是什么？

工作原理

为何重要

防御

现状

Sources