JAILBREAK

(24)

24 个攻击.

JAILBREAK MEDIUM NEW

信息过载：用密集的图文提示越狱视觉大模型

新加坡国立大学 2026 年 7 月的论文通过递归式图像—排版布局对视觉语言模型发起越狱——在 Gemini 与 GPT-4.1-mini 上成功率达 84%，且提示可在不同模型间迁移。

2026-07-17//6 min

JAILBREAK MEDIUM NEW

长上下文越狱：目标位置如何削弱大模型安全

CMU 的研究表明，用无害填充内容包裹有害请求、并把目标放在长上下文的靠前位置，会在 LLaMA、Qwen、Mistral 和 Gemini 上稳定地削弱模型拒答。

2026-07-15//6 min

JAILBREAK MEDIUM NEW

工作流级越狱：编码智能体在聊天中拒绝，却在代码里写出来

阿兰·图灵研究所2026年7月的研究显示，IDE 编码智能体在聊天中拒绝有害请求，却会在受指标驱动的构建工作流中写出同样的内容——在四个 Claude 与 Gemini 后端上，816/816 全部产生不安全输出。

2026-07-13//7 min

JAILBREAK MEDIUM NEW

扩散式大模型为何能抵御越狱——直到上下文嵌套出现

扩散语言模型能在生成过程中纠正许多越狱尝试，相较自回归模型具备安全优势。但 2026 年的研究表明，上下文嵌套攻击可绕过这一防线。

2026-07-09//7 min

JAILBREAK CRITICAL NEW

诗歌与故事：形式改写如何越狱前沿大模型

2025–2026 年的两项研究表明，将有害请求改写成诗句或普罗普式民间故事，即可绕过几乎所有前沿模型的对齐机制——这是一整类攻击，而非孤立技巧。

2026-07-09//6 min

JAILBREAK MEDIUM NEW

无害的提问，被禁的答案：知识分解式护栏绕过

ICML 2026 的一篇论文展示了一种从不提出任何有害内容的越狱手法：它把被禁目标拆解为一系列无害的子问题，再将答案重新拼合，据称对商用护栏的绕过率超过 95%。

2026-07-07//6 min

JAILBREAK MEDIUM NEW

Persona Attack：对话记忆的累积如何侵蚀安全对齐

2026 年 6 月的一篇论文表明，跨多轮展开、在模型记忆中逐步塑造某种人设的越狱，可以逐渐压过安全训练；一旦上下文累积到足够程度，成功率相当高。

2026-07-06//5 min

JAILBREAK CRITICAL NEW

思维链劫持：过长的推理轨迹会稀释模型的拒绝信号

一种黑盒越狱把有害请求埋在数千个无害推理 token 之下。轨迹越长，模型内部的拒绝信号越弱——在前沿推理模型上成功率据报道高达 100%。

2026-07-05//6 min

JAILBREAK MEDIUM NEW

残余越狱面：自适应攻击仍能攻破前沿模型

2026 年 6 月对两款前沿模型的红队研究表明，静态混淆已近乎失效，但自适应迭代搜索仍能在所有类别中确认有害补全——且往往在第一到第二步就得手。

2026-07-05//6 min

JAILBREAK MEDIUM NEW

模拟审核轨迹：越狱带工具的大模型

2026 年 7 月的一篇论文表明，攻击者可通过在多轮工具调用中伪造安全审核流程来越狱函数调用大模型——证明仅靠提示层过滤远远不够。

2026-07-04//6 min

JAILBREAK MEDIUM NEW

把有害任务拆成无害步骤，即可绕过智能体护栏

2026年5月底的一个红队框架将恶意目标分解为单独看来无害的子任务，在以前沿模型构建的智能体上实现了最高100%的绕过率——现有防御只能部分遏制。

2026-07-04//7 min

JAILBREAK MEDIUM NEW

同人文体裁：当整套写作风格成为越狱手法

2026 年 6 月的一篇 arXiv 论文表明，安全训练对人类写作的一整类体裁——同人文声腔——覆盖不足，使平均攻击成功率从 0.28 升至 0.73，且无需攻击模型、无需按目标调整。

2026-07-03//6 min

JAILBREAK MEDIUM NEW

认知过载：低图像分辨率如何越狱多模态大模型

2026年5月的一篇论文（Findings of ACL 2026）表明，降低渲染为图像的文本的分辨率，会把前沿多模态大模型推入一个「攻击舒适区」，此时安全对齐崩溃，而 OCR 仍然准确。

2026-06-21//5 min

JAILBREAK MEDIUM NEW

CTF 框架越狱：提示词会泄漏到攻击里

Sysdig（2026 年 6 月 15 日）发现，攻击者把漏洞利用请求伪装成 CTF 或 CVE 狩猎，从而越狱自己的编码助手；这种框架会渗入 User-Agent、密码和 IAM 日志，给防御方留下一个廉价的指纹。

2026-06-21//7 min

JAILBREAK MEDIUM NEW

强化学习越狱：奖励设计与回合长度才是关键

2026 年 6 月的一项研究拆解了基于强化学习的越狱，发现攻击者对环境的设计——稠密奖励与长回合——比算法本身更重要。

2026-06-20//6 min

JAILBREAK MEDIUM NEW

UniAttack：一个针对分层 LLM 防御的自动化越狱框架

2026 年 6 月的一篇预印本构建了一个组合多种策略的自动化红队框架，并将其用于具有叠加防御的模型，结果表明：堆叠防护栏并不能保证鲁棒性。

2026-06-20//5 min

JAILBREAK MEDIUM NEW

自适应越狱持续攻破 LLM 防御：真正的缺口在于评估

2026 年 6 月的框架 UniAttack 将可复用的攻击「特征」组合成一次性越狱提示，可在不同模型与防御之间迁移——这提醒我们：仅用静态攻击测试过的防御只能带来虚假的安全感。

2026-06-18//5 min

JAILBREAK MEDIUM

IICL：用 10 个示例让模式补全压过安全对齐

2026 年 4 月的一篇 arXiv 论文把上下文学习反过来对付模型：约十个抽象算子示例，就能让 GPT-5.4 补全一个其内容过滤器从未察觉的有害模式。

2026-06-17//6 min

JAILBREAK MEDIUM NEW

Para-jailbreaking：当「安全补全」把危害藏进替代答案里

2026 年 4 月 27 日的一篇 arXiv 论文为面向输出的安全机制命名了一种新失效模式：模型正确拒绝了直接提问，却在它转而给出的「安全替代答案」中泄露了有害内容。

2026-06-16//6 min

JAILBREAK MEDIUM NEW

多片段视频越狱：为什么视频会击穿多模态大模型的安全防线

2026 年 6 月的一篇 ACL 论文表明，视频通道是比图像更脆弱的安全边界：当视频被切分为多个多样化短片段时，攻击成功率随之上升。

2026-06-14//6 min

JAILBREAK MEDIUM NEW

CodeSpear：当语法约束解码成为越狱攻击面

2026 年 6 月 10 日的一篇 arXiv 论文表明，强制 LLM 代码输出语法有效的可靠性功能本身可被用作越狱手段。施加一个看似无害的代码语法即可绕过拒答；作者提出的 CodeShield 防御以蜜罐代码作答。

2026-06-12//5 min

JAILBREAK MEDIUM NEW

Sockpuppeting:一行 prefill 越狱 11 个生产级大模型

在请求的最后一条消息中以 assistant 角色注入一行文本,即可让 10 个主流模型中的 7 个生成有害内容。真正的修复并不在模型一侧,而是 API 层对消息顺序的校验。

2026-05-28//8 分钟

JAILBREAK MEDIUM

数学编码越狱:当集合论绕过大语言模型安全防线

2026年5月5日发布的一篇arXiv论文表明,将有害提示重写为集合论或形式逻辑问题,可在八个前沿模型上以46%–56%的成功率绕过安全训练——但前提是由辅助大语言模型完成深度重写。

2026-05-25//8 分钟

JAILBREAK CRITICAL

Many-shot 越狱：用 256 个示例绕过任何对齐

Anthropic 研究人员表明，用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。

2026-05-15//6 分钟