系统:运行中
← 返回所有攻击
JAILBREAK MEDIUM NEW

UniAttack:一个针对分层 LLM 防御的自动化越狱框架

2026 年 6 月的一篇预印本构建了一个组合多种策略的自动化红队框架,并将其用于具有叠加防御的模型,结果表明:堆叠防护栏并不能保证鲁棒性。

2026-06-20 // 5 min affects: gpt-4, gemini, claude, deepseek, llama-3

这是什么?

2026 年 6 月 15 日 前后,研究者发布了 Automated jailbreak attack targeting multiple defense strategies(arXiv:2606.16751),介绍了一个自动化红队框架——被称为 UniAttack——并明确从防御者的视角出发构建。它不是单一的手工越狱,而是把多种已公开的越狱策略组合进一条自动化流水线,针对部署了不同且叠加防御的模型运行。其声明的目标是诊断性的:衡量堆叠异构防御是否真正带来鲁棒性。作者称在涵盖 GPT、Gemini、Claude、DeepSeek 与 Llama-3 系列的九个模型上评估了该框架。论文没有发明任何新攻击:其贡献在于系统化的自动组合与跨防御的测量,且该工件被描述为公开可用于评估。

它如何运作

在高层次上——论文省略了可操作的攻击载荷,我们也不复现任何载荷——该框架将每个目标视为位于一层或多层防御之后的黑箱。作者将这些防御归为三类:教会模型拒绝的对齐训练,如 RLHF/RLAIF;基于原则的系统,如 Anthropic 的 Constitutional AI;以及审查提示与响应的外部输入/输出过滤器。UniAttack 遍历一个越狱策略库,自动施加并重新组合这些策略,读取每个模型的响应,并持续自适应,直到目标要么稳健地拒绝,要么偏离其策略。

由于该循环是自动化且与具体策略无关的,它能以较低成本探测大量防御组合——而这正是对防御者最重要的特性。所报告的核心发现是结构性的,而非关于某个孤立提示:基于对齐的防御表现得像 软约束,它塑造了拒绝行为却没有移除底层能力,因此一个不断优化并变换手法的攻击者,往往能找到叠加防御未能共同覆盖的攻击面。

为什么重要

实际的教训是:叠加了多重防御 并不等于 我们是鲁棒的。如果每一层都是孤立地针对一组固定的静态提示进行验证,那么一个混合多种策略的统一自动化攻击者就能从各层之间的缝隙中钻过去。这呼应了该领域反复出现的结论:自适应攻击会击破静态防御驱动基于 RL 的越狱的是攻击者的环境设计而非算法本身,以及更宏观的论点——其中一些失败是 智能体读取上下文方式所固有的结构性问题arXiv:2605.17634)。它也进一步说明了为何 厂商的鲁棒性数字难以相互比较:在某一套测试平台下看似稳固的防御,可能在统一且自适应的攻击者面前崩溃。

解读该结果时有两点需要注意。这是一篇近期的工作预印本,其确切数字可能在不同版本间变化。论文是一个 测量工具,而非声称某个具体生产系统已被攻破:被测系列中包含了强大的专有防御栈,但其贡献是一种探测防御的方法,而不是针对在用产品所披露的漏洞利用。

防御措施

把任何单一防护栏都视为一层,而绝非答案。要 以对抗性且自动化的方式 评估防御,而不是针对一份固定的提示清单:用一个不断优化并混合策略的攻击者去打整条防御栈,并公布一个单一且披露的工作点(参见 为何工作点必须固定并披露)。假设对齐训练塑造了行为却没有删除能力,因此要加入 不依赖 模型选择拒绝的运行时遏制手段:最小权限的工具范围、对输出出口的过滤、对高影响动作的人工审批,以及挫败廉价自动重试的速率限制。相较于部署时即冻结的静态分类器,更应优先采用能从被拦截尝试中学习的自适应防护栏,例如 对比式安全记忆。最后,在每次模型或防御更新后都要重新测试:针对上个季度攻击者所测得的鲁棒性,并不是今天的鲁棒性。

状态

项目详情
论文Automated jailbreak attack targeting multiple defense strategies(UniAttack),arXiv:2606.16751
发布约 2026 年 6 月 15 日(工作预印本,数字可能变化)
测试系列GPT、Gemini、Claude、DeepSeek、Llama-3(报告了九个模型)
性质面向防御的自动化红队框架;工件被描述为公开
生产影响未披露——诊断性测量,未公开可操作的攻击载荷

Sources