AGENTS MEDIUM NEW

Blindfold:动作级越狱绕过具身 LLM 的语义防御

SenSys '26 论文(2026 年 5 月 11–14 日)提出 Blindfold,一种通过将恶意目标拆解为单独看似无害的动作来越狱具身 LLM 的自动化框架——在真实 6-DoF 机械臂上将攻击成功率较语义级基线提高最多 53%。

2026-05-29 // 6 min affects: gpt-4o, voxposer, code-as-policies, progprompt, embodied-llm-planners

What is this?

发表于 ACM SenSys ‘26(法国圣马洛,2026 年 5 月 11–14 日)、并于 2026 年 3 月 2 日提交到 arXiv(2603.01414)的论文 Jailbreaking Embodied LLMs via Action-level Manipulation 提出 Blindfold,一种针对驱动物理机器人的 LLM 规划器的自动化攻击框架。该工作由香港理工大学与剑桥大学团队完成,延续了 BadRobot(Zhang 等,ICLR 2025,arXiv 2407.20242)的范式,但将攻击面从提示词语义转移到了动作链本身。核心结果:在具身 AI 模拟器以及一台真实的 6-DoF 机械臂上,Blindfold 相对于此前语义越狱基线,将攻击成功率(ASR)最高提升 53%、任务成功率(TSR)最高提升 68%,即便面对最先进的语义防护也是如此。

How it works

具身 LLM 将自然语言指令翻译成一连串低层机器人动作(抓、放、倒、移动)。已公开的多数防御位于语言层:对用户提示与 LLM 生成的文本计划进行分类以判断是否存在恶意意图。Blindfold 通过在动作空间而非提示空间内进行推理,绕过了这一机制。

框架由三个顺序模块构成。

Command Transformer(用「武器化」LLM 做代理规划)。 Blindfold 并不直接攻击生产环境中的具身 LLM,而是运行一个本地代理 LLM,其安全对齐已被剥离——作者称之为Adversarial Proxy Planning。给定一个恶意目标和目标环境描述后,代理将目标拆分为一条动作链,每一步看上去都很普通(搬动物体 A、打开仓 B、把 A 放进 B)。这条链随后被交给目标具身系统执行,而目标系统无法识别整条链组合后的危害。

Intent Obfuscator。 作者观察到,即便如此,语义防御仍能识别许多动作链——因为这些步骤会聚集成可辨识的活动模式。混淆器识别出主导动作(对有害结果贡献最大的那一步),并在其周围注入掩护动作——上下文上合理的「噪声」。单纯随机噪声会破坏链的连贯性,降低 TSR;Blindfold 的掩护动作根据环境生成,使执行能在混淆下保留下来。

Rule-Based Verifier。 武器化的代理 LLM 偶尔会产生不可行的序列(动作冲突、缺失前置条件)。一个确定性的验证器把场景编码成符号图,并按前置条件/效果规则检查动作链。若发现错误,会将结构化反馈返回给代理,直到产出合法的动作序列。这种规划器–验证器迭代,是动作链在物理世界中可执行的关键。

论文将威胁模型严格界定为 no-box 攻击者:仅通过文本或语音输入对接公开部署的具身 LLM,且不掌握生产模型的内部信息。评估覆盖三种主流具身 LLM 栈——Voxposer、Code as Policies 与 ProgPrompt——基于 GPT-4o 后端,对抗当时最强的语义安全防御。

Why it matters

这一结果记录了一个交付机器人或执行器耦合 LLM 的防御团队无法忽视的安全缺口。此前主流假设是:对用户输入做语义过滤、对生成的计划做输出分类,基本就能覆盖大多数对抗行为。Blindfold 证明,只要攻击者能编排一连串看似无害的动作,就能在不说出任何危险词语的前提下产生真实的物理伤害结果,而且这一现象不仅出现在模拟器中,也出现在一台实验室级别的 6-DoF 机械臂上。

这与 OWASP Top 10 for Agentic Applications 2026 直接相关。该框架将目标错配、工具误用与级联失败列为跨数字与物理环境运行的自主系统的首要风险。动作级越狱正是「级联失败」类风险的具体实例:每一步都可接受,组合起来则不然。

风险等级目前仍属中等,因为 LLM 规划的物理机器人部署规模有限,且攻击假设代理能为目标环境建模。但随着具身 LLM 走出实验室、进入仓库、医院、零售与家庭场景,风险将随之上升。

Defenses

把安全检查从提示词转移到动作图。 在世界模型中以「禁止终态目标」表达约束,然后据此校验计划的组合结果,而不仅是其自然语言描述。符号化的前置条件与效果(也正是 Blindfold 的验证器所利用的表示)是合适的底层:把「物体 X 永远不应被置于受热设备 Y 内」编码为对执行后世界状态的可达性约束,并拒绝任何模拟终态违反约束的计划。

在任何执行器动作之前先跑一次物理世界仿真。 数字孪生或快速正向模型用于预测最终世界状态,使防御方能整体而非逐步评估动作链的后果。Blindfold 的根本论点就是:逐步安全并不等于整体安全。

按上下文限制动作词表。 药房机器人不需要操作烤箱;厨房助手不需要拆解医疗设备。狭窄、上下文化的动作允许清单(allow-list)能压缩可行对抗链的搜索空间,与 OWASP 的「tool misuse」缓解模式相一致。

把人类指令视为受保护的信任边界。 进入具身 LLM 的语音与文本通道应受到身份绑定(谁有权下达执行器级指令)、会话日志记录,以及对任何高风险动作(加热、切割、倾倒、举过人体)的显式确认。

以 OWASP Top 10 for Agentic Applications 2026 为基线。 将具身 LLM 的部署与其目标劫持、工具误用、流氓代理等类别对照排查,并在动作层而非仅在提示层进行红队演练。2025–2026 年的另一条研究主线也已表明:只在静态基准上评估的防御,在自适应攻击者面前并不奏效。

Status

项目	参考	日期	备注
论文,动作级攻击框架	Jailbreaking Embodied LLMs via Action-level Manipulation,arXiv 2603.01414	2026-03-02(预印本)/ 2026-05-11(SenSys)	Blindfold 框架,ASR +53%,TSR +68%
早期语义工作	BadRobot,arXiv 2407.20242	2024-07(v1)/ 2025(ICLR)	通过语音通道越狱具身 LLM
评估目标栈	Voxposer、Code as Policies、ProgPrompt	—	评估基于 GPT-4o 后端
框架对齐	OWASP Top 10 for Agentic Applications 2026	2026-02	目标劫持、工具误用、级联失败

对防御方而言,核心结论是结构性的:动作级安全需要动作级推理。随着 LLM 驱动的机器人持续扩张,信任边界必须从「用户是否说了危险的话」转向「最终世界状态是否可接受」——这一转变,将定义下一代具身 AI 防护方案。