ADVERSARIAL MEDIUM NEW

PRAC：通过注意力劫持电脑操作智能体的选择

蒂宾根 2026 年 4 月的一篇论文表明，仅一张被难以察觉地扰动的商品图片，就能集中电脑操作智能体的视觉注意力，从而左右其 82% 的选择，而完全不触及其输出。

2026-06-22 // 6 min affects: qwen3-vl, glm-4.6v, kimi-vl, evocua, computer-use-agents

这是什么？

电脑操作智能体（computer-use agents，CUA）越来越多地代替用户在图形界面上行动：浏览网页、填写表单、做出购买决策。它们构建在视觉语言模型（VLM）之上，由模型「看」屏幕并决定点击何处。来自**蒂宾根人工智能中心（蒂宾根大学）**的 Dominik Seip 与 Matthias Hein 在 arXiv 上发表了论文 arXiv:2604.08005，提出了 PRAC——通过注意力集中实现偏好重定向（Preference Redirection via Attention Concentration），这是一种悄然操纵智能体最终选择的攻击。

其独特之处在于：PRAC 并不像提示注入或恶意弹窗那样试图破坏模型的输出，而是通过「将模型的注意力重定向到一个隐蔽的对抗补丁」来操纵其内部偏好。在电商案例研究中，一张被扰动的商品图片使智能体「看见」并因此选中攻击者的商品，而该图片仍然显示真实商品，扰动对人类而言几乎不可察觉。

工作原理

PRAC 针对的是语言模型解码器内部的注意力分数，而非智能体输出的定位坐标或选择字符串。从概念上讲，对抗性商品图片被优化为在模型各层中相对于上下文中的其他图片「吸引异常高的注意力分数」；其目标被表述为最大化落在目标图片上的视觉注意力占比。在做出选择的时刻，这张图片主导了智能体所关注的内容，于是被选中。

由于操纵存在于内部注意力之中，而非产生的文本或动作，因此具有很高的可迁移性：它无需针对固定的输出或网格中已知的位置进行优化。扰动被限制在较小的预算 ‖δ‖∞ ≤ 8/255 之内，「小到人类要么完全察觉不到，要么至多将其视为一张低质量图片」。没有注入任何文本指令，页面本身仍然可信。

正是这种贴近现实的威胁模型令该攻击值得注意。攻击者被建模为一个恶意的第三方卖家，他「可以操纵网站上的商品图片，但无法控制网站本身」，既不能选择自己商品在网格中的位置，也不能固定智能体的输出。一个相反方向的约束是：作者「假设对 CUA 拥有白盒访问权限」（对微调变体仅为黑盒），并将这一访问要求列为当前的局限。

为何重要

在四个开放权重的 VLM 智能体——Qwen3-VL-8B、GLM-4.6V-Flash、Kimi-VL-A3B 与 EvoCUA-8B——上测试，PRAC 取得了 82.3% 的平均选择成功率，而干净基线为 20.8%（五件商品时，随机选择约为 20%），且「比次优基线高出 ≥ 15% 的选择率」。该攻击迁移到这些模型的微调后代时，成功率仅下降 0–40%，因为「对我们攻击的易受性继承自基础架构」。

这是一种针对智能体决策完整性的攻击，而非数据泄露——但其后果是商业性和对抗性的。它悄然将「智能体买了哪件商品？」变成第三方可以操控的事，并且这种选择重定向可推广到「任何需要 CUA 基于视觉信息进行自主选择的任务」。它延续了此前针对 CUA 的视觉威胁，例如对抗性弹窗，同时又规避了那些威胁所催生的、以文本为中心的防御。

防御

令人不安的发现是：常规护栏完全察觉不到它，因为智能体的行为停留在「预期的用户交互」之内，其输出也是良性的。

不要依赖输出/护栏过滤器。 在此处，那些「监控并过滤模型输出以发现安全违规的模型是无效的」——没有任何恶意字符串可供捕获。输入端的注入过滤器同样会漏掉它，因为没有注入任何文本。
提示层面的防御不够。 作者测试了 Instruction Hierarchy 与一个 Reflection Prompt；两者都被「判定为对该攻击无效」，PRAC 视模型不同仍有 58–97% 的成功率。
将视觉输入视为对抗性的。 论文指出的现实路径是模型层面的鲁棒性——「对抗训练或其他技术」——使作为 CUA 使用的 VLM 能抵御注意力操纵，而非在下游修补。
加入非视觉的选择校验。 当 CUA 做出有后果的选择（购买、审批）时，应将其建立在结构化的带外数据（价格、卖家信誉、商品 ID）之上，而非仅凭渲染出的图片，并为高价值操作保留人工介入。
限制对单一卖家素材的信任。 来自一个不受控第三方的扰动图片，不应能够主导一次选择；请使驱动决策的信号多元化。

状态

项目	参考	备注
论文	arXiv:2604.08005	Seip 与 Hein，蒂宾根人工智能中心
攻击	PRAC——通过注意力集中实现偏好重定向	针对解码器注意力，而非输出
测试模型	Qwen3-VL-8B、GLM-4.6V-Flash、Kimi-VL-A3B、EvoCUA-8B	平均 SSR 82.3% 对比干净基线 20.8%
威胁模型	一张被扰动的商品图片，`‖δ‖∞ ≤ 8/255`，白盒	微调变体为黑盒
代码	「最迟在论文被接收时发布」	撰文时尚未提供

要点：PRAC 提醒我们，智能体的注意力同样是一个攻击面，与其提示或输出并列。只要一张被扰动的图片能够主导 VLM 智能体所关注的内容，那些只检查文本或输出的防御就不会察觉这种操纵的到来——而持久的修复在于模型的鲁棒性，而非下游的过滤器。

PRAC：通过注意力劫持电脑操作智能体的选择

这是什么？

工作原理

为何重要

防御

状态

Sources