系统:运行中
← 返回所有攻击
ADVERSARIAL MEDIUM NEW

PRAC:通过注意力劫持电脑操作智能体的选择

蒂宾根 2026 年 4 月的一篇论文表明,仅一张被难以察觉地扰动的商品图片,就能集中电脑操作智能体的视觉注意力,从而左右其 82% 的选择,而完全不触及其输出。

2026-06-22 // 6 min affects: qwen3-vl, glm-4.6v, kimi-vl, evocua, computer-use-agents

这是什么?

电脑操作智能体(computer-use agents,CUA)越来越多地代替用户在图形界面上行动:浏览网页、填写表单、做出购买决策。它们构建在视觉语言模型(VLM)之上,由模型「看」屏幕并决定点击何处。来自**蒂宾根人工智能中心(蒂宾根大学)**的 Dominik Seip 与 Matthias Hein 在 arXiv 上发表了论文 arXiv:2604.08005,提出了 PRAC——通过注意力集中实现偏好重定向(Preference Redirection via Attention Concentration),这是一种悄然操纵智能体最终选择的攻击。

其独特之处在于:PRAC 并不像提示注入或恶意弹窗那样试图破坏模型的输出,而是通过「将模型的注意力重定向到一个隐蔽的对抗补丁」来操纵其内部偏好。在电商案例研究中,一张被扰动的商品图片使智能体「看见」并因此选中攻击者的商品,而该图片仍然显示真实商品,扰动对人类而言几乎不可察觉。

工作原理

PRAC 针对的是语言模型解码器内部的注意力分数,而非智能体输出的定位坐标或选择字符串。从概念上讲,对抗性商品图片被优化为在模型各层中相对于上下文中的其他图片「吸引异常高的注意力分数」;其目标被表述为最大化落在目标图片上的视觉注意力占比。在做出选择的时刻,这张图片主导了智能体所关注的内容,于是被选中。

由于操纵存在于内部注意力之中,而非产生的文本或动作,因此具有很高的可迁移性:它无需针对固定的输出或网格中已知的位置进行优化。扰动被限制在较小的预算 ‖δ‖∞ ≤ 8/255 之内,「小到人类要么完全察觉不到,要么至多将其视为一张低质量图片」。没有注入任何文本指令,页面本身仍然可信。

正是这种贴近现实的威胁模型令该攻击值得注意。攻击者被建模为一个恶意的第三方卖家,他「可以操纵网站上的商品图片,但无法控制网站本身」,既不能选择自己商品在网格中的位置,也不能固定智能体的输出。一个相反方向的约束是:作者「假设对 CUA 拥有白盒访问权限」(对微调变体仅为黑盒),并将这一访问要求列为当前的局限。

为何重要

在四个开放权重的 VLM 智能体——Qwen3-VL-8B、GLM-4.6V-Flash、Kimi-VL-A3B 与 EvoCUA-8B——上测试,PRAC 取得了 82.3% 的平均选择成功率,而干净基线为 20.8%(五件商品时,随机选择约为 20%),且「比次优基线高出 ≥ 15% 的选择率」。该攻击迁移到这些模型的微调后代时,成功率仅下降 0–40%,因为「对我们攻击的易受性继承自基础架构」。

这是一种针对智能体决策完整性的攻击,而非数据泄露——但其后果是商业性和对抗性的。它悄然将「智能体买了哪件商品?」变成第三方可以操控的事,并且这种选择重定向可推广到「任何需要 CUA 基于视觉信息进行自主选择的任务」。它延续了此前针对 CUA 的视觉威胁,例如对抗性弹窗,同时又规避了那些威胁所催生的、以文本为中心的防御。

防御

令人不安的发现是:常规护栏完全察觉不到它,因为智能体的行为停留在「预期的用户交互」之内,其输出也是良性的。

  1. 不要依赖输出/护栏过滤器。 在此处,那些「监控并过滤模型输出以发现安全违规的模型是无效的」——没有任何恶意字符串可供捕获。输入端的注入过滤器同样会漏掉它,因为没有注入任何文本。
  2. 提示层面的防御不够。 作者测试了 Instruction Hierarchy 与一个 Reflection Prompt;两者都被「判定为对该攻击无效」,PRAC 视模型不同仍有 58–97% 的成功率。
  3. 将视觉输入视为对抗性的。 论文指出的现实路径是模型层面的鲁棒性——「对抗训练或其他技术」——使作为 CUA 使用的 VLM 能抵御注意力操纵,而非在下游修补。
  4. 加入非视觉的选择校验。 当 CUA 做出有后果的选择(购买、审批)时,应将其建立在结构化的带外数据(价格、卖家信誉、商品 ID)之上,而非仅凭渲染出的图片,并为高价值操作保留人工介入。
  5. 限制对单一卖家素材的信任。 来自一个不受控第三方的扰动图片,不应能够主导一次选择;请使驱动决策的信号多元化。

状态

项目参考备注
论文arXiv:2604.08005Seip 与 Hein,蒂宾根人工智能中心
攻击PRAC——通过注意力集中实现偏好重定向针对解码器注意力,而非输出
测试模型Qwen3-VL-8B、GLM-4.6V-Flash、Kimi-VL-A3B、EvoCUA-8B平均 SSR 82.3% 对比干净基线 20.8%
威胁模型一张被扰动的商品图片,‖δ‖∞ ≤ 8/255,白盒微调变体为黑盒
代码「最迟在论文被接收时发布」撰文时尚未提供

要点:PRAC 提醒我们,智能体的注意力同样是一个攻击面,与其提示或输出并列。只要一张被扰动的图片能够主导 VLM 智能体所关注的内容,那些只检查文本或输出的防御就不会察觉这种操纵的到来——而持久的修复在于模型的鲁棒性,而非下游的过滤器。

Sources