RESEARCH MEDIUM NEW

StakeBench：网页代理被注入时，到底谁在买单？

来自 NTU、IBM Research 和 UIUC 的利益相关方视角基准显示：网页代理在所有被测注入目标上全部失守，而损害往往落在第三方身上，而非用户。

2026-06-12 // 6 min affects: gpt-5, gemini-2.5-flash, nanobrowser, browser-use

What is this?

StakeBench 是一个面向真实环境网页代理的提示注入基准，出自 2026 年 6 月 11 日提交到 arXiv 的论文（arXiv:2606.13385），作者来自新加坡南洋理工大学、ST Engineering、IBM Research 和伊利诺伊大学厄巴纳-香槟分校。其核心论点是：现有基准都是以攻击为中心的——只衡量注入在技术上是否成功——而在真实部署中，关键问题取决于受害者：当代理被操纵时，损害由谁承担。同一个利用手法可能伤害用户、第三方卖家或平台本身，其严重性和可见性差异极大。

How it works

StakeBench 将评估场景落在在线购物上，基于 VisualWebArena 的 OneStopMarket 实例化——这是一个功能完整的电商环境，不可信内容（评论、评分、商品元数据）会直接流入代理的上下文。该基准按承受损害的相关方（用户、卖家、平台）组织了 12 个攻击目标，通过 22 个可复用模板（9 个直接注入、13 个间接注入）实现，并在 12 个商品类目上实例化，共产生 264 个可执行的对抗用例。

每次运行按三个维度打分：攻击成功率（ASR）、任务偏离率（TDR——用户委托的任务是否被破坏？）和行为异常率（BIR——执行过程是否失稳？）。ASR 与 TDR 共同划分出四种失败状态：

状态	ASR	TDR	含义
Robust Behavior	低	低	攻击失败，任务完成
Stealthy Parasitism	高	低	攻击得手，用户毫无察觉
Misaligned Disruption	低	高	攻击失败但任务被毁
Compounded Failure	高	高	攻击目标与任务完整性同时失守

作者评估了两套接近生产形态的代理系统——NanoBrowser（多代理浏览器扩展，规划与导航模块分离）和 BrowserUse（单代理迭代式浏览器控制循环）——各自搭配 GPT-5 与 Gemini-2.5-Flash 作为底座模型。

Why it matters

整体数字相当糟糕：间接提示注入在每一种被测配置中的 ASR 都介于 41.67% 与 68.16% 之间，没有任何一个攻击目标被可靠抵御。但真正让这篇论文有价值的是相关方视角。有些攻击完全不干扰用户的委托任务就能得手——在表面完全正常的代理行为之下损害第三方卖家（隐蔽寄生）。以用户为中心的传统评估根本看不到这种失败模式：任务完成了，用户满意了，代价却由别人承担。

另有两个发现值得注意。其一，底座模型的选择比架构更具决定性：从 GPT-5 换成 Gemini-2.5-Flash，NanoBrowser 的间接注入 ASR 上升 26.49 个百分点，BrowserUse 上升 6.2 个百分点，其中 BrowserUse-Gemini 录得全部配置中最差的 TDR（45.09%）和 BIR（28.85%）。其二，针对商品图片的视觉操纵初步实验表明，注入面不止于文本——仅靠评分信号无法抵消视觉影响。

Defenses

论文只刻画了脆弱性，把防御评估留给后续工作，但其结论可直接转化为实践。请按相关方建模威胁面：不要只问”我的代理会不会被注入”，而要问”被注入后谁会受害”——面向用户的任务成功并不等于安全。把评论、评分和商品元数据当作进入代理上下文的不可信通道，在抵达模型前做来源隔离或净化。任何底座模型替换在上线前都应重新测评：StakeBench 显示在架构完全相同的情况下，换模型可使 ASR 波动超过 26 个百分点。监控过程级信号（工具调用异常、导航不稳定——即 BIR 的对应物）而非只看结果，因为隐蔽寄生不会破坏结果。对电商平台运营方而言：由代理代办的购买行为会把欺诈动机转向针对代理的内容级操纵，值得为此建立专门的滥用检测管线。

Status

项目	详情
论文	arXiv:2606.13385，2026 年 6 月 11 日提交
基准	264 个用例、22 个模板、12 个目标——已在 GitHub 开源（StakeBench/SBC）
被测系统	NanoBrowser 与 BrowserUse，搭配 GPT-5 与 Gemini-2.5-Flash
最差间接注入 ASR	68.16%（各配置范围 41.67–68.16%）
修复状态	并非单一厂商缺陷——而是对网页代理系统性弱点的度量