DEFENSE MEDIUM NEW

WARD:共同演化的护栏模型,抵御针对Web代理的自适应提示注入

新加坡国立大学2026年5月14日发布的论文提出WARD——一个由带记忆的对抗性攻击者训练而成的护栏模型,在Web代理提示注入的分布外基准上报告接近完美的召回率。

2026-05-29 // 8 min affects: web-agents, browser-use, llama-guard-4, prompt-guard-1, gpt-oss-safeguard

What is this?

2026年5月14日,Tri Cao、Yulin Chen、Hieu Cao、Yibo Li、Khoi Le、Thong Nguyen、Yuexin Li、Yufei He、Yue Liu、Shuicheng Yan和Bryan Hooi(新加坡国立大学,共同作者来自University of Science和越南国家大学胡志明市分校)在arXiv上发表了WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections(2605.15030)。代码和模型以CC BY 4.0许可证发布在github.com/caothientri2001vn/WARD-WebAgent。

WARD是一个面向Web代理的护栏模型——一个与浏览器代理并行运行的侧车分类器,在代理对其行动之前,标记嵌入在HTML或屏幕截图中的提示注入内容。论文有两点贡献:一个经过精心标注的大规模数据集(WARD-Base,在709个URL和10个平台上的177,585个样本),以及一种双循环对抗训练流程(A3T),针对专门设计用于绕过护栏的攻击进行加固。

摘要中的核心结果是「在分布外基准上接近完美的召回率,低误报率以保持代理的可用性,[并且]在显著分布偏移下对针对护栏和自适应攻击都保持鲁棒」,同时「与代理并行高效运行,不引入额外延迟」。

How it works

数据集和训练循环是最值得关注的部分。

WARD-Base 由Similarweb 21个类别下最常访问的50个URL构建(过滤后808个URL),加上覆盖协作系统、电子邮件、消息、电子商务和社交媒体的20个模拟平台。每个URL生成5个良性用户任务——共4,040个——并使用Browser-Use代理执行以记录真实的页面状态。作者随后列举了六种攻击目标类别——用户信息泄露、未授权动作执行、违反策略的内容生成、单步UI操纵、代理记忆操纵和效用降级——以及四种注入位置组(HTML、屏幕截图、二者皆有、无)。注入通道包括叠加通道(页脚文本、警告框、徽章、横幅、通知、内嵌聊天、弹窗)和原生通道(聊天消息、电子邮件正文、帖子和评论、README、产品描述)。所得集合包含90,802个良性样本和86,783个恶意样本。

# WARD流程的概念示意图,源自论文。
# 不复现任何针对在线系统的可执行载荷。

[ 网页或屏幕截图 ]                          # 观察模态
              │
              ▼
[ 良性用户任务 ]
              │
              ▼
[ 注入位置 ℓ ∈ {HTML, Screenshot, 二者, 无} ]
              │
              ▼
[ WARD 护栏 G_θ ] ──► (预测标签 ŷ,预测位置 ℓ̂)
              │                       │
              ▼                       ▼
       传递给代理              拒绝 + 写入遥测

训练流程包含三个阶段。阶段1是在WARD-Base上的监督训练。阶段2引入WARD-PIG,一个专用集合,包含10,500个恶意样本和10,500个良性样本,其中针对护栏的提示(Prompt Injection against Guard,「PIG」)被插入到与针对代理的提示相同的观察中——同一段内容同时尝试欺骗代理和护栏。阶段3是A3T,一种自适应对抗攻击训练循环:

内循环。 攻击模型提出对抗提示p_adv,既满足攻击目标又绕过当前护栏G_θ。验证器根据目标一致性、上下文合理性以及作为注入的有效性来过滤候选项。攻击者携带两层记忆——样本级别(以往尝试、验证器反馈、护栏预测、失败原因)和平台级别(同一URL或平台的可复用策略)——成功模式得以迁移,失败者得以改进。
外循环。 使用收集到的对抗样本通过GRPO对护栏进行微调,奖励规则为:标签正确且位置正确得1.0,标签正确但位置错误得0.5,其他情形得0.0。起始检查点是经过WARD-PIG训练的模型。

两个循环共同演化:攻击者在当前决策边界附近探测,护栏更新,攻击者再次探测。作者在WARD-Seed(从WARD-Base中保留的49个URL和4个平台)上运行此方案,并在WARD-Test(50个URL和6个平台)以及四个外部基准——Popup、EIA、VPI和WASP——上进行评估,这些基准均未用于训练WARD。

基线比较对当前生产护栏并不友好。Llama-Guard-4-12B在WARD-Test上的召回率为23.2%,F1为37.46,而在Popup基准上其召回率骤降至0.26%。GPT-Oss-Safeguard-20B在WARD-Test上达到40.67%召回率和57.82 F1,但在Popup、EIA和WASP上为0.00%。Prompt-Guard-1-86M表现同样疲弱。这些数字解释了为何需要Web代理专用的护栏:通用的LLM安全护栏并非为HTML和屏幕截图的注入面而设计,也不会泛化到它们。

Why it matters

即便不直接部署WARD,也有三个值得关注的理由。

第一,威胁模型正是大多数生产团队当前所发布的。基于浏览器的代理——OpenAI Operator、Anthropic Computer Use、ChatGPT Agent、Browser-Use、Skyvern以及一长串开源项目——都在攻击者可控的HTML和像素上运行。正如此前工作所记录的(arXiv:2507.14799,Manipulating LLM Web Agents),控制页面的攻击者可以劫持读取该页面的代理。WARD将这一威胁模型作为一等对象处理,而不是试图把通用安全分类器硬塞过来。

第二,数据集本身就是贡献。多数公开的提示注入基准(AdvBench、AgentDojo、InjecAgent)针对聊天或工具调用面,样本量最多几千。一个面向Web的177K样本语料,带有显式的通道和位置标签,且以CC BY 4.0发布,是防御社区此前没有的资源。即使忽略模型本身,各团队也可以在WARD-Base上训练和评估自己的护栏。

第三,共同演化训练模式可以迁移。A3T的内攻击者/外护栏结构可以应用于其他护栏面(聊天模板护栏、工具结果分类器、MCP服务器过滤器),前提是可以编写一个验证器来检查攻击目标的满足程度。它一般化了此前对抗鲁棒性工作(视觉中的PGD训练分类器、文本的FGSM式训练)在LLM时代护栏面上仅部分解决的模式。

Defenses

WARD本身就是一篇防御论文;此处的「防御」是面向部署Web代理团队的操作性教训,无论他们是否采用WARD。

运行一个侧车护栏,而不仅仅是提示中的指令层级。 WARD的数字有力地提醒我们:让规划LLM「忽略被注入的指令」不是一种防御。一个独立模型与代理并行查看同一观察并对其投票,带来的延迟成本很低,却能捕捉规划器看不到的一类失败。WARD的设计能够在推理时与代理并行运行,而不会成为瓶颈。

针对Web特定的注入通道进行训练。 通用的提示注入基准(聊天风格的「ignore previous instructions」攻击)无法迁移到HTML和屏幕截图面。如果您的代理读取网页,评估必须涵盖叠加通道(弹窗、横幅、通知)和原生通道(消息、评论、README、产品描述)。WARD-Base是可信的起点语料。

使用四类位置标签。 把注入当作二元分类器会丢失信息。WARD同时预测标签和位置(HTML / 屏幕截图 / 二者 / 无);这让下游策略可以根据攻击是纯文本还是视觉而做出不同决策,也为遥测提供识别对手所用通道的粒度。

对护栏本身施加压力测试。 WARD-PIG是大多数现有部署所缺失的部分。如果您的护栏是固定的模型卡或固定的系统提示,攻击者可以离线迭代,直至找到能够绕过它的内容。防御性回应是在训练集中纳入针对护栏的攻击,然后重新评估。

尽可能采用对抗共同演化。 大多数团队无法在生产中维持完整的A3T循环,但论文的结构在较小规模上可复现。即便是一两轮「生成对抗样本 → 微调护栏 → 重新测试」,也能可量度地加固已部署的过滤器,而平台级记忆模式(按URL存储有效内容)也很容易在现有红队流程之上实现。

不要假设Llama-Guard或类似方案就足够。 WARD论文中Llama-Guard-4-12B和GPT-Oss-Safeguard-20B的数字是最具可操作性的发现:作为聊天内容审核的合理默认值是可以的,但在Web代理的观察通道上,它们对恶意内容的召回不到一半,在某些基准上不到1%。如果您当前依靠一个通用安全分类器作为Web代理的唯一护栏,WARD论文就是重新测试的契机。

Status

项目	引用	日期	备注
arXiv提交	WARD v1, arXiv 2605.15030	2026-05-14	cs.CR / cs.AI
作者	Cao、Chen、Cao、Li、Le、Nguyen、Li、He、Liu、Yan、Hooi	—	NUS + University of Science + VNU-HCM
代码与模型	github.com/caothientri2001vn/WARD-WebAgent	2026-05-14	公开仓库
许可证	CC BY 4.0	2026-05-14	允许署名重用
WARD-Base	177,585个样本;709个URL + 10个平台;90,802良性 / 86,783恶意	—	六类攻击目标,四类注入位置
WARD-PIG	10,500恶意 + 10,500良性,含针对护栏的提示	—	训练护栏抵御护栏感知攻击
A3T	内攻击生成循环 + 外GRPO护栏更新循环	—	样本级与平台级记忆
外部基准	Popup、EIA、VPI、WASP	—	分布外评估
对比护栏	Llama-Guard-4-12B;GPT-Oss-Safeguard-20B;Prompt-Guard-1-86M	2024–2025	在Web专属通道上均表现不佳

Web代理的安全正从「我们有一个懂得不去执行奇怪指令的规划器」转向「我们有一个针对了解护栏的攻击者所训练的护栏」。WARD是后者模式的一份可信参考设计,光是数据集就值得一读。