AGENTS MEDIUM NEW

Opus 4.8 系统卡为浏览器智能体的提示注入给出数字：31.5%

Anthropic 于 2026 年 5 月 28 日发布的 Claude Opus 4.8 系统卡，报告其浏览器智能体在防护措施前的劫持率为 31.5%——这是今年春季前沿实验室公布的唯一一项具体的提示注入指标。

2026-06-03 // 6 min affects: claude-opus-4-8

What is this?

2026 年 5 月 28 日，Anthropic 发布了 Claude Opus 4.8，并同时公开了一份长达 244 页的系统卡，衡量该模型在四个智能体场景下的表现：网页浏览、编写代码、智能体间协作以及外部工具调用。最受关注的是一个数字。当红队将对抗性网页内容指向浏览器智能体时，他们在31.5% 的情况下成功将其劫持——而这是在防护措施之前。这是针对原始模型测得的提示注入成功率，由厂商在其自己的部署前报告中披露。

数字本身并不是重点，披露才是。正如多家媒体所指出的，这是今年春季前沿实验室公开记录的唯一一项具体的提示注入指标。据 Crypto Briefing 对各份系统卡的解读，OpenAI 仅报告了一个场景（连接器），Google 将该议题移入了单独的安全框架文档，而 Meta 则根本没有为闭源模型发布系统卡。我们之所以报道此事，是因为公开的基线易感率正是防御者所需要、却很少能获得的信息。

How it works

浏览器智能体是一个被赋予 读取页面 → 决策 → 行动（点击、填写、调用工具、抓取 URL）循环的 LLM。在此情境下，提示注入是指嵌入在智能体所读取内容中的恶意指令——网页、工具响应、文件或 API 载荷——被解释为命令而非数据。由于智能体的输出会驱动一个行动层，一次成功的注入便从”错误的文本”升级为”错误的行动”：导航至攻击者的 URL、外泄页面内容，或串联一次工具调用。这正是致命三要素模式——不可信输入、私有数据访问与外泄通道——在浏览器中的具体化。

31.5% 这一数字是防护措施前的测量值，反映了模型在没有任何防御层处于活动状态时，遵循注入指令的内在倾向。此处不复现任何攻击载荷；真正重要的是解读框架：

Measurement                          What it tells you
-----------------------------------  ------------------------------------------
Pre-safeguard hijack rate (31.5%)    Raw model susceptibility — the worst case
                                     your guardrails must absorb
Post-safeguard rate (production)     Residual risk after filtering, monitoring,
                                     egress controls and approval gates
Capability score (Online-Mind2Web    How deep a successful injection can reach:
84%, per Anthropic)                  a more capable agent carries a bad
                                     instruction further into real systems

有两点让这一基线变得有意义。其一，能力与易感性同步上升：Anthropic 报告 Opus 4.8 在 Online-Mind2Web 上达到 84%，是其最强的浏览器智能体成绩，这意味着被劫持的会话在被阻止前能做的事情更多。其二，生产部署并非原始模型——Anthropic 表示，真实部署会叠加防护措施、监控与过滤，从而降低实际利用率。诚实的解读是：31.5% 是你的隔离架构必须承受的负载，而不是你上线时的实际比率。

Why it matters

对防御者而言，厂商公开的防护措施前数字改变了规划智能体部署的方式。基线易感率让你能够对残余风险进行推理，而非凭空猜测：如果原始模型大约每三次就会遵循一次注入指令，那么你的防护措施、外泄控制与审批关卡正在承担主要工作，必须据此加以评估。

它也重塑了采购视角。能力标题（84% 任务完成率）与易感性标题（31.5% 防护措施前劫持率）描述的是同一个模型，必须放在一起解读——更高的自主性加上不可忽视的注入率，意味着一个被污染的页面能够走得更远。而实验室之间的透明度差距本身也很重要：当只有一家厂商公布该数字时，买方就无法比较各浏览器智能体的安全态势，而”未披露”绝不应被误读为”无易感性”。

Defenses

防护措施前的比率提醒我们：模型层面的抵抗力只是一层，而非边界。请将任何浏览器智能体都视为”易被混淆的”，并据此设计架构。

控制外泄，而不仅是输入。 假定部分注入会得手。限制智能体能将数据发送到何处：对出站域名设白名单、阻止携带嵌入数据的任意 URL 抓取、对任何跨源或跨系统操作要求显式审批。
严格约束凭据与会话。 短时令牌、狭窄的 OAuth 范围、隔离的运行时，以及不保留持久会话。在严格受限环境中发生的劫持只是一次被控制的测试结果；而同样的劫持若伴随宽泛的文件或仓库访问权限，就是一起安全事件。
对高影响操作设置关卡。 在不可逆或敏感步骤之前加入人工审批——发送数据、执行交易、写入生产环境、删除文件。浏览器智能体可以提议；由人或策略引擎确认。
将不可信内容与指令分离。 应用情境完整性与信息流控制：将页面内容和工具输出标记为数据，绝不允许其升级到驱动操作的指令通道。
索取防护措施后的数字。 评估任何智能体时，向厂商索取其防御之后的残余劫持率，以及隔离逃逸与事件处理数据。防护措施前的基线只是对话的开端，而非答案。
记录并审查操作流。 审计轨迹——智能体决定了什么、做了什么——正是将模型的错误决策转化为被捕获的测试、而非无声入侵的关键。

Status

项目	来源	日期	备注
Claude Opus 4.8 发布	Anthropic	2026-05-28	与 Opus 4.7 同价；全面可用
系统卡（244 页）	Anthropic	2026-05-28	四个智能体场景：浏览、编码、智能体间、工具
浏览器智能体防护措施前劫持率	系统卡	2026-05-28	31.5%，原始模型，防御层之前
Online-Mind2Web 能力	Anthropic	2026-05-28	84%——所报告的最强浏览器智能体成绩
报道 / 透明度差距分析	Crypto Briefing、WinBuzzer	2026-06-01 → 2026-06-02	今年春季唯一公布具体数字的前沿实验室

要点不在于”Claude 的浏览器智能体不安全”——每一个浏览器智能体都存在易感性，只是大多数厂商根本没有公布数字。要点在于：31.5% 是你的隔离层必须解决的问题规模，而一份公开的防护措施前基线，正是安全架构师应当向每一家智能体厂商索取的那类材料。