系统:运行中
← 返回所有攻击
AGENTS MEDIUM NEW

Opus 4.8 系统卡为浏览器智能体的提示注入给出数字:31.5%

Anthropic 于 2026 年 5 月 28 日发布的 Claude Opus 4.8 系统卡,报告其浏览器智能体在防护措施前的劫持率为 31.5%——这是今年春季前沿实验室公布的唯一一项具体的提示注入指标。

2026-06-03 // 6 min affects: claude-opus-4-8

What is this?

2026 年 5 月 28 日,Anthropic 发布了 Claude Opus 4.8,并同时公开了一份长达 244 页的系统卡,衡量该模型在四个智能体场景下的表现:网页浏览、编写代码、智能体间协作以及外部工具调用。最受关注的是一个数字。当红队将对抗性网页内容指向浏览器智能体时,他们在31.5% 的情况下成功将其劫持——而这是在防护措施之前。这是针对原始模型测得的提示注入成功率,由厂商在其自己的部署前报告中披露。

数字本身并不是重点,披露才是。正如多家媒体所指出的,这是今年春季前沿实验室公开记录的唯一一项具体的提示注入指标。据 Crypto Briefing 对各份系统卡的解读,OpenAI 仅报告了一个场景(连接器),Google 将该议题移入了单独的安全框架文档,而 Meta 则根本没有为闭源模型发布系统卡。我们之所以报道此事,是因为公开的基线易感率正是防御者所需要、却很少能获得的信息。

How it works

浏览器智能体是一个被赋予 读取页面 → 决策 → 行动(点击、填写、调用工具、抓取 URL)循环的 LLM。在此情境下,提示注入是指嵌入在智能体所读取内容中的恶意指令——网页、工具响应、文件或 API 载荷——被解释为命令而非数据。由于智能体的输出会驱动一个行动层,一次成功的注入便从”错误的文本”升级为”错误的行动”:导航至攻击者的 URL、外泄页面内容,或串联一次工具调用。这正是致命三要素模式——不可信输入、私有数据访问与外泄通道——在浏览器中的具体化。

31.5% 这一数字是防护措施前的测量值,反映了模型在没有任何防御层处于活动状态时,遵循注入指令的内在倾向。此处不复现任何攻击载荷;真正重要的是解读框架:

Measurement                          What it tells you
-----------------------------------  ------------------------------------------
Pre-safeguard hijack rate (31.5%)    Raw model susceptibility — the worst case
                                     your guardrails must absorb
Post-safeguard rate (production)     Residual risk after filtering, monitoring,
                                     egress controls and approval gates
Capability score (Online-Mind2Web    How deep a successful injection can reach:
84%, per Anthropic)                  a more capable agent carries a bad
                                     instruction further into real systems

有两点让这一基线变得有意义。其一,能力与易感性同步上升:Anthropic 报告 Opus 4.8 在 Online-Mind2Web 上达到 84%,是其最强的浏览器智能体成绩,这意味着被劫持的会话在被阻止前能做的事情更多。其二,生产部署并非原始模型——Anthropic 表示,真实部署会叠加防护措施、监控与过滤,从而降低实际利用率。诚实的解读是:31.5% 是你的隔离架构必须承受的负载,而不是你上线时的实际比率。

Why it matters

对防御者而言,厂商公开的防护措施前数字改变了规划智能体部署的方式。基线易感率让你能够对残余风险进行推理,而非凭空猜测:如果原始模型大约每三次就会遵循一次注入指令,那么你的防护措施、外泄控制与审批关卡正在承担主要工作,必须据此加以评估。

它也重塑了采购视角。能力标题(84% 任务完成率)与易感性标题(31.5% 防护措施前劫持率)描述的是同一个模型,必须放在一起解读——更高的自主性加上不可忽视的注入率,意味着一个被污染的页面能够走得更远。而实验室之间的透明度差距本身也很重要:当只有一家厂商公布该数字时,买方就无法比较各浏览器智能体的安全态势,而”未披露”绝不应被误读为”无易感性”。

Defenses

防护措施前的比率提醒我们:模型层面的抵抗力只是一层,而非边界。请将任何浏览器智能体都视为”易被混淆的”,并据此设计架构。

  1. 控制外泄,而不仅是输入。 假定部分注入会得手。限制智能体能将数据发送到何处:对出站域名设白名单、阻止携带嵌入数据的任意 URL 抓取、对任何跨源或跨系统操作要求显式审批。

  2. 严格约束凭据与会话。 短时令牌、狭窄的 OAuth 范围、隔离的运行时,以及不保留持久会话。在严格受限环境中发生的劫持只是一次被控制的测试结果;而同样的劫持若伴随宽泛的文件或仓库访问权限,就是一起安全事件。

  3. 对高影响操作设置关卡。 在不可逆或敏感步骤之前加入人工审批——发送数据、执行交易、写入生产环境、删除文件。浏览器智能体可以提议;由人或策略引擎确认。

  4. 将不可信内容与指令分离。 应用情境完整性与信息流控制:将页面内容和工具输出标记为数据,绝不允许其升级到驱动操作的指令通道。

  5. 索取防护措施后的数字。 评估任何智能体时,向厂商索取其防御之后的残余劫持率,以及隔离逃逸与事件处理数据。防护措施前的基线只是对话的开端,而非答案。

  6. 记录并审查操作流。 审计轨迹——智能体决定了什么、做了什么——正是将模型的错误决策转化为被捕获的测试、而非无声入侵的关键。

Status

项目来源日期备注
Claude Opus 4.8 发布Anthropic2026-05-28与 Opus 4.7 同价;全面可用
系统卡(244 页)Anthropic2026-05-28四个智能体场景:浏览、编码、智能体间、工具
浏览器智能体防护措施前劫持率系统卡2026-05-2831.5%,原始模型,防御层之前
Online-Mind2Web 能力Anthropic2026-05-2884%——所报告的最强浏览器智能体成绩
报道 / 透明度差距分析Crypto Briefing、WinBuzzer2026-06-01 → 2026-06-02今年春季唯一公布具体数字的前沿实验室

要点不在于”Claude 的浏览器智能体不安全”——每一个浏览器智能体都存在易感性,只是大多数厂商根本没有公布数字。要点在于:31.5% 是你的隔离层必须解决的问题规模,而一份公开的防护措施前基线,正是安全架构师应当向每一家智能体厂商索取的那类材料。

Sources