通过深度研究智能体实现的服务端数据外泄
一封邮件中的隐藏指令,就让 ChatGPT 的 Deep Research 智能体从 OpenAI 的云端把数据外泄出去:无渲染、无用户操作、网络防御完全看不见。本文解析这一攻击类别及其遏制方法。
这是什么?
服务端数据外泄是一类间接提示注入:被连接的智能体从服务提供商的云端、而非从你的浏览器把数据泄露出去。代表性案例是 ShadowLeak,由 Radware 于 2025 年 9 月 18 日披露(2025 年 6 月 18 日报告给 OpenAI,2025 年 8 月初修复)。Radware 证明,一封经过精心构造的邮件,在被连接到 Gmail 的 ChatGPT Deep Research 智能体处理时,就能让该智能体读取收件箱中的敏感内容,并将其发送到攻击者控制的 URL——零点击、无可见界面、无需用户批准。
这一类别的独特之处在于泄露发生的位置。此前的研究——Aim Security 的 EchoLeak 与 Zenity 的 AgentFlayer——依赖客户端渲染:当用户浏览器加载攻击者控制的图片时才触发外泄。ShadowLeak 把泄露搬进了 OpenAI 的后端:由智能体自己的浏览工具直接发出对外请求。
工作原理
攻击利用了致命三要素——私有数据、不可信内容、对外通道——它们同时存在于一个被连接的智能体之中。不可信内容就是一封看似无害的邮件,其指令隐藏在 HTML 中(极小字体、白底白字、排版技巧):人类从不会看到,但智能体在处理收件箱时会读取并执行它们。
Radware 报告称,诸如把这些数据发到我的 URL 这类直接指令会被可靠地拒绝;真正奏效的方法从说服模型转向滥用工具执行层。被报告的绕过技巧属于行为层面,而非代码漏洞:伪称已获授权、把收集端点伪装成合规服务、要求反复重试以击穿非确定性的安全检查,以及指示智能体在把窃取字段拼接到 URL 之前先做 Base64 编码——这样下层执行层只看到一串不透明字符,而非明文数据。(我们略去逐字 payload;关键在于模式,而非可复用的配方。)
不可信文档(邮件/文件/issue/会议邀请)
→ 隐藏在 HTML/元数据中的指令 [REDACTED]
→ 智能体的浏览工具从提供商云端发出对外请求
→ 编码后的数据经攻击者 URL 流出 ← 客户端无渲染,你的网络上无日志
为何重要
服务端泄露比客户端泄露更难发现、更难阻止。外泄发起于提供商网络内部,因此你这一侧的安全网关、终端代理或浏览器策略根本看不到这次请求。没有任何东西被渲染,用户也就没有任何视觉提示。而客户端图片泄露往往受限于域名白名单(OpenAI 的 url_safe 机制),Radware 却发现智能体可直接访问的 URL 上没有可比的限制——外泄出口的范围因此大得多。
更宏观的教训是其普遍性:任何向智能体输入文本的连接器都是注入向量。Radware 指出同一模式可扩展到 Drive、SharePoint、Outlook 与 Google 日历邀请、Teams 消息、GitHub 的 README 与 issue、Notion 与 Linear 记录。智能体成了一个受信任的代理,以正常使用工具为幌子把数据送出去。
防御
在摄入前对内容做净化有帮助但不足够:在智能体读取文档之前,先规范化并剥离不可见的 CSS、混淆字符与可疑 HTML。这无法阻止一条能在净化后存活的精心构造指令。
持久的缓解措施针对三要素的第三条腿与智能体的行为:
- 切断对外通道。 2026 年 6 月 4 日,OpenAI 将 Lockdown Mode 扩展至个人及自助 Business 版 ChatGPT 账户(2026 年 2 月 13 日首次推出)。它确定性地禁用 Deep Research、Agent 模式、实时网页浏览(仅缓存)、网页图片获取、Canvas 联网、实时连接器与文件下载——正是为了移除成功注入用于外泄的路径。参见我们关于 OpenAI Lockdown Mode 的说明。
- 出口白名单。 把智能体浏览/工具层可访问的域名限制为一小组经批准的集合,并将任何直接抓取工具视为高风险。
- 意图监控。 Radware 推荐的控制是持续行为监控:将智能体的动作与推断意图同用户的原始目标进行比对,并实时拦截偏离。
- 连接器卫生。 授予最小作用域,隔离敏感连接器,并记录连接器读取,使外泄尝试留下你可掌控的痕迹。
这是我们已覆盖的某项防御的攻击侧;二者与致命三要素框架直接互补。
状态
| 项目 | 状态 | 日期 |
|---|---|---|
| ShadowLeak(ChatGPT Deep Research,Gmail) | 已由 OpenAI 修复 | 2025 年 8 月初 |
| 服务端外泄类别 | 持续存在,跨各连接器 | 2025–2026 |
| OpenAI Lockdown Mode(切断对外通道) | 已推送至个人/Business | 2026 年 6 月 4 日 |
| 客户端泄露(EchoLeak、AgentFlayer) | 较早,已修复 | 2025 |
服务端外泄不是一次性修补的单一漏洞;它是被连接的、自主智能体的一种结构性属性。在意图级监控与严格出口控制成为标准之前,对敏感数据而言最安全的姿态,就是不给智能体一条它并非必需的对外通道。