INDIRECT INJECTION MEDIUM NEW

野外的间接提示注入:2026年4月三项研究殊途同归

Google、Forcepoint 与 CISPA 于 2026 年 4 月分别完成对开放网络中间接提示注入的测量。结论:15 000 余条已验证载荷,32% 的环比增长,组织化模板。

2026-05-25 // 7 分钟 affects: llm-agents, browser-agents, rag-pipelines, ai-search, customer-support-agents

这是什么?

2026 年 4 月底发表的三项独立测量研究印证了安全社区一直推测却未能量化的判断:间接提示注入(IPI)已不再是实验室里的奇观。攻击者正在主动地把指令撒进开放网络,目标是基于 LLM 的智能体;而且这一现象的增长速度已足以在跨大陆规模的爬取数据中显现出来。

三份报告在五天之内相继问世:

Google 安全团队(2026 年 4 月 23 日)——每月扫描 20–30 亿条爬取页面,聚焦博客、论坛和评论区,比较 2025 年 11 月与 2026 年 2 月的 CommonCrawl 快照。
Forcepoint X-Labs(2026 年 4 月 24 日)——在公开 Web 基础设施上开展主动威胁狩猎,遥测以 Ignore previous instructions、If you are an LLM 等模式触发。
CISPA Helmholtz 信息安全中心 Khodayari、Zhang、Acharya 与 Pellegrino(arXiv:2604.27202,2026 年 4 月 29 日)——对来自 2 480 万主机的 12 亿条 URL 进行学术性实证分析,在 11.7 K 个页面上识别出 15.3 K 条已验证注入实例。

三方殊途同归比任何单一数字更重要:两支企业红队和一个学术团队,方法各异,却看到同一趋势。

攻击如何运作

间接注入沿袭 Greshake 等人 2023 年提出的原始攻击类别——将指令嵌入模型日后会作为数据吞入的内容中,智能体便会照做。2026 年的变化在于规模和载体的真实程度。

CISPA 论文发现,54 个提示模板覆盖了约 95% 的已检测案例。这是组织化工具的指纹,而非孤立实验。Forcepoint 也独立观察到「跨多个域共用的注入模板」,并提到一个广为分发、看似充当试探的载荷——攻击者借此摸排哪些 AI 产品会拉取并听从不可信文本,之后才部署更具杀伤力的载荷。

可见性是另一关键发现。在 CISPA 验证的载荷中,约 70% 藏身于未渲染的 HTML —— 头部、注释、元数据。其余案例中有 87% 通过下列三种渲染技巧之一进行视觉隐藏,近似计数如下:

# CISPA 数据集(15.3K 已验证载荷,2026 年 4 月)
未渲染 HTML(头部/注释/元数据)             ≈ 70%
可见但被渲染遮蔽:
  颜色/对比度操纵                          2,397
  遮挡(覆盖层)                            1,860
  视口外定位                                1,802

可见载荷大致划分为四类目标:

声誉操纵(约 1.5 K 实例)——指令要求基于 LLM 的搜索管道推广某产品、强制引用或贬低竞争者。
数据保护 / 反爬虫指令(约 4 K)——站长要求模型拒绝总结或省略内容。
AI 机器人识别探针(约 3 K)——载荷要求智能体披露其模型名称和版本。
破坏性载荷——Google 记录到指令要求智能体删除用户机器上的文件;Forcepoint 分析到带有完整 PayPal 交易细节的载荷,或借助「说服放大词」(ultrathink)把由 AI 中介的支付重定向到一个 Stripe 捐款链接。

实际成效仍属中等。CISPA 在 13 个模型与四种页面表示之间执行的 5 200 项受控实验显示,小型模型在纯文本输入下的服从率峰值为 8%,而当保留原始 HTML 的结构线索时,服从率降至 0.2%–1.1%。不可忽视,但远未普适。

为什么重要

「2025 年 11 月至 2026 年 2 月增长 32%」(Google 数据)是最醒目的数字。对部署 LLM 功能的团队而言,还有三点值得关注。

第一,攻击面随智能体权限而扩大,而非随模型智能而扩大。Forcepoint 的表述精确:「只会做摘要的浏览器 AI 风险较低;能发邮件、执行终端命令或处理支付的智能体则成为高价值目标。」同一条载荷面对被动读者只产生一句搞笑回复,但面对无约束的智能体可能促成一笔银行转账。

第二,攻击者的经济正在整合。反复出现的模板和测试探针表明,这背后是工具化与侦察活动,而非零星玩闹。2023 年那种 Ignore previous instructions 式 IPI 正在让位给工业化的攻击,其成熟轨迹与安全圈见证过的 SEO 垃圾、恶意广告和供应链拼写抢注如出一辙。

第三,结构化表示有助于防御。两项研究都得出一致结论:把原始 HTML 结构原样喂给模型,而不是先拍扁成纯文本,会显著降低对嵌入指令的服从。这与 Abdelnabi 和 Bagdasarian 提出的情境完整性框架(arXiv:2605.17634)一致,也为防御方提供了一个可优化的具体杠杆。

防御措施

这些测量结果不会从根本上改写防御手册,但会重新校准其优先级。

默认把 Web 内容视作不可信。 任何会摄取所抓取页面的智能体都应在《二选其二原则》下运行:不可信输入、对私有数据的访问与改变状态的能力,这三者不得在同一会话中同时出现。
保留结构线索。 把保持边界的 HTML(标题、代码块、元数据区)直接传给模型,而不是先拍扁成纯文本。CISPA 实验给出量化收益:服从率约下降一个数量级。
检索前剥离隐藏技巧。 渲染页面后只导出可见 DOM,丢弃 HTML 注释、meta 标签、视口外元素,以及 visibility:hidden、display:none、近零对比度或一像素大小的文本。绝大多数现实载荷都会折在这道滤网上。
为敏感流程引入域名白名单。 如果智能体能动支付、代码或内部数据,就把其语料限定到可信源,而非开放 Web。
重点关注高信号模板。 解释了 95% 注入的 54 个模板是可识别的。一个小型分类器,甚至只针对最强模式(Ignore previous instructions、If you are an LLM、meta 中注入角色标签)的正则,即可以近乎零成本拦下长尾。
记录每条「抓取内容 → 动作」边。 智能体每次决定行动时,都要保存为其行为提供依据的上游文档。审阅最初的几千条这类记录,就能浮现 CISPA 数据所描述的情境完整性违规。

最后:请假定您的测试语料已被污染。CISPA 论文指出,某些载荷专门针对招聘流程和客户支持智能体。如果您的红队数据集来自开放 Web,几乎可以肯定其中混入了仍在生效的 IPI。

状态

项目	参考	日期	备注
CISPA 实证研究	arXiv:2604.27202	2026-04-29	12 亿 URL,2 480 万主机,15.3K 已验证载荷
Google 博客文章	security.googleblog.com	2026-04-23	2025-11 至 2026-02 增长 32%
Forcepoint X-Labs 报告	forcepoint.com	2026-04-24	支付重定向载荷、测试探针
Help Net Security 综述	helpnetsecurity.com	2026-04-24	综合 Google 与 Forcepoint 报告
情境完整性相关成果	arXiv:2605.17634	2026-05-17	为何数据/指令分离是错误框架

五天之内三项测量研究在方向和数量级上彼此吻合,实属罕见。Web 已不再是 LLM 智能体可以天真消费的被动语料,而正在变成一个主动的对手;而暴露最深的恰是权限最高的智能体。

野外的间接提示注入:2026年4月三项研究殊途同归

这是什么?

攻击如何运作

为什么重要

防御措施

状态

Sources