系统:运行中
← 返回所有攻击
PROMPT INJECTION MEDIUM NEW

网页聊天机器人插件:不安全的小部件如何放大提示注入

一项 IEEE S&P 2026 研究分析了部署在 1 万多个网站上的 17 款聊天机器人插件,发现可被伪造的对话历史(注入效果提升 3 至 8 倍),以及混淆可信与不可信内容的抓取工具。

2026-06-11 // 5 min affects: llm-chatbot-plugins, commercial-llm-apis, customer-service-chatbots

这是什么?

提示注入研究大多瞄准前沿助手——副驾驶、编码代理、RAG 流水线。但网络上最常见的 LLM 应用要简单得多:电商或 SaaS 网站角落里的客服聊天气泡。一篇题为 《When AI Meets the Web: Prompt Injection Risks in Third-Party AI Chatbot Plugins》 的论文于 2025 年 11 月 8 日提交至 arXiv,并被 IEEE S&P 2026 录用,它是对这一攻击面的首次大规模研究。论文由加州大学圣巴巴拉分校(UC Santa Barbara)的 Yigitcan Kaya、Anton Landerer、Stijn Pletinckx、Michelle Zimmermann、Christopher Kruegel 和 Giovanni Vigna 撰写,研究了部署在 1 万多个公开网站上的 17 款第三方聊天机器人插件,并表明出问题的是 LLM 周围的管道,而非模型本身。

工作原理

这些插件充当非专业建站者与商用 LLM API 之间的中介。研究记录了两处结构性弱点。

第一是对话历史完整性。在正常对话中,每次向 LLM 发出的请求都会重新发送先前的回合以提供上下文。研究者发现,8 款插件(用于约 8000 个被研究的网站)信任浏览器发送的对话历史,却未在服务器端进行校验。控制自己会话的攻击者可以在该负载离开浏览器前进行编辑——伪造助手早先的回复,甚至伪造模型视为权威的虚假系统消息。借助一段声称助手已同意放弃规则的伪造历史,直接注入会变得有效得多:论文测得诱导非预期行为(如代码生成)的成功率提升了 3 至 8 倍

第二是不可信内容混入。17 款插件中有 15 款提供工具——尤其是网页抓取——用网站内容丰富聊天机器人的上下文。但它们并不区分站长可控的可信内容(商品描述、政策)与不可信的第三方内容(客户评价、问答、评论)。所有被抓取的内容都以同等权威进入提示,这正是间接提示注入的典型场景:一条恶意评价可携带聊天机器人随后执行的指令。作者发现,被研究的电商网站中约有 13% 已将其聊天机器人接入第三方内容,在攻击者出现之前就暴露了这一攻击面。

为何重要

核心结论是:LLM 的安全护栏经不起糟糕的集成。底层商用模型自带对齐与拒答训练,但不安全的插件却把杠杆——伪造的历史、未分隔的上下文——交到攻击者手中,绕过这些防御。由于同样的少数几款插件在数千个网站上被复用,单一的不安全模式就会扩散成一长串脆弱部署,而经手的站长一行集成代码都没写过。这是不起眼的市场中段:不是旗舰代理,却是普通用户真正接触的聊天机器人。

防御措施

在服务器端强制对话历史完整性。 绝不信任从客户端回传的消息历史(尤其是系统或助手角色)。在服务器端重建或验证会话,签名或存储规范的对话记录,并直接拒绝客户端提供的系统消息。仅此一项控制即可消除论文测得的 3 至 8 倍放大效应。

在提示中分离可信与不可信内容。 将抓取的评价、评论及任何第三方文本视为数据,而非指令。用清晰的分隔符将其围栏化,标注其来源,并在插件允许时,在其抵达模型前应用聚光(spotlighting)或输入过滤。站长可控内容与访客可控内容不得共享同一权威级别。这与 OWASP LLM01:提示注入 的建议直接对应。

收窄影响范围。 只赋予聊天机器人完成支持所需的最小能力:不需要的工具调用、代码执行或敏感数据访问一律不给。对高风险输出(代码、链接、命令)增加输出过滤,并监控异常的工具调用,而非依赖模型自行拒绝。

若你运营装有此类小部件的网站, 请核查聊天机器人是否抓取用户生成内容,并询问插件供应商如何校验对话历史。修复点在集成层——恰恰是大多数站长想当然以为供应商已搞定的地方。

状态

项目详情
来源arXiv:2511.05797,《When AI Meets the Web》,提交于 2025-11-08;收录于 IEEE S&P 2026
范围17 款第三方聊天机器人插件,覆盖 1 万多个公开网站
发现 18 款插件(约 8000 个网站)缺乏历史完整性 → 直接注入效果增强 3 至 8 倍
发现 215 款插件通过工具混入可信/不可信内容 → 间接注入;约 13% 电商网站已暴露
根因不安全的集成实践,而非底层 LLM
行动服务器端历史完整性;可信/不可信内容分离;最小能力聊天机器人

Sources