工具选择劫持:迫使智能体挑选攻击者的工具
一项 NDSS 2026 攻击与一篇 2026 年 4 月的 IBM 论文瞄准同一个盲点:智能体决定调用哪个工具的那一步。污染工具目录,智能体就会选中攻击者的工具,成功率达 70 至 100%。
这是什么?
工具选择劫持攻击的是 LLM 智能体决定调用哪个工具的那一步——在它决定如何调用之前。多数智能体安全研究针对的是工具返回的内容,或藏在工具描述里的指令。而这种攻击针对的是路由决策本身:攻击者在智能体的工具目录中植入一个精心构造的工具,使得对于某个目标任务,智能体会持续选中攻击者的工具,而非合法工具。最近有两篇论文将其形式化。ToolHijacker(NDSS 2026,arXiv 预印本发表于 2025 年 4 月)攻击检索加选择的流水线;Function Hijacking Attacks(IBM Research Europe、帝国理工学院、都柏林圣三一学院,arXiv:2604.20994,2026 年 4 月 22 日)则直接攻击函数调用决策。
工作原理
现代智能体分两步挑选工具。检索器通过语义相似度,把庞大的工具库收窄为一个 top-k 候选短名单;随后 LLM 阅读这些候选描述并选定其一。两个阶段都可被操纵。
ToolHijacker 向工具库注入一个恶意工具文档。其名称与描述经过优化,能同时赢得目标任务的检索和选择——即便在「无盒(no-box)」场景下也是如此:攻击者看不到真实的工具描述、检索器、模型,也不知道 top-k 的取值。作者通过构建该流水线的影子副本、并把描述拆成两段分别优化的子序列(一段用于赢得检索,一段用于赢得选择)来实现这一点。
Function Hijacking 走的是互补路线:它在某个函数的元数据后追加对抗性 token,使函数调用模型发出攻击者选定的调用。该技术把 GCG 对抗后缀方法适配到函数调用任务。值得注意的是,论文指出它「在很大程度上与上下文语义无关」,并且可被训练成一个通用的恶意函数,在大量查询中劫持选择。
此处不复现具体的优化字符串;它们是研究产物,并非可直接套用的攻击载荷。
为何重要
选错工具并非表面错误,而是一次控制流重定向。如果智能体把「发起付款」「读取文件」或「查询数据库」的意图路由到攻击者控制的工具,攻击者便在智能体的动作空间中获得了立足点,而完全无需触碰用户的提示词。实测效果很高:ToolHijacker 报告,在 MetaTool 基准上,以 Llama-3.3-70B 作为影子模型、GPT-4o 作为目标时,攻击成功率达 96.7%,检索命中率达 100%。Function Hijacking 报告,在 Berkeley Function Calling Leaderboard 上,对五个模型(指令型与推理型变体)取得 70% 至 100% 的成功率。
风险随开放工具生态而放大。只要智能体从共享注册表、市场或多租户目录拉取工具或 MCP 服务器,单个被植入的条目就能对所有触发该目标任务的用户造成路由偏置。
防御
迄今没有任何已发表的防御能完全阻止这些攻击,因此防御应是分层的,而非单点的。
经测试的输入端防御表现不佳。ToolHijacker 作者评估了预防类方法(StruQ、SecAlign)与检测类方法(known-answer detection、DataSentinel、困惑度及窗口化困惑度检测);无梯度攻击在 StruQ 下仍达到 99.6% 的成功率,而困惑度检测在误报率低于 1% 的情况下漏掉了 90% 基于梯度的恶意文档。应把它们视为阻力,而非解决方案。
实用的缓解措施聚焦于工具目录与路由决策。整理并固定工具库:按签名身份与来源对工具进行白名单授权,而非从开放注册表自由解析。把检索限制在经过审核的条目内,避免自动安装第三方 MCP 服务器。增加选择完整性检查——记录某意图选用了哪个工具,当新出现或低信誉的工具捕获敏感任务时告警,并在高影响工具调用(付款、写文件、外部网络)前要求人工确认。实施最小权限,使被劫持的选择也无法触及危险能力。最后,监控承担某项重复任务的工具是否突然切换,这是目录被篡改的直接信号。
状态
| 项目 | 详情 |
|---|---|
| ToolHijacker | NDSS 2026;arXiv:2504.19793;针对检索 + 选择;无盒 |
| Function Hijacking (FHA) | arXiv:2604.20994,2026 年 4 月 22 日;GCG 类,含通用变体 |
| 实测影响 | ToolHijacker 96.7% ASR(目标 GPT-4o);FHA 70–100% ASR(BFCL) |
| 已测防御 | StruQ、SecAlign、DataSentinel、困惑度——均不足 |
| 修复状态 | 开放问题;以来源核验、最小权限、选择审计缓解 |