FragFuse:用碎片化查询绕过 LLM 智能体的访问控制
2026 年 6 月 14 日的一篇 arXiv 论文显示,被禁止的请求可被拆成无害的碎片,存入智能体的长期记忆,再在检索时重新拼合,从而以 86.3% 的平均成功率绕过访问控制。
这是什么?
2026 年 6 月 14 日,研究者在 arXiv(cs.CR)上发布了论文 FragFuse: Bypassing Access Control of Large Language Model Agents via Memory-Based Query Fragmentation and Fusion。它记录了一种针对访问控制层的攻击——这一层如今越来越多地被部署在 LLM 智能体之前,本应在违规请求触及工具或生成有害输出之前将其拒绝。
FragFuse 的核心洞见在于:这些控制一次只检查一次交互,而现代智能体却拥有跨交互延续的长期记忆。一个过滤器在单轮中会拦截的违规请求,可以改为拆分成看似无害的碎片,在多个看似无害的回合中陆续写入记忆,随后通过普通的记忆检索重新拼合——于是有害意图从不在访问控制所看到的任何一次查询中显式出现。在四种智能体设置和三种最先进的访问控制机制上,作者报告了 86.3% 的平均绕过率。
工作原理
智能体的记忆就是攻击面。该技术包含三个概念性阶段,论文有意未发布任何可直接使用的可利用载荷。
# 仅为概念示意——无可用载荷。
[1] 拆分 被禁请求 --> N 个无害片段(每片都能通过过滤)
[2] 存储 片段在多次交互中写入长期记忆
[3] 融合 后续一次无害查询触发检索 + 运行时重新拼合
每个片段单独来看都低于护栏判定”违规”的阈值,因此被毫无异议地存下。恶意整体只在融合时刻才显现:智能体从记忆中取回这些片段,并在回应一个本身看似无害的最终查询时把它们重新组合。由于访问控制是在表层请求上执行的——而非在模型内部拼装出的重构内容上——它从未看到自己本应拦截的东西。
作者指出,FragFuse 可以针对单个智能体手工构造,但他们也描述了一套优化方案:在替身模型上调校融合指令以及用于标记片段的标识,从而在不假设攻击者能看到目标内部的前提下实现攻击的自动化生成。在其评测中,端到端有害任务成功率平均为 41.1%,而在合法负载上施加访问控制仅带来 4.4% 的任务成功率下降——论文将这一差距解读为:现有控制对这类规避几乎买不到多少稳健性。
这是任务分解攻击在”记忆层”上的近亲:两者都通过把意图分散到过滤器逐个独立评估的单元中来击败过滤器,并都利用了一个事实——智能体所推理的是过滤器从未检查过的重构上下文。它也与那些把智能体记忆视为控制流面而非被动存储的研究相呼应。
为何重要
访问控制是许多团队押注用以让智能体可部署的那一层——其假设是:即便模型可能被说服,一个独立的关卡也会拒绝危险动作。FragFuse 正面冲击了这一假设。对三种已发布机制达到 86.3% 的绕过率,意味着仅靠请求级别的把关,对有状态智能体而言不是一道可靠的边界。
它把与提示注入相同的结构性问题加以推广:在”智能体被要求了什么”与”智能体最终在推理什么”之间并不存在清晰的分隔,尤其当记忆能在回合之间携带状态时。一个只检查可见查询的控制,检查的是错误的对象。
关于范围的一点说明:这是在既定测试矩阵上的实验室研究,并非已确认的真实世界攻击活动,也未发布任何可用载荷。应将其视为带记忆智能体中一个已被验证的盲点,而非一个正在被利用的漏洞。
防御
- 检查重构后的上下文,而不仅是查询。 核心缺陷在于把关只对表层请求执行。请评估智能体真正拼装出的融合后内容——在检索之后、动作之前——使重新拼合的意图进入审查范围。这与基于任务的工具授权互补。
- 把记忆的写入与读取当作安全事件。 在长期记忆的进出口处施加策略,而不仅在提示处。标注来源,并将取回的片段整体而非逐个重新过滤。
- 管控危险原语。 由于危害只在智能体最终动作时落地,请对代码执行、外发流量和凭据访问施加审批与沙箱——即智能体二之规则的逻辑。无法触及敏感工具的融合载荷无法完成任务。
- 约束并切分记忆。 按任务、按用户限定、分区并使记忆过期;默认拒绝跨任务融合。正是持久的共享记忆使预置步骤成为可能。
- 记录检索与重组。 捕获智能体从记忆中取了什么、又如何重组,使”先拆分后融合”的攻击即便每条输入都看似无害也能留下可审计的痕迹——这一点很有用,因为欠规约的授权事后很难审计。
状态
| 项目 | 详情 |
|---|---|
| 技术 | FragFuse——基于记忆的查询拆分与融合 |
| 来源 | arXiv:2606.15609(cs.CR),2026 年 6 月 14 日发布 |
| 绕过率 | 在 3 种访问控制机制上平均 86.3% |
| 有害任务成功率 | 端到端平均 41.1% |
| 访问控制代价 | 合法负载上任务成功率平均下降 4.4% |
| 测试范围 | 4 种智能体设置 / 任务域;手工 + 替身优化变体 |
| 真实世界状态 | 研究成果;无已确认的真实世界使用;未发布可用载荷 |