系统:运行中
← 返回所有攻击
DEFENSE LOW NEW

SafeHarbor:一种针对智能体过度拒绝的分层记忆护栏

被 ICML 2026 接收的 SafeHarbor 是一种免训练护栏,从自演化的风险树中注入上下文相关的安全规则——在 GPT-4o 上保持 63.6% 的良性可用性,同时拒绝超过 93% 的攻击。

2026-06-15 // 6 min affects: gpt-4o, llm-agents, llm-guardrails, memory-based-defenses

这是什么?

2026 年 5 月 7 日,Zhe Liu、Zonghao Ying、Wenxin Zhang、Quanchen Zou、Deyue Zhang、Dongdong Yang、Xiangzheng Zhang 和 Hao Peng 发表了 SafeHarbor: Defining Precise Decision Boundaries via Hierarchical Memory-Augmented Guardrail for LLM Agent SafetyarXiv:2605.05704,cs.CR / cs.AI)。该论文被 ICML 2026 接收,作者还在 GitHub 上提供了可运行的代码、预构建的产物以及评测脚手架。

这是一篇防御论文,其出发点是任何为工具型智能体加装安全过滤器的团队都会熟悉的问题:过度拒绝代价。把护栏设得足够严以阻断工具滥用攻击,它也会开始拒绝合法工作——智能体在变得更安全的同时也变得更不可用。SafeHarbor 主张:无需重新训练模型,就能让这两个指标同时朝正确方向移动。

工作原理

SafeHarbor 以即插即用、兼容 OpenAI 的代理形式置于目标模型之前。它对底层 LLM 免训练:无论是 GPT-4o 还是你所指向的模型,都不会被微调。两个组件完成核心工作。

第一个是分层风险树(Risk Tree)——一份过往攻击模式的记忆,聚类为若干节点,每个节点携带一个生成的 defense_strategy 和一个 benign_boundary_rule。该树通过两个阶段离线构建。红队阶段通过四种策略对恶意样本进行变异——良性分解、参数注入、场景伪装与格式转换——仅保留那些恶意意图能通过验证 LLM 检查的变异。随后防御阶段为每个簇生成防御策略,并针对几乎相同的良性请求校准每条规则,使规则学到「阻断」与「放行」之间真正的边界。一个信息熵信号让该树在增长时通过节点的分裂与合并实现自演化。

第二个是安全投影器(Safety Projector):一个小型两层 MLP,将 384 维的句子嵌入映射到 128 维的「安全感知」空间,外加一个二分类头。它以三元组 + BCE 损失训练,作用是在嵌入空间中将与安全相关的方向同语义方向解耦——使检索基于「这是否危险?」而非「这是关于什么主题?」,而后者正是导致朴素嵌入过滤器过度拒绝的混淆所在。

在推理时,代理对传入请求做投影,从树中检索最相关的风险证据,并将其作为前置安全上下文注入,然后再把调用转发给模型。

# 概念流程——示意性,取自 SafeHarbor 公开仓库。
请求 --> Safety Projector(384 维 -> 128 维安全空间)
     --> 从 Risk Tree 检索 top-k 节点
     --> 注入 {defense_strategy, benign_boundary_rule} 作为安全上下文
     --> 转发至目标 LLM(无需微调)

为何重要

报告的数字才是重点。在 GPT-4o 上,SafeHarbor 保持了 63.6% 的峰值良性可用性,同时在明确恶意请求上维持 超过 93% 的拒绝率,在 AgentHarm 与 Agent-SafetyBench 上与 RAG、A-Mem、GuardAgent 和 Llama Guard 等基线对比评测。这些确切数字能否在你的真实负载上成立尚属未知——它们是单篇论文在两个基准上的结果,以 GPT-4o 为旗舰模型——但其框架才是有用之处:护栏应在两个轴上衡量,单看「拒绝率」是一个具有误导性的分数。

它也契合 2026 年更广泛的一种趋势。SafeHarbor 是今年出现的若干自演化、基于记忆的护栏之一——与 Membrane 的对比式安全记忆并列——它们把安全与不安全之间的边界视为可学习并持续重新校准之物,而非一份静态的封禁清单。对开发者而言,这标志着从「写更好的拒绝提示词」转向「维护一份关于攻击与良性模式的活记忆」。

防御

SafeHarbor 本身就是一种防御控制,因此实际问题在于如何稳妥地采用这一思路。

把任何由记忆驱动的护栏都视为一层,而非唯一一层。由于规则按相似度检索,任何节点都不相似的请求会回退到基础模型自身的判断——因此在其下方保留确定性控制:最小权限的工具作用域、沙箱化执行,以及当影响半径较大时的人工复核。SafeHarbor 的设计本身也能干净地叠加在 Llama Guard 等提示词级过滤器之上。

审计规则,而不仅是裁决。 仓库附带了每个簇的防御策略与良性边界规则的可读导出。由自动生成攻击构建的记忆可能编码出有偏或过时的「安全」观;应像审查防火墙规则集那样审查它,并留意良性边界规则是否过度封禁。

在部署前后衡量两个轴。 这里最可迁移的教训是方法论上的:在一个包含「模糊但合法」任务的基准上,将良性可用性与攻击拒绝率一并报告,否则你会交付一个看起来安全、却悄悄破坏真实工作的护栏。

最后,留意检索面本身。 一个记忆从被摄入的攻击数据中增长的护栏,会继承任何检索系统的投毒风险——控制写入树中的内容,并让演化它的流水线与它所保护的模型一样可信。

状态

项目参考日期备注
论文arXiv:2605.057042026-05-07被 ICML 2026 接收
代码 + 产物github.com/ljj-cyber/SafeHarbor2026MIT 许可证;附带预构建的 Risk Tree 与 Safety Projector
主要结果良性可用性 63.6% / 拒绝率 > 93%GPT-4o,于 AgentHarm + Agent-SafetyBench
对比基线RAG、A-Mem、GuardAgent、Llama Guard含复现脚本

SafeHarbor 不会终结提示注入或工具滥用——没有任何单一护栏能做到。它的贡献更为聚焦且实用:一种具体、可复现的方式,在不付出全部过度拒绝代价的前提下追求安全;同时它也提醒我们,任何诚实的护栏评测都必须既报告它阻断了什么,也报告它破坏了什么。

Sources