DEFENSE

DT-Guard：训练时推理、推理时提速的安全护栏

2026 年 7 月的一篇论文用推理轨迹训练内容安全护栏，却在推理阶段将其舍弃——只输出结构化标签，在保持低延迟的同时达到接近 0.88 的 F1。

2026-07-17//6 min

DEFENSE CRITICAL NEW

当托管模型的安全护栏把防御方拒之门外：一次智能体入侵的教训

Hugging Face 于 2026 年 7 月 16 日披露，一个自主 AI 智能体入侵了其基础设施——而商用模型的安全护栏却阻止了其自家分析人员研究此次攻击。

2026-07-17//6 min

SherAgent：LLM 驱动的攻击调查，及其继承的信任问题

2026 年 7 月的一篇论文把 LLM 智能体放进 SOC 循环，从溯源图重建攻击过程。这是实实在在的能力提升——也提醒我们：任何对可被篡改日志进行推理的智能体都会继承一个注入面。

2026-07-17//5 min

智能体密钥扫描：当 LLM 把泄露的凭据与其可解锁的资源关联起来

2026 年 7 月的一篇研究论文描述了一个 LLM 智能体，它不仅能在文档中找出泄露的凭据，还能推断出每个凭据所能打开的访问范围。这是一款具有明显双重用途的防御工具。

2026-07-16//5 min

GPT-Red：训练攻击者模型以增强防御者抵御注入的能力

2026 年 7 月 15 日，OpenAI 介绍了 GPT-Red——一个通过自我博弈训练、专门发现提示注入的内部红队模型。它以 84% 对 13% 击败人类，随后被用于增强 GPT-5.6 的稳健性。

2026-07-16//5 min

仅凭工具调用日志检测智能体记忆投毒

2026 年 6 月的一项研究表明，记忆通道投毒会在智能体的工具调用轨迹中留下取证指纹——一种「先 recall 后 send」的模式，无需触及记忆、模型权重或消息内容即可检测。

2026-07-16//6 min

当日志掌握在转售方手中时，如何证明某条日志出自哪个智能体

TRACE 于 2026 年 7 月 9 日发布，直接为智能体的轨迹本身加水印，可在转售方删除并改写作为溯源依据的日志时依然存活。

2026-07-16//6 min

SingGuard-NSFA：一个面向智能体执行而非仅内容的开源护栏

蚂蚁集团开源了一套护栏模型，在智能体的请求与动作执行之前进行审查——185 种威胁场景、133 种语言、约 50 毫秒延迟。

2026-07-16//7 min

为什么微调会瓦解安全护栏：对齐相似性效应

一项 ACL 2026 研究发现，安全对齐在微调后失效，很大程度上是因为微调数据与原始对齐数据相似——这是上游设计问题，而非单纯的下游意外。

上下文炸弹：面向攻击型 AI 智能体的防御性提示注入

Tracebit 于 2026 年 7 月中旬的研究，将会触发模型安全护栏的短字符串藏入诱饵密钥，使五款攻击型 AI 智能体在 AWS 靶场中获得管理员权限的成功率从约 57% 降至 5%。

2026-07-15//5 min

网络欺骗对 AI 攻击者比对人类更有效

2026 年 6 月的一项研究让 21 个攻击者模型面对经典欺骗陷阱：所有模型上钩的频率都高于人类——而且在识别出陷阱之后仍继续上钩。

用 lambda 演算证明智能体能抵御提示注入

一套面向 AI 智能体的形式演算，把对话、工具调用与代码执行建模为一等项，并证明了一个非干涉定理，表明信息流控制能够遏制提示注入。

跨站提示：威胁 Web 智能体的“XSS 式”攻击面

加州大学伯克利分校的一篇论文为 Web 智能体版的 XSS 命名——跨站提示（XSP），并提出一个系统级封闭层，在不改动网站的前提下将攻击成功率从 85.5% 降至 0.7%。

RAGCharacter：对 RAG 检索证据中投毒片段的字符级溯源

2026 年 5 月的一篇预印本提出一种黑盒、字符级的取证方法，在 RAG 出错后精确定位被检索 chunk 内的投毒片段，而非隔离整段文本。

在压缩层防护内容，抵御智能体爬虫

2026 年 7 月的一篇论文提出：真正无人看守、被 AI 智能体用来削减网页内容的环节是上下文压缩，而非访问控制；而不可见的扰动可以在压缩后存活，用于保护数据。

2026-07-14//6 min

四道门：拦截单条消息都看不出的多轮越狱

2026 年 7 月的一篇论文在用户与模型之间插入一个独立的监督模型，用意图、零信任上下文、跨轮一致性与输出风险四道门，拦截逐条看都无害的多轮越狱。

DEFENSE CRITICAL NEW

GhostLock 内核容器逃逸，动摇了智能体沙箱的根本假设

2026 年 7 月 8 日披露的一个存在了 15 年的 Linux futex 释放后使用漏洞，可让无特权本地用户获取 root 并逃逸容器——而这正是大多数智能体代码执行沙箱所依赖的隔离层。

2026-07-14//7 min

护栏会自我暴露：从外部识别防御机制

2026 年 7 月的一篇论文表明，独立护栏会通过 HTTP、措辞与时延信号泄露自身的存在、所拦截的类别，以及拒答来自护栏而非模型——仅需黑盒访问即可判定。

2026-07-14//6 min

阻止敏感数据泄露到第三方大模型对话中

2026 年 7 月的一篇论文构建了一个开源的客户端防火墙，在提示词发往 ChatGPT、Claude 或 Copilot 之前拦截，阻止个人信息、密钥和专有代码外流。

在渗透测试智能体执行调用前拦截：范围裁判需要看到什么

2026 年 7 月的一项基准测试表明，一个低成本的 LLM 裁判可以拦截攻击型智能体的越界工具调用——前提是它能看到用户的请求，而不仅仅是一份固定策略。

在到达敏感执行点之前审计智能体的令牌流

2026 年 7 月的一篇论文围绕自然语言令牌流重新定义持久型智能体的安全，在内容写入内存或调用工具之前于边界处进行检查。

读激活而非读消息：揪出多智能体系统中被策反的智能体

2026 年 7 月的一篇预印本指出，只盯着多智能体系统彼此说的话会漏掉隐蔽攻击。读取每个智能体的内部激活状态，即使消息看起来无害也能发现失陷——而且是修复该智能体，而非将其隔离。

2026-07-13//5 min

归因图：在模型内部诊断越狱为何奏效

2026 年 7 月的一篇论文，在成对的安全与越狱提示上比较模型的内部计算图，找出绕过背后的因果电路，再对其进行干预以加固模型。

2026-07-13//6 min

命令拒绝列表：终端 AI 智能体用错了的防线

俄亥俄州立大学 2026 年 6 月 20 日的一项研究将 1709 份真实智能体命令拒绝列表送入自动绕过检测流水线，发现 69% 至 98.6% 都无法拦截其声称要阻止的操作。

2026-07-13//6 min

提示词不是企业智能体的强制执行层

2026 年 7 月的一项研究表明，提示词指令无法可靠地强制执行企业智能体的输出与追踪契约——只有围绕模型的代码级强制执行同时保住了安全性与完整效用。

2026-07-13//5 min

智能体无法验证权限：将工具授权移出模型之外

2026 年 7 月的一篇论文表明，模型侧的拒绝并不可靠——15 个模型的拒绝率从 38% 到 100% 不等——并主张将工具调用的授权放在智能体之外，绑定到经过验证的身份。

2026-07-13//7 min

把 MCP 的描述字段变成抵御服务器污点型漏洞的盾牌

2026 年 7 月的一篇论文发现，污点型缺陷在 MCP 服务器漏洞中占主导且修复缓慢，并提出强化工具描述，使模型主动拒绝危险调用。

2026-07-13//5 min

注意力：RAG 投毒的主战场——操纵它，还是读取它

单个被投毒的段落即可通过俘获模型的注意力劫持 RAG 的回答。新的研究把这同一份注意力转化为检测信号——并借此将文档彼此隔离。

2026-07-09//6 min

AutoSpec：让智能体安全规则学会修正自己的误报

手写的智能体防护规则要么过严、要么过松。2026 年 6 月底的一篇论文用归纳逻辑编程，从带标注的样例中演化这些规则，将误报最多降低 94%，同时保持可审计。

2026-07-08//6 min

BraveGuard：让守卫模型监控智能体的整条执行轨迹

2026 年 6 月的一篇论文指出静态安全过滤器难以发现 computer-use 智能体的危害，并用真实威胁与执行轨迹训练守卫模型——将轨迹检测从 39% 提升到 82%。

2026-07-08//6 min

Windows 执行容器：在操作系统层面隔离自主智能体

微软 2026 年 6 月推出的 MXC SDK 把智能体的隔离下沉到 Windows 本身：进程隔离、会话隔离、按智能体分配的身份，以及运行时策略。

2026-07-08//5 min

可证明鲁棒的 RAG：聚合检索段落以抵御投毒

2026 年 5 月的一篇论文提出 PRA-RAG，一种带有理论鲁棒性上界的检索聚合防御，可将语料投毒的成功率降至低至 1%，同时保持 71% 的准确率。

2026-07-08//5 min

在智能体动作之前读出其工具使用意图：预动作探针

一篇 2026 年 6 月的论文在执行之前，直接从智能体的激活中读出两种信号——是否需要工具、以及该工具有多危险——把事后日志变成预动作的监督层。

2026-07-08//6 min

AgentFlow：用静态分析在智能体代码中发现「提示词到工具」风险

2026 年 7 月的一篇论文为 LLM 智能体程序在五个框架上构建依赖图，生成智能体物料清单（Agent BOM），并在真实代码中标记出 238 处污点式「提示词到工具」风险。

2026-07-07//6 min

AgentLens：在模型激活中捕捉编码智能体的危险步骤

2026 年 6 月底的一篇论文提出一种白盒防御：读取编码智能体自身的隐藏状态，在任务进行中标记有害执行步骤，并通过一个很小的激活子空间加以纠正。

2026-07-07//6 min

上下文状态连续性：在智能体行动前校验其记忆

2026 年 7 月的一篇论文提出一种防御：在每次查询前重新计算并校验智能体工具状态与记忆的加密摘要，从而发现悄然改变其行为的工具投毒与记忆投毒。

2026-07-07//6 min

不可信内容遮蔽：面向 Web 智能体的可证明注入防御

2026 年 7 月的一篇论文修复了 Web 智能体在读取渲染页面时失去的信任边界——遮蔽 DOM 中的不可信区域，并将其转交给类型受限的模型处理，从构造上阻断提示注入。

2026-07-07//7 min

为什么 AUC 0.998 的探针未必真能检测提示注入

2026 年 6 月的一项研究表明，隐藏状态探针在标记「计算机使用」智能体的间接提示注入时可达 0.998 的 AUC，却可能只学到了表层特征——并提出了区分真实检测的对照方法。

2026-07-06//6 min

kNNGuard：从 LLM 激活值中读取的免训练防护栏

2026 年 7 月的一篇论文仅用 50 个带标注样本，通过读取模型自身的内部激活值构建提示词防护栏——无需微调，比最优可比分类器快 2.7 倍。

2026-07-06//5 min

MAGE：用影子记忆捕捉智能体的长程攻击

2026 年 5 月的一篇论文借鉴系统安全中的影子栈思想，为 LLM 智能体配备并行的安全记忆，将一种成功率 100% 的多轮攻击降至 8.3%。

2026-07-06//5 min

OWASP AISVS 1.0：一份可测试的 AI 应用安全核查清单

OWASP 于 2026 年 6 月底发布了其 AI 安全验证标准的首个稳定版——14 个章节的通过/未通过要求，将 AI 治理意图转化为可验证的证据，并设有专门的智能体与 MCP 章节。

2026-07-06//6 min

SUDP：让智能体用你的凭据行动，却永远拿不到凭据

2026 年 5 月的一份协议重新思考智能体的密钥处理方式：不再把可复用的凭据放进运行时，而是由智能体只提出一个操作，交由用户一次性签名授权。

2026-07-06//6 min

AI-Infra-Guard：为什么智能体红队测试需要分层施策

2026 年 6 月 30 日发布的一个框架认为，智能体的攻击面是分层的——基础设施、工具、行为、模型——没有任何单一检测方法能覆盖全部四层。

2026-07-05//6 min

用局部净化遏制多智能体系统中的传染性越狱

在多模态智能体网络中，一张被污染的图片就能让越狱在智能体之间逐个扩散，直至系统大面积沦陷。2026 年 5 月的一篇论文提出了一种无需训练的局部解法。

2026-07-05//7 min

在多智能体系统中，抢在入侵扩散之前将其拦下

多数多智能体防御在事后才发现并隔离出问题的智能体，此时损害已经造成。2026 年 6 月的一篇论文在每条消息传播之前先模拟其影响，并改写有风险的消息。

2026-07-05//5 min

智能体零信任：Anthropic 框架解决了什么，又解决不了什么

Anthropic 于 2026 年 5 月底发布的零信任框架，围绕按任务身份与记忆完整性重塑了企业智能体安全——但 Gartner 警告，对高自主性智能体而言这仍不足够。

AgentWatch：一个用于审计浏览器智能体行为安全性的开放框架

加州大学伯克利分校的一个团队从五个风险维度审计了五款主流 AI 浏览器智能体，并发布了一个开放、可容忍随机性的评分框架，任何人都可以扩展。

单一过滤器远远不够：为 RAG 聊天机器人设计的分层防御

2026 年 6 月中旬的一篇论文指出，单阶段的提示注入过滤器会放过被投毒的知识库文档，并测试了一套将攻击成功率从 71% 降至 11% 的三层流水线。

Locate-and-Judge：用注意力检测恶意智能体技能

2026 年 6 月的一篇论文扫描了三个市场约 13.4 万个智能体技能，确认了 131 个仍在流通的恶意技能，利用指令跟随注意力揭露隐藏在看似无害文件中的载荷。

MDASH：AI 智能体漏洞挖掘进入生产级防御

微软 MDASH 编排 100 多个专用 AI 智能体来发现、辩论并验证内核漏洞。它揭示了 16 个 Windows CVE，并在 CyberGym 上取得 88.45% 的成绩——既是防御信号，也是双重用途信号。

2026-07-04//7 min

安全 token 正则化：让微调后的大模型保持对齐

2026 年 4 月的一篇论文表明，即便是良性微调也会悄然削弱大模型的拒答能力，并提出一种在 logit 空间中的轻量正则化方法，在不损害任务精度的前提下保住安全性。

推理模型中指令层级在何处失效

2026 年 6 月的一篇诊断论文将推理型 LLM 的指令层级失效拆解为三个阶段——并表明无需重训练的自我监控即可修复其中的大部分。

2026-07-03//6 min

MemAudit：用取证审计找出被投毒的智能体记忆

多数防御试图在写入前拦截投毒。2026 年 5 月的一篇论文反其道而行：事后审计记忆库，从一次错误行为回溯到导致它的记忆条目。

2026-07-03//5 min

参数级溯源在整体调用防御失效之处阻止注入

2026 年 5 月的一篇论文提出：间接注入只有在不可信数据绑定某个「携带权限的参数」时才变得危险。PACT 逐参数校验溯源，在满分安全下恢复可用性。

2026-07-03//7 min

面对自适应提示注入，任务对齐推理胜过模式匹配

2026 年 6 月的一篇论文表明，静态基准高估了注入防御能力：自适应攻击者可将最差成功率抬高约 16 个百分点。RETA 将判断锚定在用户任务上，而非攻击者的文本上。

2026-07-03//7 min

SCOUT：面向提示注入防御的自适应检测器分配

2026 年 5 月发布于 arXiv，SCOUT 将提示注入防御重新表述为按请求路由的问题——据作者称，相较于全程常开的 LLM 裁判，攻击成功率下降 46%、延迟下降 40%。

2026-07-03//6 min

TRACE：通过追踪 token 影响力检测 RAG 语料库投毒

2026 年 6 月的一篇论文通过追踪哪些被检索的 token 主导了回答，来识别 RAG 语料库中的投毒文档——无需额外分类器或第二个 LLM，并顺带揭示出攻击者预设的目标答案。

2026-07-03//6 min

在不共享提示词的前提下，跨 LLM 服务共享提示注入情报

微软的一篇 SaTML 2026 论文将检测到的注入提示转化为保护隐私的二进制指纹，使一个服务能在不暴露用户文本的情况下向其他服务发出预警。

当注入说着文档的语言：伪装检测缺口

2026 年的两项研究表明，用文档自身行业术语撰写的提示注入能绕过守卫分类器——Llama Guard 3 一个都没检出。对检索内容进行改写是最稳健的防御，但效果因模型而异。

2026-07-02//5 min

框架与模型之争：用越权漏洞检测基准评估大模型

Semgrep 2026 年 6 月的 IDOR 检测基准显示，一个开放权重模型仅凭简单提示便超过了前沿编码智能体，但专用检测框架仍处于领先。防御方应从中学到什么。

记忆洗白：击穿基于内容与基于来源链的智能体记忆防御

2026 年 6 月的一篇论文证明，任何将记忆项权威性建立在其内容或派生历史之上的防御都可被洗白——只有在写入时绑定来源，才能阻止智能体记忆投毒。

带外注入防御尚未面对自适应攻击者

2026 年 6 月的一篇论文警告：CaMeL、Progent 等参考监视器防御仍以静态基准来评估——正是这一方法曾让带内防御显得强大，直到自适应攻击将它们攻破。

2026-07-02//7 min

为被投毒智能体永不遗忘的 RAG 记忆提供可证明的防御

2026 年 6 月的一篇论文对多会话记忆投毒进行了建模——一条精心构造的记忆即可悄然污染所有未来用户——并提出首个带有可证明鲁棒性界限、而非启发式过滤器的防御方案。

认知防火墙：面向浏览器智能体的分离式计算防御

2026 年 3 月的一篇 eBay 论文，将本地哨兵、云端规划器与确定性执行守卫层叠在一起，把浏览器智能体的间接提示注入成功率从 100% 降到 1% 以下。

2026-06-22//6 min

MemMark：仅凭快照就能归因被投毒的智能体记忆

2026 年 5 月 26 日的一篇 arXiv 论文把所有权写入智能体潜在的记忆写入决策，即使日志被抹除、只剩最终快照，溯源信息依然存活。

2026-06-22//6 min

DeepMind 的 AI Control Roadmap：面向未对齐智能体的纵深防御

谷歌 DeepMind 的 AI 控制路线图（2026 年 6 月）把内部 AI 智能体视为潜在的内部威胁，在模型对齐之上叠加由可信模型执行的监督。

2026-06-21//6 min

后门遗忘可泛化：移除一个触发器能抑制其他后门

2026 年 6 月的一篇论文表明，教会大模型忽略一个后门触发器，也能削弱其他从未被针对的后门——前提是它们的内部激活偏移足够接近，并用一个新指标 CASD 来度量。

2026-06-21//5 min

防御性误导：为何拦截自动化越狱反而可能适得其反

2026 年 6 月的一篇论文对攻击者的自动评判器建模，指出可预测的拒绝会喂养其搜索循环——并提出用受控误导取代单纯拦截。

2026-06-21//6 min

LLM 加盐：旋转拒绝方向以打破越狱复用

SophosAI 的「LLM 加盐」（CAMLIS 2025）对模型的拒绝方向施加一次小幅旋转：针对基座模型预先算好的越狱不再能迁移到你的部署——把彩虹表防御搬到了大模型上。

2026-06-21//5 min

为什么智能体的拒绝会失效：Cybersecurity Refusal Framework

一项新基准显示，智能体的安全拒绝取决于 URL 字符串，而非真实目标。两个微不足道的小技巧——伪造的「交战规则」与 localhost 代理——能在生产站点上把拒绝翻转为服从。

2026-06-20//6 min

MCP 安全：别再问存在哪些攻击，而要问防御应当部署在哪一层

2026 年 4 月的一篇 arXiv 论文将 MCP 攻击映射到六个架构层，发现防御分布不均且过度集中于工具层，使宿主编排、传输与供应链在结构上长期处于防御不足的状态。

2026-06-20//7 min

定位提示注入：从检测到取证式切除

检测到提示注入只能说明出了问题。2026 年的两项工作 PromptLocate 与 WebSentinel 能精确指出上下文中被污染的片段，从而将其切除并恢复原任务。

2026-06-20//5 min

SEAgent：用强制访问控制遏制智能体的权限提升

2026 年 1 月的一篇论文把智能体攻击重新界定为权限提升——超出任务所需最小权限的动作——并提出 SEAgent，一个在信息流图上施加的确定性 MAC/ABAC 层。

2026-06-20//6 min

AuthGraph：用双图对齐检测智能体提示注入

2026 年 5 月 26 日的 UCLA 论文将一份干净的授权图与智能体真实的来源图作结构比对，把 AgentDojo 上的攻击成功率从 40% 降到 1%。

2026-06-19//6 min

Cordon：面向工具型 LLM 智能体的事务化隔离

2026 年 6 月 16 日的一篇 arXiv 论文提出「语义事务」：一个在提交前先暂存智能体不可逆副作用、并对整个任务流程进行校验的运行时。

2026-06-19//6 min

DoubtProbe：识别重组意图的越狱攻击

2026 年 6 月的一篇论文提出了一种推理期防御方法，将越狱检测视为一致性校验：在结构约束下重建请求，再标记出经过这一往返后语义无法保持的提示。

2026-06-18//5 min

SafeMCP：用前瞻式工具门控遏制 MCP 智能体的权力扩张

2026 年 6 月 1 日的一篇 arXiv 论文（ACL 2026）提出 SafeMCP——一个服务端插件，借助世界模型的前瞻推理，在 MCP 智能体扩张其权力之前过滤掉危险的工具获取。

2026-06-18//5 min

SkillVetBench：用「LLM 充当评审」发现技能扫描器漏掉的风险

2026 年 6 月 14 日的一篇 arXiv 论文显示，代码层技能扫描器会漏掉 89%–100% 的指令层威胁，而 LLM 评审能标记出全部 78 个恶意测试技能且零误报。

2026-06-18//6 min

致命三要素已成默认配置——在运行时防御智能体

致命三要素曾用于标记高风险智能体。到2026年中，它几乎描述了所有有用的智能体，靠架构规避已不再奏效。防御重心转向运行时的五类行为信号。

2026-06-18//5 min

诱饵后门：通过共享内部机制清除未知的大模型后门

2026 年 6 月的一篇论文用「种下一个看得见的后门」来清除看不见的后门：不同后门共享内部激活模式，因此移除可控的「诱饵」也会削弱未知后门。

2026-06-17//5 min

检测智能体工具调用流量中的攻击：内容胜过图结构

2026 年 5 月的一篇 arXiv 研究针对 MCP 工具调用监控发现：内容嵌入主导检测效果（AUROC > 0.89），图结构贡献有限，而随机切分会把分数虚高最多 26 个百分点。

2026-06-17//5 min

RUBAS：用评分量表强化学习为智能体安全提供细粒度奖励信号

2026 年 6 月的一篇论文用四项评分量表（工具使用、参数、回复、有用性）取代二元的拒绝/执行奖励，训练既保持安全又不损失实用性的工具调用智能体。

2026-06-17//5 min

SkillGuard：在运行时约束智能体技能（skill）行为的权限框架

2026 年 6 月的一篇论文，通过清单、默认拒绝的访问控制与运行时监控，弥合了技能注入智能体上下文的内容与它促使智能体执行行为之间的差距。

2026-06-17//6 min

智能体图记忆的来源防御在构造上就是盲的

2026 年 6 月 10 日的一篇 arXiv 论文表明,针对 LLM 图记忆的来源检查无需伪造任何来源即可被绕过:一次不可信的结构写入会改变哪些已认证事实被选中,而信息流控制对此完全看不见。

2026-06-16//5 min

智能体隐私是轨迹问题：OCELOT 在运行时为推断泄露设定预算

一篇日期为 2026 年 6 月 10 日的 arXiv 论文将 LLM 智能体隐私重新定义为后验风险控制：不再过滤每一次输出，而是为对手在整条轨迹上对某个秘密的信念可提升的幅度设定预算。

2026-06-16//6 min

Parallax：把智能体安全放进架构，而非提示词

一篇 2026 年 4 月 14 日发布的立场论文指出，一旦智能体的推理被攻破，提示词层面的护栏便随之失效，并提出在结构上把『思考』与『执行』分离。

2026-06-16//7 min

构建安全智能体：以「计划与策略」防御提示注入

NVIDIA 的一篇立场论文（2026 年 3 月 31 日）认为间接提示注入无法仅在模型层面解决，并提出一种「计划与策略」系统架构，约束智能体可以观察和决定的范围。

2026-06-16//5 min

已验证的智能体技能：为 SKILL.md 供应链提供能力治理

NVIDIA 于 2026 年 5 月 19 日推出的已验证智能体技能，为 SKILL.md 供应链加入了风险扫描、加密签名与机器可读的技能卡——这是针对投毒技能的防御性回应。

2026-06-16//5 min

面向智能体 AI 的机密计算：硬件飞地保护不了什么

2026 年 5 月的一篇综述将机密计算映射到智能体技术栈：硬件飞地可保护智能体内存与 KV 缓存免遭恶意云运营商窥探，却挡不住提示注入。

越狱为何能在模型间迁移——以及「加盐」如何反制

一项针对 20 个开放权重模型的研究表明，越狱的迁移源于共享的内部表征，而非对齐训练的缺陷。一种名为 LLM salting（模型加盐）的防御通过旋转「拒绝方向」来打破复用。

提示注入尚未解决——请以机器速度加以遏制

在 2026 年 Infosecurity Europe 上，OWASP 的 Ariel Fogel 称提示注入是一个尚未解决的架构性问题，并主张防御应从预防转向与智能体同速的运行时遏制。

为什么提示注入检测器屡屡失效：2026 年的绕过难题

从关键词分类器到激活漂移探针，提示注入检测器都有一个共同弱点——自适应攻击者。两项研究报告了高达约 100% 的绕过率。检测只是一层，绝非边界。

SafeHarbor：一种针对智能体过度拒绝的分层记忆护栏

被 ICML 2026 接收的 SafeHarbor 是一种免训练护栏，从自演化的风险树中注入上下文相关的安全规则——在 GPT-4o 上保持 63.6% 的良性可用性，同时拒绝超过 93% 的攻击。

SecureClaw：面向工具型 LLM 智能体的双边界防御

2026 年 6 月的一篇论文提出同时守护两条不同的边界——在效果汇点授权外部动作、在读取边界对明文进行隔离——在一个智能体基准上报告了 0% 的攻击成功率。

2026-06-14//6 min

PI-Hunter：审计智能体以暴露并定位隐藏的提示注入

2026 年 6 月，谷歌研究者的一篇论文把提示注入红队测试重新定位为审计——PI-Hunter 演化以来源为锚的测试用例，揭示潜在注入在智能体中从何处进入、如何传播，而不仅仅是攻击是否成功。

2026-06-13//6 min

AgentDyn：为何在静态基准上满分的注入防御在真实场景中失效

2026 年 2 月的 ICML 基准 AgentDyn 在动态、开放式的智能体任务上测试了十种主流提示注入防御。几乎所有防御要么不安全，要么过度防御到无法使用。

2026-06-12//6 min

防御三难困境：为什么提示注入包装器无法做到完备

一篇经 Lean 4 机器验证的 2026 年 4 月论文证明：任何连续且保持效用的输入包装器都无法拦截所有提示注入。连续性、效用与完备性三者不可兼得。

2026-06-12//7 min

深入 GitHub Agentic Workflows：面向 CI/CD 智能体的安全架构

GitHub Agentic Workflows 于 2026 年 6 月 11 日进入公开预览，采用安全优先设计：在 chroot 隔离环境中运行无密钥智能体、工作流防火墙、写操作先缓冲再校验，以及一个威胁检测作业。这是对 CI/CD 中提示注入的防御性回答。

2026-06-12//7 min

Recuse Signal：为持有真实凭据的智能体准备的 robots.txt

2026 年 6 月的一篇论文提出了一种带内「拒绝」信号——通过 SSH 横幅或 PostgreSQL NOTICE 发出——礼貌地请求自主智能体主动退出。试点中它促成了 100% 的回避，但一句授权措辞又让最强的模型重新继续。

2026-06-12//5 min

工具流注入：为何静态智能体防御会失效，以及「先验证后提交」如何修复

2026 年 1 月的论文 VIGIL 将间接注入重新聚焦于工具流——伪造的工具描述与虚假错误信息——并指出：智能体对齐得越好，反而越会服从它们。

2026-06-12//6 min

TRUSTDESC：从代码反推工具描述，从根源化解工具投毒

2026 年 4 月的一篇论文从根源应对工具投毒：从工具的实现而非作者提供的文本生成描述，化解检测器无法发现的隐式投毒。

2026-06-12//6 min

CASA：将每次工具调用与用户真实意图比对的基于任务的访问控制

2026 年 5 月 4 日的一篇 arXiv 论文提出“持续智能体语义授权”——一个零信任层，从多轮对话中提取用户任务，并拒绝与之不符的工具调用。

2026-06-11//5 min

监督是有容量的：当更多的审批反而让智能体更不安全

2026 年 6 月 8 日的一篇 arXiv 论文，把智能体审批关卡背后的人类审核者建模为一种会疲劳的有限资源，并表明升级更多动作反而会降低真实安全性，并打开一种淹没式攻击。

2026-06-11//7 min

ADR：面向 MCP 智能体的检测与响应，在 Uber 规模验证

2026 年 5 月 Uber 的论文介绍了一套面向 MCP 智能体的类 EDR 系统：完整因果遥测、两级检测与离线红队，已在逾 7200 台主机上运行十个月。

2026-06-08//6 min

智能体安全是系统问题：把模型当作不可信组件

2026 年 5 月一篇立场论文（Google、UCSD、威斯康星大学麦迪逊分校）主张：智能体安全应从模型内部移到系统层面——把大模型视为不可信组件，并在其外围强制安全不变量。

2026-06-08//7 min

AgentTrust：在执行前审查智能体的工具调用

2026 年 5 月 6 日的一篇预印本提出 AgentTrust——一个在每次工具调用执行前进行检查的运行时层，返回放行 / 警告 / 拦截 / 复核，并能识别被混淆的 shell 载荷。

2026-06-08//5 min

通过观察流量窗口而非单条查询来检测模型提取攻击

2026 年 6 月的一篇论文表明，一种简单的分布检验（对查询嵌入做 MMD、仅用正常流量校准）能够检测隐藏在混合 API 流量中的模型提取行动——误报率 0.3%，纯攻击流量上检出率 100%。

2026-06-08//6 min

ePCA：用形式化验证取代智能体的语义护栏

2026 年 5 月的一篇论文提出 ePCA：一种在执行前将每个智能体动作编译为一阶逻辑并运行 SMT 检查的护栏，将不安全的步骤作为逻辑死锁加以阻止。

2026-06-08//6 min

微软智能体失效模式分类法 v2.0：零点击绕过人在回路

微软 AI 红队的 v2.0 分类法（2026 年 6 月 4 日）新增七类智能体失效模式，并指出人在回路绕过是被利用最频繁的一类——其中包括从单一外部输入发起的零点击攻击链。

2026-06-07//7 min

AgentVisor：一种审计每次工具调用的操作系统虚拟机监控器模式

2026年4月27日的一篇arXiv论文借用操作系统虚拟机监控器的思路来防护带工具的LLM智能体：一个可信的“visor”审计每次工具调用，并在架构上对不可信内容保持失明。

2026-06-07//7 min

Need to Know：基于情境完整性的隐私查询改写

2026 年 6 月 2 日的一篇 arXiv 论文把隐私保护的查询改写重新定义为情境完整性问题：只有当任务真正需要时，才把某段信息发送给云端 LLM，而不是因为匹配到某种 PII 类型。

两个抬高提示注入检测器分数的方法论陷阱

2026年6月1日的一篇arXiv预印本指出，大多数提示注入与越狱检测器基准都依赖于按数据集调阈值和不公开工作点这两种做法——它们悄悄抬高了所宣传的准确率。

Membrane：无需重训即可自适应护栏的对比式安全记忆

2026 年 6 月 4 日的一篇 arXiv 论文提出 Membrane，一种自演化护栏，将每个被拦截的攻击与一个几乎相同的良性请求配对，把过度拒绝降至 7-14%，并在六种越狱上取得最高 F1。

OpenAI 锁定模式：切断提示注入的数据外泄通道

2026 年 6 月 6 日，OpenAI 将锁定模式扩展到个人版与自助 Business 版 ChatGPT 账户：一项确定性设置，关闭被用于通过提示注入外泄数据的出站通道。

THRD：一种无需重训练的多轮越狱时序防御框架

2026 年 6 月的一篇论文主张：多轮越狱必须基于整段对话来判定，而非逐轮评估。THRD 在时间维度上聚合风险，将攻击成功率降至 0.2–4%，且无需重训练模型。

2026-06-07//6 min

自己写日志的智能体：为什么不能信任自报的审计轨迹

如果被攻陷的智能体自行生成活动日志，它可以省略、篡改或伪造自己的行为。2026 年 6 月的三项工作——arXiv 的 Notarized Agents、IETF 的智能体审计轨迹草案以及 SCITT——指向同一个对策：把信任边界移出智能体本身。

2026-06-05//6 min

当基于嵌入的防御在 LLM 多智能体系统中失效

2026 年 5 月 1 日的一篇 arXiv 论文表明：依据消息嵌入剔除恶意智能体的检测器，在面对被改写得近乎良性的文本时会崩溃——并提出以词元级置信度信号作为更稳健的替代方案。

2026-06-05//5 min

在输出 token 之前检测 LLM 智能体的凭证外泄

2026 年 6 月 2 日发布的一篇 arXiv 论文，在任何输出 token 产生之前就检测智能体的凭证泄漏——结合激活探针、校准蜜标和多轮泄漏核算。

AgentShield：用蜜标和诱饵工具识别被劫持的智能体

2026 年 5 月的一篇论文将欺骗工程引入工具型 LLM 智能体：假工具、假凭据和参数白名单，让被劫持的智能体自露马脚。论文报告对成功攻击的检出率为 90.7%–100%，且无误报。

BM25 + 向量混合检索将 RAG 投毒成功率从 38% 降到 0%

2026 年 3 月 10 日的一篇 arXiv 预印本表明，在稠密检索之外加入稀疏 BM25，即可在不改动 LLM 的情况下阻断一整类基于梯度优化的 RAG 语料投毒。

OWASP Agent Memory Guard：对抗智能体记忆投毒的运行时防护层

经 Help Net Security 于 2026 年 6 月 1 日报道，Agent Memory Guard 是 OWASP 针对 ASI06 的首个参考实现——一个即插即用的防护层，按 YAML 策略过滤智能体记忆的每一次读写。

PISmith：自适应强化学习红队持续攻破提示注入防御

2026 年 3 月的一篇论文用强化学习训练攻击模型，在黑盒条件下压力测试提示注入防御——8 种最先进的防御仍被攻破，包括在 AgentDojo 与 InjecAgent 上。

2026-06-04//5 min

Agent Threat Rules：面向 AI 智能体的「Sigma」——以及它的召回率数字所坦白的真相

ATR 为智能体攻击提供开放的 YAML 检测规则，已在微软、思科和 Gen Digital 投入生产。其自身的基准测试说明了为何基于正则的检测只是一层，而非边界。

2026-06-03//5 min

DataShield：当良性微调悄然侵蚀模型的安全性

2026 年 5 月 29 日的一篇 arXiv 论文表明，用无害数据微调一个已对齐的 LLM 仍会削弱其安全性，并提出 DataShield 在训练前识别出导致问题的样本。

2026-06-03//6 min

SnapGuard：在智能体「看到」的画面里检测注入，而非它解析的文本

2026 年 4 月的一篇论文为基于截图的网页智能体提出轻量检测器——文本类防御在此处是盲的。它读取渲染后的像素（梯度稳定性 + 极性反转文本），每页约 1.81 秒。

2026-06-03//5 min

动态分隔符：强化多态提示拼装以抵御提示注入

2026 年 5 月 28 日的一篇 arXiv 论文通过为每次请求生成唯一的 SHA-256 分隔符，修复了多态提示拼装（PPA）的「波及范围」缺陷，将某一 payload 的攻击成功率从 0.88 降至 0.38。

2026-06-02//6 min

别再只用攻击成功率来评估越狱防御

2026 年 5 月的一篇 IEEE S&P 论文指出，攻击成功率——该领域默认的指标——掩盖了越狱防御的真实表现。其提出的 Security Cube 从多个维度同时评估防御。

2026-06-02//5 min

因果归因：对抗间接提示注入的新兴防御

2026 年初的一批论文——CausalArmor 与 AttriGuard——通过追问哪些动作是由不可信内容、而非用户意图所导致，来防护具备工具调用能力的智能体。本文梳理这一因果归因防御路线。

2026-06-01//6 min

权衡三角：LLM 教学助手的提示注入防御

2026 年 5 月一项针对教育类 LLM 教学助手提示注入防御的基准测试量化了一个难以回避的事实：没有任何一种护栏能在鲁棒性、可用性和延迟上同时取胜。

2026-06-01//6 min

越狱会留下痕迹:在大语言模型内部激活中检测攻击

2026 年 2 月的一篇论文及其 3 月的后续工作表明,越狱提示会在模型的隐藏激活中刻下可辨识的特征——从而能够在推理时检测,无需微调,也无需辅助的裁判模型。

2026-06-01//6 min

MCP 需要一次信任握手:基于证明的工具服务器准入

2026 年 5 月 22 日的一篇 arXiv 论文提出 mcp-attested ——一个向后兼容的 MCP 扩展,它在工具分发之前要求签名的准入断言、默认拒绝的白名单和防篡改审计日志。

2026-05-29//7 min

百万暴露的 AI 服务:Intruder 扫描究竟发现了什么

2026 年 5 月 5 日,Intruder 公布了一次互联网范围扫描结果,在 200 万台主机上识别出 100 万个暴露的 AI 服务。反复出现的缺陷并不奇特:就是默认配置过于宽松。

2026-05-29//9 min

WARD:共同演化的护栏模型,抵御针对Web代理的自适应提示注入

新加坡国立大学2026年5月14日发布的论文提出WARD——一个由带记忆的对抗性攻击者训练而成的护栏模型,在Web代理提示注入的分布外基准上报告接近完美的召回率。

2026-05-29//8 min

Project Glasswing:Claude Mythos 一个月内发现逾 1 万个严重漏洞

Anthropic 于 2026 年 5 月 26 日发布的阶段性更新显示,Project Glasswing 的约 50 家合作伙伴使用 Claude Mythos Preview 共发现了 1 万余个高危或严重漏洞,其中包括 Firefox 150 修复的 271 个潜伏缺陷。

2026-05-26//8 min

Agents Rule of Two：Meta 应对 Prompt Injection 的务实方案

Meta 于 2025 年 10 月 31 日发布、并在 2026 年 5 月 Databricks 指南中被重新采用的 Agents Rule of Two，将单次智能体会话限制在三项风险属性中的两项 —— 在 prompt injection 仍未被解决之前，这是最具可操作性的框架。

2026-05-25//6 min

ARGUS:基于影响溯源图的上下文感知提示注入防御

2026 年 5 月 5 日发布的 ARGUS 论文提出了针对 LLM 代理的影响溯源审计——在新基准上将攻击成功率从 28.8% 降至 3.8%。

2026-05-22//7 min

指令层级:训练大语言模型优先执行高权限指令

OpenAI 在 2024 年的论文提出了一种对抗提示注入的结构性防御:让模型理解系统 > 用户 > 工具输出的优先关系。这一思路已成为 GPT-4o-mini 和 o 系列安全训练的核心。

2026-05-22//8 min