系统:运行中
← 返回类别

DEFENSE

(8)

8 个攻击.

DEFENSE MEDIUM NEW

百万暴露的 AI 服务:Intruder 扫描究竟发现了什么

2026 年 5 月 5 日,Intruder 公布了一次互联网范围扫描结果,在 200 万台主机上识别出 100 万个暴露的 AI 服务。反复出现的缺陷并不奇特:就是默认配置过于宽松。

2026-05-29//9 min
DEFENSE MEDIUM NEW

MCP 需要一次信任握手:基于证明的工具服务器准入

2026 年 5 月 22 日的一篇 arXiv 论文提出 mcp-attested ——一个向后兼容的 MCP 扩展,它在工具分发之前要求签名的准入断言、默认拒绝的白名单和防篡改审计日志。

2026-05-29//7 min
DEFENSE MEDIUM NEW

WARD:共同演化的护栏模型,抵御针对Web代理的自适应提示注入

新加坡国立大学2026年5月14日发布的论文提出WARD——一个由带记忆的对抗性攻击者训练而成的护栏模型,在Web代理提示注入的分布外基准上报告接近完美的召回率。

2026-05-29//8 min
DEFENSE MEDIUM

Project Glasswing:Claude Mythos 一个月内发现逾 1 万个严重漏洞

Anthropic 于 2026 年 5 月 26 日发布的阶段性更新显示,Project Glasswing 的约 50 家合作伙伴使用 Claude Mythos Preview 共发现了 1 万余个高危或严重漏洞,其中包括 Firefox 150 修复的 271 个潜伏缺陷。

2026-05-26//8 min
DEFENSE MEDIUM

Agents Rule of Two:Meta 应对 Prompt Injection 的务实方案

Meta 于 2025 年 10 月 31 日发布、并在 2026 年 5 月 Databricks 指南中被重新采用的 Agents Rule of Two,将单次智能体会话限制在三项风险属性中的两项 —— 在 prompt injection 仍未被解决之前,这是最具可操作性的框架。

2026-05-25//6 min
DEFENSE MEDIUM

ARGUS:基于影响溯源图的上下文感知提示注入防御

2026 年 5 月 5 日发布的 ARGUS 论文提出了针对 LLM 代理的影响溯源审计——在新基准上将攻击成功率从 28.8% 降至 3.8%。

2026-05-22//7 min
DEFENSE MEDIUM

指令层级:训练大语言模型优先执行高权限指令

OpenAI 在 2024 年的论文提出了一种对抗提示注入的结构性防御:让模型理解 系统 > 用户 > 工具输出 的优先关系。这一思路已成为 GPT-4o-mini 和 o 系列安全训练的核心。

2026-05-22//8 min
DEFENSE MEDIUM

输出过滤胜过模型自防御:两万次自适应攻击,只有一个幸存者

于2026年4月26日发布、5月12日修订的一篇Swept AI与密歇根大学论文,以自适应攻击者对抗九种提示注入防御。所有依赖模型自身的防御最终都被攻破。仅有运行在应用层的输出过滤经受住了考验——在15 000次攻击中实现零泄漏。

2026-05-22//6 min