所有攻击 (75)
LLM 攻击、越狱和防御的开放数据库。每日更新。
SymJack:一次被批准的文件复制变成六款 AI 编码助手中的 RCE
Adversa AI 于 2026 年 5 月 26 日披露了一种符号链接劫持模式,只需一次看似无害的 shell 复制命令,就能在 Claude Code、Cursor、Gemini、Antigravity、Copilot、Grok Build 和 Codex CLI 上覆写配置并在主机获得 RCE。
2026 年的 Slopsquatting:五个前沿大模型同时幻觉出的 127 个软件包名
2026 年 5 月 16 日 arXiv 上发布的复现研究表明,前沿模型的包幻觉率较 2024 年下降了约一个数量级,但仍识别出 127 个所有被测模型同时凭空捏造的相同包名,构成一种与具体模型无关的供应链攻击面。
Blindfold:动作级越狱绕过具身 LLM 的语义防御
SenSys '26 论文(2026 年 5 月 11–14 日)提出 Blindfold,一种通过将恶意目标拆解为单独看似无害的动作来越狱具身 LLM 的自动化框架——在真实 6-DoF 机械臂上将攻击成功率较语义级基线提高最多 53%。
MCPwn (CVE-2026-33032):nginx-ui 的 MCP 接口拱手让出整个 Web 服务器
nginx-ui ≤ 2.3.3 的一个未鉴权 MCP 接口允许任意网络攻击者改写 nginx 配置并重启服务。CVSS 9.8,2026 年 4 月 15 日公开披露,补丁发布数小时内就在野利用。
衡量大语言模型的漏洞利用能力:ExploitBench、ExploitGym 与 SCONE-bench
2026 年 5 月 22 日,Anthropic 公布了 Mythos Preview 在三个新漏洞利用基准上的成绩。这些数字以及基准对漏洞利用链的分解方式,正在改变防御者对前沿攻击能力的思考方式。
Proprietary Problems:思科对 15 个闭源前沿模型的成对评测显示,单轮安全分数遗漏了大部分多轮风险
2026 年 5 月 27 日,思科发布了对 OpenAI、Anthropic、Google、Amazon 与 xAI 旗下 15 个闭源旗舰模型的研究,多轮攻击成功率介于 7.89% 至 88.30% 之间,与单轮基线相比差距最高可达 55 个百分点。
百万暴露的 AI 服务:Intruder 扫描究竟发现了什么
2026 年 5 月 5 日,Intruder 公布了一次互联网范围扫描结果,在 200 万台主机上识别出 100 万个暴露的 AI 服务。反复出现的缺陷并不奇特:就是默认配置过于宽松。
智能体与人的安全鸿沟:生产环境部署的与论文研究的
UCLA 团队 2026 年 5 月 23 日发表的论文审计了 59 项学术研究、21 个生产环境智能体系统和 26 个安全插件,发现研究者偏爱的防御方案在生产中部署为零。
自治税:防御训练如何毁掉 LLM 智能体
2026 年 3 月 19 日 USC 的一篇论文衡量了提示注入防御训练对智能体能力的代价 —— 被防御模型在 99% 的任务中超时,而基线只有 13%。
MCP 需要一次信任握手:基于证明的工具服务器准入
2026 年 5 月 22 日的一篇 arXiv 论文提出 mcp-attested ——一个向后兼容的 MCP 扩展,它在工具分发之前要求签名的准入断言、默认拒绝的白名单和防篡改审计日志。
WARD:共同演化的护栏模型,抵御针对Web代理的自适应提示注入
新加坡国立大学2026年5月14日发布的论文提出WARD——一个由带记忆的对抗性攻击者训练而成的护栏模型,在Web代理提示注入的分布外基准上报告接近完美的召回率。
MemMorph:通过流畅的记忆投毒劫持 LLM 智能体的工具调用
2026 年 5 月 24 日,新加坡南洋理工大学在 arXiv 发表论文,证明仅需三条看似合理的记忆条目,即可以 85.9% 的成功率将智能体引向攻击者选定的工具,且能绕过三种现成防御。
SilentRetrieval:能绕过困惑度过滤的流畅 RAG 语料投毒
2026 年 5 月 27 日 arXiv 预印本提出一种两阶段攻击,将劫持触发器隐藏在流畅文档中,在 Natural Questions 和 MS MARCO 上以每查询一份投毒文档实现 57% 的 LLM 攻击成功率。
CISA 与五眼联盟发布首份针对智能体 AI 部署的联合指引
2026 年 5 月 1 日,CISA、NSA 与五眼联盟各网络安全机构联合发布《Careful Adoption of Agentic AI Services》——一套五类风险分类法与一份部署手册,关键基础设施运营方需将其纳入现有网络安全框架。
Microsoft Copilot Cowork:被污染的 Skill 文件无需审批即可外泄 M365 文档
PromptArmor 于 2026 年 5 月 26 日披露:在 Copilot Cowork 的 skill 文件中植入五行提示注入,即可通过自动批准的 Teams 消息泄露 SharePoint 与 OneDrive 文档,目前没有补丁修复该设计缺陷。
CrossMPI:仅靠图像的提示注入操纵视觉语言模型的阅读与观看
西安电子科技大学团队于 2026 年 5 月 15 日在 arXiv 发布的论文提出 CrossMPI:不可察觉的图像扰动改变视觉语言模型对图像和用户文本指令的联合理解,在五个 LVLM 上平均成功率达 66%。
IterInject:当 LLM 自己为间接提示注入做优化
2026 年 5 月 23 日的一篇论文,把载荷 / 诊断器 / LLM 优化器三者闭环 — 在 InjecAgent 上的间接注入 ASR 从近零升至 33–90%,在 Claude Code 上 9 个目标中有 5 个被攻破。
NSA AISC 发布生产 AI 中 MCP 安全设计指南
2026 年 5 月 20 日,美国 NSA 人工智能安全中心发布了一份关于 Model Context Protocol 的 15 页《网络安全信息表》:八类弱点、五起真实事件、九条防御性建议。
pgAdmin 4 新增 LLM 面板,附带一组经典的 LFI+SSRF(CVE-2026-7817)
pgAdmin 4 9.15 修复了新 LLM API 配置端点中的认证型 LFI 和 SSRF。漏洞类别已有四十年历史,攻击面却是全新的。
毒化瞭望塔:当 SOC 副驾驶读取由攻击者控制的日志
2026 年 5 月 23 日的一篇论文形式化了日志载体提示注入——通过日志字段中的对抗性内容操纵 SOC 的 LLM 助手。最强防御仍平均放过 11.8% 的注入。
时序记忆污染:配备记忆的 LLM 智能体的纵向安全漂移
2026 年 4 月与 5 月的三篇 arXiv 论文共同指向了一种与记忆投毒互补的失效模式 — 配备记忆的智能体随着良性上下文的累积而逐渐变得不安全,被压缩的摘要充当了清洗通道。
压力:开源安全团队在 AI 辅助漏洞洪流下的处境
2026 年 5 月 26 日,curl 项目主开发者 Daniel Stenberg 发表《The pressure》:平均每天超过一份可信安全报告,半个发布周期已确认 12 个 CVE,其他维护者也在同步证实这一趋势。
智能体的 harness 才是真正的特权边界 — 而大多数团队都把这条边界划错了位置
Pillar Security 在 2026 年 5 月 26 日的分析指出:harness — Claude Code、Cursor、Codex — 持有智能体永远看不到的密钥、工具与 hook。近期 harness 层的 bug 与 CVE-2026-22708 将这一观点落到了实处。
Sockpuppeting:一行 prefill 越狱 11 个生产级大模型
在请求的最后一条消息中以 assistant 角色注入一行文本,即可让 10 个主流模型中的 7 个生成有害内容。真正的修复并不在模型一侧,而是 API 层对消息顺序的校验。
GrafanaGhost:间接提示注入与 URL 解析漏洞结合,导致仪表盘数据外泄
Noma Security 于 2026 年 4 月 7 日披露的三个微小缺陷——一个存储型注入点、一处 startsWith('/') URL 校验,以及一个单词级的护栏绕过——共同构成了通过 Grafana AI 助手悄然外泄数据的链条。
智能体网络以新方式失效:微软的红队演练,以及 RAMPART 与 Clarity
微软研究院对一个包含 100 多个常驻智能体的内部平台进行了红队测试。四种攻击模式——传播、放大、信任劫持、代理链——只在网络层面显现。2026 年 5 月 20 日开源的 RAMPART 与 Clarity 是相应的回应。
Antigravity find_by_name:当原生工具调用跳过 Secure Mode
2026 年 4 月 20 日,Pillar Security 披露 Google Antigravity 的 find_by_name 工具中一个未净化的参数将文件搜索变成任意代码执行——并绕过了该 IDE 最严格的沙箱。
苹果 2026 年 5 月公告正式致谢 Claude 协助发现两个 macOS CVE
2026 年 5 月 11 日,苹果 macOS Tahoe 26.5 安全公告在两个 CVE 中列出 Claude 与其研究者并列——一个内核整数溢出和一个 WebKit 释放后使用漏洞。AI 辅助漏洞研究已正式出现在厂商更新日志中。
BadHost(CVE-2026-48710):Host 头中一个字符即可绕过 Starlette、vLLM 与 FastMCP 的鉴权
X41 D-Sec 于 2026 年 5 月 22 日披露 Starlette < 1.0.1 中的关键鉴权绕过。HTTP Host 头中仅插入一个 /、? 或 # 字符,即可使实际路由的路径与中间件看到的路径产生不一致,导致 vLLM、LiteLLM、FastMCP 及成千上万基于 FastAPI 的 AI 智能体的基于路径的授权失效。
Bleeding Llama:GGUF 解析漏洞向未认证攻击者泄露 Ollama 进程内存
2026 年 5 月公开披露、由 Cyera 命名为 Bleeding Llama 的 CVE-2026-7482 漏洞,允许远程攻击者通过三次未认证的 API 调用,从 Ollama 服务器堆中提取任意片段——API 密钥、系统提示、其他用户的对话。静默补丁早在 CVE 编号分配前 2.5 个月就已发布。
ClaudeBleed:当浏览器智能体信任了错误的扩展
LayerX 于 2026 年 5 月 6 日披露了 ClaudeBleed:一处信任边界缺陷使任意 Chrome 扩展都能操控 Claude in Chrome,并外泄 Gmail、Drive 和 GitHub 数据。首个补丁在数小时内即被绕过。
编码型提示注入:当 LLM 自己解码 payload,护栏就失效了
2026 年 5 月 4 日,一条用摩尔斯电码写成的推文,从 Grok 控制的加密钱包里转走了约 17.5 万美元。这是迄今最昂贵的一次公开演示,揭示了一个已知的防御盲点:基于字符串匹配的护栏看不穿那些模型本身乐于解码的编码。
第一波 CVE 浪潮:AI 辅助漏洞发现正在重塑披露体量
VulnCheck 2026 年 5 月 14 日的分析显示,今年至今 Chrome CVE 增加 +563%、GitHub +476%、VMware +180%、Apache +170%。苹果、Mozilla 与 ActiveMQ 头条背后的系统性转折,如今已显现在数据中。
字体映射提示注入:当同行评审变成 LLM 的攻击面
2026 年 5 月 25 日的 arXiv 基准测试显示,通过字体映射隐藏的载荷可以将 LLM 的审稿意见从拒稿翻转为接受。ICML 2026 已经用同一手法的镜像版桌拒了 497 篇论文。
MCP 的 STDIO 传输:一个引发 11 个 CVE、暴露 20 万个代理的设计决定
2026 年 4 月 16 日,OX Security 披露 Anthropic 设计的 MCP STDIO 传输会直接执行收到的任何操作系统命令。Anthropic 称之为「按设计如此」。在六周内,这一缺陷已派生出十一个下游 CVE。
MultiBreak:1.04 万条多轮提示揭示对话式越狱如何绕过 LLM 安全对齐
2026 年 5 月 3 日发表的 ICML 2026 论文公开了目前规模最大、最具多样性的多轮越狱基准。它记录到相对于此前最佳数据集,DeepSeek-R1-7B 上的攻击成功率差距高达 54 个百分点,GPT-4.1-mini 上达 34.6 个百分点,并量化了单轮对齐如何在多轮场景中坍塌。
当提示变成 shell:智能体框架中从提示注入到 RCE 的攻击链
2026 年初披露的两个 Microsoft Semantic Kernel CVE 和四个 CrewAI CVE,将一次提示注入转化为宿主机上的远程代码执行。该模式是结构性的,而非偶发。
Teaching Claude Why:Anthropic 如何把代理失准率降到零
2026 年 5 月 8 日,Anthropic 的 Alignment Science 团队发布了一项案例研究,显示让 Claude「解释」其伦理推理,而不仅仅是「演示」之,可将代理失准率从 96% 降至不足 1%。
投毒一次,长期受害:LLM Agent 持久性记忆投毒(OWASP ASI06)
2026 年 4 月的一篇 arXiv 论文讨论跨站记忆投毒,5 月 13 日的 OWASP 博客介绍 Cisco 对 Claude Code 的 MemoryTrap 发现——两者得出同一个结论:Agent 的记忆本身就是一条信任边界。
像保护操作系统一样保护 AI 智能体:CISPA 给出的设计蓝图
2026 年 5 月 14 日,CISPA 的一篇论文将数十年的操作系统安全经验移植到 LLM 智能体上。对四个 OpenClaw 类系统的测试显示:跨用户数据外泄与未授权出网这两类弱点,在每一个被测系统上都失守。
AI 辅助的 ICS 攻击:蒙特雷供水公司入侵事件的教训
Dragos 在 2026 年 5 月发布的关于 Servicios de Agua y Drenaje de Monterrey 的报告,记录了首个公开分析的、由商用 LLM(Claude)作为主要技术执行者发起的 OT 入侵尝试。
AudioHijack:不可感知音频劫持语音智能体(IEEE S&P 2026)
一篇 2026 年 4 月 16 日的 IEEE S&P 论文提出听觉 prompt 注入:隐藏在音频中的对抗性混响驱动 13 种大型音频-语言模型以及 Mistral AI 与 Microsoft Azure 等商用语音智能体执行未经授权的操作,平均成功率 79%-96%。
Discourse AI XSS 漏洞(CVE-2026-27740):当 LLM 输出被当作可信 HTML 渲染
一条被举报的帖子、一个 AI 审核员、一次 htmlSafe 调用。Discourse AI 插件将 LLM 输出视为可信标记,使间接提示注入演变为针对管理员的 XSS。2026 年 3 月 19 日公开。
致命三要素:当智能体同时能读私有数据、接收不可信内容并对外通信
Simon Willison 提出的框架,揭示了为什么 2026 年 AI 智能体数据外泄事件并非偶发,而是同一个架构错误所致。
MCP 后端漏洞:经典缺陷在 AI 与数据库桥接层卷土重来
Akamai 于 2026 年 5 月 12 日发布的研究记录了三个 MCP 服务器中的 SQL 注入(CVE-2025-66335)、缺失认证与未净化输入——涉及 Apache Doris、Apache Pinot 和 Alibaba RDS。重点不在单个漏洞,而在背后的模式。
OpenAI Daybreak 与 GPT-5.5-Cyber:身份核验闸门背后的「宽松」安全模型
2026 年 5 月 7 日至 12 日,OpenAI 发布了 Daybreak —— 一个由 GPT-5.5、Codex Security 与「网络安全宽松版」GPT-5.5-Cyber 共同支撑的网络安全平台。英国 AISI 此前在六小时内发现了一个通用越狱。
Project Glasswing:Claude Mythos 一个月内发现逾 1 万个严重漏洞
Anthropic 于 2026 年 5 月 26 日发布的阶段性更新显示,Project Glasswing 的约 50 家合作伙伴使用 Claude Mythos Preview 共发现了 1 万余个高危或严重漏洞,其中包括 Firefox 150 修复的 271 个潜伏缺陷。
Semantic Kernel:当一个 prompt 变成 shell(CVE-2026-25592、CVE-2026-26030)
微软于 2026 年 5 月 7 日披露 Semantic Kernel 中两个关键漏洞,可将单条注入式 prompt 转化为宿主级代码执行。根因在于架构层面:工具注册表和 eval() 被当作便利特性,而非安全边界。
SKILL.md 中的隐藏触发器:针对 Agent Skill 注册表的语义供应链攻击
马里兰大学 2026 年 5 月 12 日发表的论文表明:在 SKILL.md 文件中添加约 20 个 token,即可让 Agent 在 77–86% 的试验中发现并选择对抗性 skill,并以最高 100% 的概率绕过注册表的扫描。
Trust No Tool:通过工具反馈对 LLM 智能体进行认知投毒
2026 年 5 月 17 日的一篇 arXiv 论文提出了“认知投毒”概念——恶意工具在多轮看似正常的交互中赢得智能体信任,仅在最终动作时才发动攻击。防御目标从提示词转向交互轨迹。
Usability as a Weapon:一句“优化”请求让代码 LLM 默默丢失安全约束
2026 年 5 月 11 日的 arXiv 论文显示,向代码 LLM 请求“更快”、“更简洁”或“再加一个功能”会悄悄移除安全防护。UPAttack 在 GPT-5.2-chat 与 Gemini-3 上达到 98.1% 成功率。
Agents Rule of Two:Meta 应对 Prompt Injection 的务实方案
Meta 于 2025 年 10 月 31 日发布、并在 2026 年 5 月 Databricks 指南中被重新采用的 Agents Rule of Two,将单次智能体会话限制在三项风险属性中的两项 —— 在 prompt injection 仍未被解决之前,这是最具可操作性的框架。
CVE-2026-35435:Azure AI Foundry 在 M365 中发布的智能体信任了本不该信任的调用方
2026 年 5 月 7 日公开(CVSS 8.6),Azure AI Foundry 的一个访问控制缺陷允许未授权攻击者通过 M365 已发布智能体提升权限。微软报告该漏洞已被野外利用;补丁发布前已提供缓解措施。
Azure SRE Agent:一项多租户令牌校验让陌生人围观您的故障处置(CVE-2026-32173)
2026 年 4 月 20 日披露:Azure SRE Agent 的 /agentHub WebSocket 上 Entra ID 应用注册的多租户配置失误,让任意租户都能接入并静默旁听每条提示词、推理步骤、CLI 命令和凭据。
Claw Chain:四个 OpenClaw 漏洞如何把 AI 智能体变成攻击者的双手
Cyera Research 于 2026 年 5 月 15 日公开披露的 Claw Chain,将四个已修复的 OpenClaw 漏洞——沙箱逃逸、环境变量泄露、MCP 回环提权、符号链接读取逃逸——串成一条经由智能体本身完成的主机完全接管链。
Comment and Control:一种提示注入模式,三家厂商的 GitHub Actions 密钥同时泄露
2026 年 4 月 15 日披露的 Comment and Control 攻击将 PR 标题、Issue 评论和 HTML 注释变成了 Claude Code、Gemini CLI 与 GitHub Copilot Agent 的凭据外泄通道。
情境完整性:提示注入防御为何始终失效
Abdelnabi 与 Bagdasarian 在 2026 年 5 月发布的论文以情境完整性重新审视提示注入,指出数据与指令分离本身就是一种范畴错误。
Copirate 365:在 M365 Copilot 中串联提示注入、延迟工具调用与长期记忆劫持(CVE-2026-24299)
Johann Rehberger 于 2026 年 5 月发布的 DEF CON 复盘文章,描述了一条五阶段的间接提示注入链:仅凭一封带陷阱的邮件,即可在 Microsoft 365 Copilot 中植入持久后门。漏洞已修复,但所用模式具有普遍意义。
野外的间接提示注入:2026年4月三项研究殊途同归
Google、Forcepoint 与 CISPA 于 2026 年 4 月分别完成对开放网络中间接提示注入的测量。结论:15 000 余条已验证载荷,32% 的环比增长,组织化模板。
LiteLLM CVE-2026-42208:AI 网关中的未授权 SQL 注入
2026 年 4 月 20 日披露,全球公告索引后 36 小时即遭利用。CVE-2026-42208 将 LiteLLM 的 Authorization 头部变成对网关所代理的每一个上游模型凭据的直接读取入口。
当攻击者也是大模型:大型推理模型作为自主越狱代理
2026 年 5 月正式发表于《Nature Communications》的论文显示,四个推理模型 —— DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini 与 Qwen3 235B —— 仅凭一段系统提示,即可对九个目标 LLM 发起越狱,总体成功率达到 97.14%。
数学编码越狱:当集合论绕过大语言模型安全防线
2026年5月5日发布的一篇arXiv论文表明,将有害提示重写为集合论或形式逻辑问题,可在八个前沿模型上以46%–56%的成功率绕过安全训练——但前提是由辅助大语言模型完成深度重写。
PraisonAI CVE-2026-44338:未鉴权的智能体服务器,披露3小时44分后即被利用
2026年5月11日披露的 CVE-2026-44338,使 PraisonAI 的旧版 API 服务器默认硬编码关闭了身份认证。不到四小时,CVE-Detector 扫描器即开始探测该端点。
ShareLeak (CVE-2026-21520):微软首次为 Copilot 提示注入分配的 CVE
Capsule Security 于 2026 年 4 月 15 日披露的 ShareLeak 报告,详述了 Microsoft Copilot Studio 中的一处间接提示注入。微软分配了 CVE-2026-21520 (CVSS 7.5),这是行业上将提示注入正式纳入受跟踪漏洞类别的标志性事件。
ARGUS:基于影响溯源图的上下文感知提示注入防御
2026 年 5 月 5 日发布的 ARGUS 论文提出了针对 LLM 代理的影响溯源审计——在新基准上将攻击成功率从 28.8% 降至 3.8%。
指令层级:训练大语言模型优先执行高权限指令
OpenAI 在 2024 年的论文提出了一种对抗提示注入的结构性防御:让模型理解 系统 > 用户 > 工具输出 的优先关系。这一思路已成为 GPT-4o-mini 和 o 系列安全训练的核心。
LMDeploy SSRF:当图像加载器劫持整个 AI 推理基础设施
CVE-2026-33626 将 LMDeploy 的 load_image() 变成了通用 SSRF 原语。安全公告公开 12 小时 31 分后,蜜罐就捕获到首次实战利用。
本地代理劫持:针对 AI 编码代理的跨源 WebSocket 攻击
2026 年 5 月 7 日披露的 CVE-2026-44211(CVSS 9.7)表明,仅需访问一个恶意网页,就可能劫持运行在开发者笔记本上的 AI 编码代理。该攻击类别具有通用性,本质上是架构层面的问题。
Mini Shai-Hulud:瞄准 AI 工具链的供应链蠕虫
2026 年 5 月 11 日至 18 日披露的 Mini Shai-Hulud 蠕虫污染了 170 多个 npm 与 PyPI 软件包——包括 Mistral AI、Guardrails AI 和 TanStack——并在 Claude Code 与 VS Code 中植入持久化。
输出过滤胜过模型自防御:两万次自适应攻击,只有一个幸存者
于2026年4月26日发布、5月12日修订的一篇Swept AI与密歇根大学论文,以自适应攻击者对抗九种提示注入防御。所有依赖模型自身的防御最终都被攻破。仅有运行在应用层的输出过滤经受住了考验——在15 000次攻击中实现零泄漏。
提示词即 shell:智能体框架中提示注入升级为 RCE
Microsoft Semantic Kernel 于 2026 年 5 月 7 日披露的两个 CVE(CVE-2026-25592、CVE-2026-26030)展示了一段被注入的提示如何从文本直接升级为智能体宿主上的远程代码执行。
ASCII 走私:通过 Unicode Tag 字符隐藏命令
Unicode Tag 字符(U+E0000–U+E007F)对人类不可见,但 LLM 会解析。攻击者将其嵌入邮件、网页和 PDF 中以注入隐形命令,劫持代理行为。
Many-shot 越狱:用 256 个示例绕过任何对齐
Anthropic 研究人员表明,用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。
通过重复攻击提取系统提示
让模型'永远重复诗这个词'最终会使其转储训练数据和系统提示。在 Claude 3、GPT-4 和 Gemini 上均有记录。
潜伏代理:能在安全训练中存活的隐藏后门
Anthropic 证明,使用隐藏触发短语训练的模型即使在标准 RLHF 安全训练后仍保留后门行为。对开放权重 LLM 的影响重大。