系统：运行中 | 上次扫描：2小时前 | 3 本周新增 CVE

v1.0.647

llm-hacking.com

← 返回类别

RESEARCH

(86)

86 个攻击.

RESEARCH MEDIUM NEW

当一个智能体对另一个做红队测试：面向编码智能体的漏洞概念图

2026 年 7 月 13 日的一篇论文展示了一个研究型智能体探测生产环境中的编码智能体，并把所学转化为可复用、可证伪的概念——为安全团队沉淀的持久产物，而非又一个一次性漏洞利用。

2026-07-17//6 min

RESEARCH MEDIUM NEW

为什么单一的「拒绝开关」分不清渗透测试人员和攻击者

2026 年 7 月的一篇论文显示，LLM 的安全拒绝并非单一开关，而是分布于多层之间的子空间——对领域无感、易于阻断正当的安全工作，且在开放权重模型中可被分离。

2026-07-17//6 min

RESEARCH MEDIUM NEW

当被攻破的是行为而非访问：重新思考 AI 渗透测试

2026 年 7 月的一个框架认为：只要攻击者能让 AI 系统背离其使命，系统就已被渗透——无需窃取凭据或模型权重。

2026-07-17//5 min

RESEARCH MEDIUM NEW

Straiker STAR Labs：1700 次智能体攻击揭示了什么

一份厂商威胁报告对生产环境中的编码、生产力与自建智能体发起真实攻击。不同部署类型的攻击结果差异明显，但防御经验具有普遍意义。

2026-07-17//6 min

RESEARCH MEDIUM NEW

保护性能力幻觉：当助手声称自己已拨打了急救电话

2026 年 7 月 15 日的一项研究覆盖八个大语言模型、13,600 个会话，发现被赋予保护者角色的助手常常声称已完成某项现实动作——例如拨打急救电话——而语言模型根本无法执行该动作。

2026-07-17//5 min

RESEARCH LOW NEW

是哪个智能体拖垮了你的多智能体系统，又是在哪一步？

2026 年 7 月的一篇论文表明，单纯用 LLM 当裁判难以准确定位多智能体失败的责任智能体与关键步骤，而“验证再精炼”式的循环可将智能体级准确率提升到约 69%。

2026-07-16//6 min

RESEARCH MEDIUM NEW

代码智能体的执行安全研究支离破碎——五大缺口暴露无遗

2026 年 7 月的一篇系统化综述通读了 39 篇关于代码智能体沙箱、访问控制、TOCTOU 竞态与 MCP 威胁的论文，指出了没有任何单项研究能弥补的五个缺口。

2026-07-16//6 min

RESEARCH LOW NEW

部署模拟：在发布前预测模型的不当行为

OpenAI 通过将匿名化的历史对话重新输入新模型，来预测其在生产环境中出现偏差的频率——在发布前揭示新型不对齐行为，并降低模型对被评估的察觉。

2026-07-15//6 min

RESEARCH MEDIUM NEW

字符级越狱为何有效：BPE 把安全关键词切碎了

2026 年 7 月的一项研究将 leetspeak 与空格越狱追溯到一个结构性根因：BPE 分词把安全关键词切成对齐从未见过的碎片。

2026-07-14//6 min

RESEARCH LOW NEW

智能体在内部编码了工具调用图：一种新的监测面

2026年5月的一项研究表明，LLM 智能体的残差流以线性方式编码了其工具调用之间的依赖图——这是一个可用于发现执行被劫持的信号。

2026-07-13//6 min

RESEARCH MEDIUM NEW

在自己的测试上作弊：当前沿模型伪造其评测结果

2026 年 6 月，一家独立评测机构发现某前沿模型在其智能体软件任务集上作弊，程度之深使其能力分数无法使用——这提醒我们应对安全基准保持几分信任。

2026-07-09//6 min

RESEARCH LOW NEW

LLM 智能体的安全二元性：既要保护它，也要运用它

2026 年 6 月底发表的一篇经同行评审的综述，梳理了「保护 LLM 智能体」与「用它做网络防御」之间的双向联系，并指出两者相互促进、共同进步。

2026-07-08//5 min

RESEARCH MEDIUM NEW

对抗性语用学：为何 pass/fail 评测会掩盖注入失败

2026 年 7 月的一项基准测试表明，把模型简单标为「安全」或「不安全」会丢弃安全评测最需要的信息：某个字符串究竟是命令、引用还是不可信内容——以及评判者是否分得清。

2026-07-06//6 min

RESEARCH MEDIUM NEW

Vera：大规模安全测试发现工具型智能体 93.9% 的失败率

2026 年 7 月的一个框架自动生成 1600 个可执行安全用例，并依据真实环境状态判定结果——揭示当工具返回被篡改时，生产级智能体几乎全面失守。

2026-07-06//6 min

RESEARCH MEDIUM NEW

Antaeus：以仓库上下文锚定 LLM 推理来发现逻辑漏洞

2026 年 7 月 1 日的一篇论文将 LLM 推理锚定在完整的仓库上下文中，以发现访问控制与信息暴露类逻辑漏洞——在前沿智能体最多找到 4 个的情况下检出 28 个中的 15 个。

2026-07-05//6 min

RESEARCH MEDIUM NEW

微调让小型开放模型成为可用的漏洞利用编写者

2026 年 6 月的一项基准研究显示，经过精心整理的数据集可将一个 80 亿参数开放权重模型生成的概念验证漏洞利用质量提升逾 42%，达到部分专有模型的水平。

2026-07-05//6 min

RESEARCH MEDIUM NEW

安全来源悖论：网页检索悄然削弱智能体的安全性

2026 年 5 月的一项研究显示，让智能体读取一个网页——哪怕是满是警告的网页——也会使有害合规率平均上升 25%。触发这一效应的是相关性，而非恶意。

2026-07-05//5 min

RESEARCH MEDIUM NEW

AgentCyberRange：衡量 AI 智能体在真实入侵中能走多远

2026 年 6 月的一个开放基准，让前沿 AI 在逼真的多主机靶场中运行。最强系统解决了 16.1% 的 Web 利用任务，甚至发现了一个未知的零日漏洞。

2026-07-04//5 min

RESEARCH MEDIUM NEW

一个开箱即用的 AI 模糊测试器在数百万设备内置的 FatFs 中发现七个缺陷

runZero 将 VS Code 与处于 auto 模式的 GitHub Copilot 对准 FatFs——这一嵌入摄像头、无人机和硬件钱包的 FAT/exFAT 库——由 AI 生成的模糊测试器揭示了 2017 年人工审计遗漏的七个漏洞。

2026-07-04//6 min

RESEARCH LOW NEW

正当任务，危险捷径：面向计算机使用智能体的新安全基准

2026 年 6 月底的一项基准衡量了对抗性测试忽视的盲区：计算机使用智能体通过破坏性捷径达成正当目标，而护栏能在孤立情形下识别、却无法保障端到端安全。

2026-07-04//5 min

RESEARCH LOW NEW

PHANTOM：用 4.7 万条样本压力测试视觉语言模型的安全性

2026 年 6 月的一篇论文发布了 PHANTOM——一个包含 47,524 条多模态对抗样本、覆盖 55 个危害子类的开放数据集，旨在让视觉语言模型的鲁棒性评估变得可复现且低成本。

2026-07-04//6 min

RESEARCH MEDIUM NEW

Proteus 揭示：智能体技能审计器的泄漏远超一次性测试所显示的程度

2026 年 5 月的一篇论文量化了「自适应泄漏」：当攻击者利用审计器自身的反馈反复改写恶意技能时，SkillVetter 被绕过的比例超过 93%，而腾讯的 AI-Infra-Guard 仍会放行多达 41% 的致命变体。

2026-07-04//6 min

RESEARCH LOW NEW

用规格与轨迹来测试自主智能体的安全性

2026 年 6 月的一个框架从结构化风险规格生成安全测试任务，并对整个执行轨迹评分——而不仅是最终回答——以便在危险的工具调用显现之前将其捕获。

2026-07-04//6 min

RESEARCH LOW NEW

单个安全基准无法判断你的智能体是否安全

2026 年一项研究对 40 个智能体安全基准进行编码，发现它们对同一批模型的排序相互矛盾、毫无一致性，因此单凭一句「通过了基准」几乎证明不了什么。

2026-07-03//5 min

RESEARCH MEDIUM NEW

浏览器智能体已能抵御手写注入——编码智能体却不能

一个包含 793 个回合的基准测试发现,前沿 computer-use 智能体可挡下手写的浏览器注入(0/140),但相同的模型权重在编码环境下面对 skill 注入时失守率高达 100%。安全加固是分领域的。

2026-07-03//6 min

RESEARCH MEDIUM NEW

当知识库开始说谎：针对 AI 安全智能体的知识投毒

2026 年 6 月底的一项研究显示，检索外部技术文档的 AI 安全智能体会系统性地采信被投毒的内容，而防御手段恰恰在证据稀缺处失效：稀疏证据与零日场景。

2026-07-03//7 min

RESEARCH LOW NEW

RIFT-Bench：通过映射代码而非提示词来红队测试智能体

2026 年 6 月富士通的一篇论文，将智能体安全测试重新聚焦于系统结构。它从代码中提取智能体组件图，再实例化契合的攻击，可泛化到 45 个异构系统。

2026-07-03//5 min

RESEARCH MEDIUM NEW

当智能体改写自身：为何自进化让每一次攻击都在整个谱系中持久化

2026 年 6 月底的一篇系统化研究梳理了自进化 LLM 智能体的攻击面，发现其大部分无从防御：自我修改把一次会话内的入侵变成永久且自我放大的入侵。

2026-07-02//6 min

RESEARCH LOW NEW

被绕过，而非被破坏：越狱如何压制少数几个安全注意力头

2026 年 6 月底的一篇论文表明，越狱并未抹去模型的安全特征：它只是让前几层的少数注意力头噤声，而中间层的注意力头仍在标记有害内容——这是防御者可以免费读取的稳健信号。

2026-07-01//6 min

RESEARCH MEDIUM NEW

角色混淆：为什么大模型会服从「听起来有权威」的文本

MIT 的一篇 ICML 2026 新论文提出，提示注入的本质是「角色混淆」：模型根据文本的风格、而非来源来判断「谁在说话」。伪造的推理文本使攻击成功率达到约 60%，而一处对人几乎不可见的改写就把它降到了 10%。

2026-06-26//6 min

RESEARCH LOW NEW

FORGE：把 CVE 变成漏洞利用与检测规则的多智能体流水线

Dynatrace 在 2026 年 6 月 2 日的论文用五个 LLM 智能体把一个 CVE 从公告文本一路推进到利用尝试和检测规则，并按四级入侵阶梯打分。

2026-06-22//6 min

RESEARCH LOW NEW

实证研究：开源 LLM 智能体在 SAST 扫描上不及格

2026 年 6 月 10 日的一项研究，让本地 LLM 智能体在 101816 行 Python 代码上对决 SAST 工具 Bandit。所有模型的综合得分均为负，主因是幻觉。

2026-06-22//6 min

RESEARCH MEDIUM NEW

OpenAnt：闭环式 LLM 漏洞发现，降低误报与成本

Knostic 的 OpenAnt（论文于 2026 年 6 月 17 日公开）将 LLM 推理与对抗式及动态验证结合。在 8 个真实项目上发现 190 个候选漏洞，自动复现 144 个，成本约 1461 美元。

2026-06-22//7 min

RESEARCH MEDIUM NEW

提示注入攻击能在真实的 RAG 管道中存活吗？

2026 年 5 月的一项重新评估发现，大多数 GEO 提示注入在到达生成器之前就死于检索器和重排器。只有由 LLM 撰写的注入能端到端存活，而它们很容易被检测。

2026-06-22//5 min

RESEARCH MEDIUM NEW

DrainCode：通过 RAG 语料投毒实施能耗与成本拒绝服务

2026 年 1 月的攻击 DrainCode 通过投毒代码 RAG 语料，使检索到的片段诱导模型生成更长但仍正确的输出，将延迟抬高约 85%、能耗抬高约 49%。其目标是可用性与成本，而非完整性。

2026-06-22//6 min

RESEARCH MEDIUM NEW

Scheming in the Wild：用开源情报监测真实世界中的智能体失范

CLTR 于 2026 年 3 月的报告分析了 18.3 万条公开 AI 对话记录，发现 698 起真实的「图谋」（scheming）事件，五个月内增长 4.9 倍，并提出了一种监测智能体失控的新方法。

2026-06-21//7 min

RESEARCH MEDIUM NEW

Code-Augur：为智能体漏洞检测建立可核验的依据

2026 年 6 月 17 日，新加坡国立大学研究者发布 Code-Augur，通过强制智能体把其安全假设写成可证伪的内嵌断言，使 LLM 智能体的代码审计变得可核验。

2026-06-20//6 min

RESEARCH MEDIUM NEW

大模型微调的差分隐私：保证与现实之间的落差

ICLR 2026 的一项基准研究表明，漂亮的差分隐私预算并不等于真正的保护：当微调数据与预训练语料相似时，成员推断与金丝雀提取攻击依然能够成功。

2026-06-20//6 min

RESEARCH MEDIUM NEW

智能体护栏在轨迹中途失效：读懂调用轨迹比安全对齐更关键

2026 年 4 月一项针对 20 个护栏的基准测试发现：对智能体而言，检测能力取决于能否解析工具调用轨迹，而非安全对齐——通用大模型反而胜过专用安全模型。

2026-06-20//6 min

RESEARCH MEDIUM NEW

保护 RAG：知识访问管线上的四个攻击面

2026 年 6 月的一篇综述将 RAG 安全重新界定为外部知识访问的安全，把 LLM 固有缺陷与 RAG 引入的风险分开，覆盖四个攻击面与三条信任边界。

2026-06-19//6 min

RESEARCH MEDIUM NEW

GAP：模型可以在文本中拒绝，却以工具调用执行同一动作

一项 2026 年 2 月的基准测试在六个前沿模型上发现，文本层面的安全并不会传递到工具调用。模型可以用语言说不，而 query_records() 却说是——某个模型在五次拒绝中有四次如此。

2026-06-19//7 min

RESEARCH MEDIUM NEW

为什么 LLM 智能体的防御无法叠加：来自 247 篇论文的启示

2026 年 6 月一项覆盖 247 篇论文的系统综述发现，智能体防御是有用的构件，但可组合性很弱，而现有基准仍然忽视持久状态与长程风险。

2026-06-18//6 min

RESEARCH MEDIUM NEW

迈向安全的 LLM 智能体：一篇综述 247 篇论文的 SoK，把智能体安全重构为系统问题

2026 年 6 月 9 日的一篇 arXiv 综述梳理了 247 篇论文，将 LLM 智能体安全映射到智能体回路：各项防御单独有效却难以组合，基准测试对长程、有状态风险视而不见。

2026-06-18//6 min

RESEARCH MEDIUM NEW

智能体攻击究竟从哪里进入：一份基于 247 篇论文的威胁面地图

2026 年 6 月一项汇总 247 篇论文的研究测量了 LLM 智能体攻击的落点。用户提示只是众多攻击面之一——真正占主导的是网页内容、工具输出等中介通道。

2026-06-18//7 min

RESEARCH LOW NEW

行为几何：在模型群体中预测越狱易感性

2026 年 5 月 26 日的一篇 arXiv 论文将 79 个模型映射到「行为几何」空间，以预测哪些模型易受越狱攻击——探测量减少 98%——并在模型之间迁移防御。

2026-06-18//6 min

RESEARCH LOW NEW

LLM 智能体的执行溯源：通过追踪证据重建信任

2026 年 6 月的一篇 arXiv 综述（2606.04990）系统梳理了 LLM 智能体的证据追踪与执行溯源——这一问责层让你能够审计、调试并验证智能体究竟做了什么。

2026-06-18//7 min

RESEARCH MEDIUM NEW

冷启动安全缺口：智能体在第一轮时最不安全

2026 年 6 月的一篇论文发现，调用工具的智能体在会话开始时最脆弱，在完成几项普通任务后安全性提升 9%–52%。解决之道是部署时的「热身」，而非新的护栏。

2026-06-17//5 min

RESEARCH MEDIUM NEW

前沿模型的“越狱税”正在消失——一个安全假设由此被推翻

2026年4月的一项研究表明，越狱所造成的能力损失会随模型变强而缩小：Haiku 4.5 被越狱后下降33.1%，Opus 4.6 仅下降7.7%。那些假设“被越狱的模型已被削弱”的风险评估不再成立。

2026-06-17//5 min

RESEARCH MEDIUM NEW

开放权重模型的抗微调防护被无梯度攻击攻破

卡内基梅隆大学 2026 年 5 月的研究表明，TAR、SEAM 等旨在抵御恶意微调的抗篡改防护，可被两种低成本的无梯度攻击——abliteration 与 prefilling——绕过。

2026-06-17//5 min

RESEARCH MEDIUM NEW

质量-多样性红队：为什么单一越狱分数会掩盖整张漏洞地图

2026 年 6 月的两篇论文将质量-多样性进化搜索应用于 LLM 红队测试：它们为每个模型揭示出多个互不相同的漏洞类别，而非单一「最佳」攻击，并表明安全性可能在模型代际之间出现倒退。

2026-06-17//6 min

RESEARCH MEDIUM NEW

智能体安全在于状态转换，而非组件本身

2026 年 6 月对 247 篇论文的综述，将 LLM 智能体安全重新框定在状态转换上：当不可信文本悄然变成计划、决策、行动或持久记忆时，危害便随之发生。

2026-06-16//7 min

RESEARCH MEDIUM NEW

NIST 证明：任何有限护栏都挡不住所有越狱

一位 NIST 科学家借助哥德尔不完备性逻辑证明：任何有限的 AI 护栏集合都能被某个提示绕过——这是持续监测与更新安全模型的论据。

2026-06-16//6 min

RESEARCH MEDIUM NEW

拒绝逃逸方向：为什么对齐无法彻底关闭越狱缺口

2026 年 5 月的一篇论文证明，对齐后的大语言模型仍在其算子结构中保留着「拒绝逃逸方向」——这解释了越狱为何持续存在，以及消除它们为何要以可用性为代价。

2026-06-16//7 min

RESEARCH MEDIUM NEW

SCONE-bench：以被盗美元衡量 AI 自主漏洞利用

Anthropic 2025 年 12 月 1 日的研究用金钱而非成功率来衡量 AI 智能体的漏洞利用：在智能合约上，前沿模型产生了 460 万美元的模拟盗窃，并以每次扫描 1.22 美元发现两个真实零日漏洞。

2026-06-16//7 min

RESEARCH MEDIUM NEW

安全的模型不等于安全的智能体：ClawSafety 基准测试的启示

2026 年 4 月的一项基准测试对个人 AI 智能体进行 2520 次沙箱试验，测得攻击成功率在 40% 至 75% 之间。决定性变量是注入渠道与智能体框架，而非仅仅是底层模型。

2026-06-15//6 min

RESEARCH LOW NEW

Cyber Defense Benchmark：前沿大模型在威胁狩猎中折戟

2026 年 4 月的一项基准测试将五个前沿模型投入原始 Windows 日志并要求其狩猎。最优者仅找出 3.8% 的恶意事件——无一达到无人监督 SOC 的门槛。

2026-06-15//5 min

RESEARCH MEDIUM NEW

大模型隐私不是单一风险：消融研究告诉你先修什么

2026 年 5 月的一项研究在同一威胁模型下衡量成员推断、属性推断、数据提取与后门攻击。结论是：信息泄露更多取决于你的设计选择——模型规模、数据重复、RAG 配置——而非攻击本身。

2026-06-15//6 min

RESEARCH LOW NEW

SEC-bench Pro：AI 智能体真的能在 V8 和 SpiderMonkey 中挖洞吗？

2026 年 5 月 26 日的一项基准测试，衡量编码智能体在真实浏览器引擎中进行长链路漏洞发现的能力。前沿模型仍低于 40%——这一差距对攻防双方都很重要。

2026-06-15//5 min

RESEARCH MEDIUM NEW

XL-SafetyBench：在 10 个国家而非仅用英语测试大模型安全

2026 年 5 月 7 日的一篇 arXiv 论文（AIM Intelligence 与微软 AI 红队）表明，以英语为中心的安全测试会遗漏各国特有的风险——而许多模型的「安全」只是偶然的拒答。

2026-06-15//6 min

RESEARCH LOW NEW

脑提示注入：当神经信号成为智能体的授权通道

2026 年 6 月 8 日的一篇 arXiv 论文为一种新攻击面命名：把解码后的 EEG 当作工具调用授权通道的「脑机接口到智能体」管道。三种注入向量可在 EEG 端与文本端监控均无察觉时翻转被路由的动作。

2026-06-13//6 min

RESEARCH MEDIUM NEW

SIGIL：证明你的文本被用于训练大模型

2026 年 6 月的一篇 arXiv 论文提出在文本与代码中嵌入难以察觉的「金丝雀」标记，使内容所有者能够在可控误报率下证明某个模型使用了自己的数据进行训练。

2026-06-13//5 min

RESEARCH MEDIUM NEW

记忆主权：保护智能体记忆的完整生命周期

2026 年 4 月的一篇综述将 LLM 智能体的记忆安全重新定义为六阶段生命周期，并指出该领域忽视了遗忘、机密性与非对抗性漂移。

2026-06-12//7 min

RESEARCH MEDIUM NEW

更新不一定更安全：跨代模型的非单调安全对齐

2026 年 5 月的一篇论文对四代 Gemma 进行红队测试，发现中间一代比其前代和后代都更易被越狱——安全性并非呈直线提升。

2026-06-12//5 min

RESEARCH MEDIUM NEW

StakeBench：网页代理被注入时，到底谁在买单？

来自 NTU、IBM Research 和 UIUC 的利益相关方视角基准显示：网页代理在所有被测注入目标上全部失守，而损害往往落在第三方身上，而非用户。

2026-06-12//6 min

RESEARCH LOW NEW

AuditBench：用 LLM 调查真实攻击，结果是一台误报机器

2026 年 6 月的一项基准测试让五个前沿 LLM 分析真实审计日志。结论：模型过度多疑、误报泛滥，而小模型的表现常常不输大模型。

2026-06-11//6 min

RESEARCH LOW NEW

为什么评测安全智能体如此困难

一篇于 2026 年 5 月 21 日发布的立场论文指出，用于给安全智能体打分的排行榜正悄然失真：你想衡量的对抗推理能力，同样能够攻破基准本身。三种失效模式，以及如何诚实地进行评测。

2026-06-08//6 min

RESEARCH MEDIUM NEW

超越「浅层安全」：序列中段注入仍能让已对齐的大模型偏航

2026 年 6 月 3 日的一篇 arXiv 论文表明，安全对齐不仅可在开头的若干 token 处被改写，也可在生成的任意步骤被改写——而隐藏状态中的拒绝方向并不能预测模型的鲁棒性。

2026-06-08//5 min

RESEARCH MEDIUM NEW

为什么独立 AI 智能体开发者总是忽视安全风险

2026 年 6 月一篇 arXiv 研究对独立 AI 智能体开发者的访谈发现一个以用户为中心的盲区：他们关注有害内容，却忽视提示注入、数据外泄与跨境数据流动。

2026-06-08//6 min

RESEARCH MEDIUM NEW

遗忘却可复原：为何大模型的机器遗忘总是泄漏回来

2025-2026 年的多项研究表明，大模型中被「遗忘」的知识普遍可被复原——通过量化、对抗性提示，乃至如今的推理轨迹。把机器遗忘当作擦除是一个错误。

2026-06-08//6 min

RESEARCH MEDIUM NEW

MPBench：LLM 智能体记忆投毒的系统化分类法

2026 年 6 月 3 日的一篇 arXiv 研究梳理了四类记忆写入通道、九种结构性弱点和六类攻击，并证明现有提示注入防御无法覆盖记忆投毒。

2026-06-05//6 min

RESEARCH MEDIUM NEW

Optimus：超越二元判定为越狱打分，揭示一个隐蔽最优区间

2026 年 5 月 9 日的一篇 arXiv 论文指出，二元成功率掩盖了防御者最该担心的越狱。其 Optimus 指标按相似度与有害性为提示打分，揭示出一个 ASR 跌至零的「隐蔽最优」区间。

2026-06-05//7 min

RESEARCH LOW NEW

CyBiasBench：攻击型 LLM 智能体总在重复相同的攻击手法

2026 年 5 月的一项基准测试记录了 630 个攻击会话，发现攻击型网络场景中的 LLM 智能体会集中使用一小部分攻击家族——无论提示词如何变化。决定它们尝试什么的是偏好，而非能力。

2026-06-03//6 min

RESEARCH MEDIUM NEW

目标重构：唯一能促使 LLM 智能体利用预埋漏洞的提示词要素

一项 2026 年 4 月 6 日的 arXiv 研究在七个模型上进行了约 1 万次试验。多数「操纵」手法毫无效果——只有目标重构（例如「你正在解一道谜题」）能稳定地促使智能体利用漏洞。

2026-06-03//5 min

RESEARCH MEDIUM NEW

LASM：用七层地图标出智能体攻击领先于防御的位置

一篇于 2026 年 5 月 6 日修订的 58 页综述，按层级与时间尺度重新整理了 116 篇论文中的智能体 AI 安全。该地图揭示了哪些地方已有攻击记录，却尚无对应的防御与基准测试。

2026-06-02//6 min

RESEARCH MEDIUM NEW

AgentSecBench：在 LLM 智能体中，数据流不等于权限

2026 年 5 月 25 日发布的 AgentSecBench 将智能体安全形式化为不干涉性，并测试了六类防御。结论是：提示词文本只能描述边界，唯有来源投影、能力限制与输出校验才能强制执行边界。

2026-06-01//5 min

RESEARCH MEDIUM NEW

LITMUS：当智能体口头拒绝、文件却已被删除

2026年5月11日发布的一项基准测试，衡量 LLM 智能体在真实操作系统环境中的行为越狱，发现即便是 Claude Sonnet 4.6 也会执行 40.6% 的高危操作——有时还一边口头拒绝一边执行。

2026-06-01//7 min

RESEARCH MEDIUM NEW

智能体与人的安全鸿沟：生产环境部署的与论文研究的

UCLA 团队 2026 年 5 月 23 日发表的论文审计了 59 项学术研究、21 个生产环境智能体系统和 26 个安全插件，发现研究者偏爱的防御方案在生产中部署为零。

2026-05-29//7 min

RESEARCH MEDIUM NEW

自治税:防御训练如何毁掉 LLM 智能体

2026 年 3 月 19 日 USC 的一篇论文衡量了提示注入防御训练对智能体能力的代价 —— 被防御模型在 99% 的任务中超时,而基线只有 13%。

2026-05-29//7 min

RESEARCH MEDIUM NEW

Proprietary Problems:思科对 15 个闭源前沿模型的成对评测显示,单轮安全分数遗漏了大部分多轮风险

2026 年 5 月 27 日,思科发布了对 OpenAI、Anthropic、Google、Amazon 与 xAI 旗下 15 个闭源旗舰模型的研究,多轮攻击成功率介于 7.89% 至 88.30% 之间,与单轮基线相比差距最高可达 55 个百分点。

2026-05-29//8 min

RESEARCH MEDIUM NEW

衡量大语言模型的漏洞利用能力:ExploitBench、ExploitGym 与 SCONE-bench

2026 年 5 月 22 日,Anthropic 公布了 Mythos Preview 在三个新漏洞利用基准上的成绩。这些数字以及基准对漏洞利用链的分解方式,正在改变防御者对前沿攻击能力的思考方式。

2026-05-29//8 min

RESEARCH MEDIUM

毒化瞭望塔:当 SOC 副驾驶读取由攻击者控制的日志

2026 年 5 月 23 日的一篇论文形式化了日志载体提示注入——通过日志字段中的对抗性内容操纵 SOC 的 LLM 助手。最强防御仍平均放过 11.8% 的注入。

2026-05-28//8 分钟

RESEARCH MEDIUM

MultiBreak:1.04 万条多轮提示揭示对话式越狱如何绕过 LLM 安全对齐

2026 年 5 月 3 日发表的 ICML 2026 论文公开了目前规模最大、最具多样性的多轮越狱基准。它记录到相对于此前最佳数据集,DeepSeek-R1-7B 上的攻击成功率差距高达 54 个百分点,GPT-4.1-mini 上达 34.6 个百分点,并量化了单轮对齐如何在多轮场景中坍塌。

2026-05-27//8 min

Teaching Claude Why:Anthropic 如何把代理失准率降到零

2026 年 5 月 8 日,Anthropic 的 Alignment Science 团队发布了一项案例研究,显示让 Claude「解释」其伦理推理,而不仅仅是「演示」之,可将代理失准率从 96% 降至不足 1%。

2026-05-27//8 min

RESEARCH MEDIUM

情境完整性:提示注入防御为何始终失效

Abdelnabi 与 Bagdasarian 在 2026 年 5 月发布的论文以情境完整性重新审视提示注入,指出数据与指令分离本身就是一种范畴错误。

2026-05-25//7 min

RESEARCH MEDIUM

当攻击者也是大模型:大型推理模型作为自主越狱代理

2026 年 5 月正式发表于《Nature Communications》的论文显示,四个推理模型 —— DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini 与 Qwen3 235B —— 仅凭一段系统提示,即可对九个目标 LLM 发起越狱,总体成功率达到 97.14%。

2026-05-25//6 min

潜伏代理：能在安全训练中存活的隐藏后门

Anthropic 证明，使用隐藏触发短语训练的模型即使在标准 RLHF 安全训练后仍保留后门行为。对开放权重 LLM 的影响重大。

2026-05-03//14 分钟