系统:运行中
← 返回所有攻击
GOVERNANCE LOW NEW

DeepMind 与合作伙伴设立 1000 万美元多智能体 AI 安全研究基金

2026 年 6 月 11 日,Google DeepMind、Schmidt Sciences、Cooperative AI Foundation 与 ARIA 启动一项 1000 万美元征集,旨在为数百万个相互交互的 AI 智能体的安全建立一个研究领域。

2026-06-12 // 5 min affects: ai-agents, multi-agent-systems, agentic-ai-systems

这是什么?

2026 年 6 月 11 日,Google DeepMind 联合 Schmidt SciencesCooperative AI Foundation、英国 ARIA(Advanced Research and Invention Agency),并在 Google.org 支持下,宣布面向全球研究者发起一项最高 1000 万美元的技术研究征集。其目标是多智能体安全:由不同组织构建的大规模 AI 智能体群体,一旦开始在大规模场景中相互通信、协商与交易,会如何行为。

这种表述对一则行业公告而言异常坦率。负责 DeepMind AGI 安全与对齐研究的 Rohin Shah 向 MIT Technology Review 表示:「真正的问题在于,目前还根本没有一个多智能体安全的研究领域。我们希望能有这样一个领域。」申请于 2026 年 8 月 8 日截止,获选者将在秋季公布。

征集涵盖什么

DeepMind 的论点是:当今几乎所有安全评估都孤立地研究单个模型,但最重要的风险只有在独立智能体相互交互时才会出现。集体行为与能力可能「突然涌现」,而按组织方的说法,我们目前「缺乏预测、度量与监控这些转变的工具」。

征集面向四个优先方向:

  • 沙箱与测试平台 —— 构建真实、可复现的环境(虚拟市场、模拟生态系统、多组织工作流),用于评估与比较多智能体安全。
  • 智能体网络的科学 —— 集体能力如何涌现与扩展、网络如何失效或变得不稳定,以及如何检测群体层面的危险属性。
  • 强化智能体基础设施 —— 对用于保障跨平台交互的身份、声誉与承诺协议进行压力测试。
  • 监督与控制 —— 监控已部署的智能体群体并在大规模上缓解集体危害的方法。

被问及具体危险时,Shah 与 Schmidt Sciences 的 James Fox 描述了「互联网上已有坏事的强化版本」:诈骗、提示注入(一条被埋藏的指令即可把智能体变成「自我引导的恶意软件」)以及其他网络攻击 —— 被放大到「数字公共空间」可能陷入「彻底无序」的程度。

为什么重要

这是治理与领域建设的议题,而非漏洞,但它印证了本站通过大量具体研究持续追踪的威胁模型:在智能体间传播的间接注入、无法沿委派链干净传播的授权涌现性多智能体攻击,以及在多智能体场景中失效的基于嵌入的防御。新的论断是:单智能体的安全结论无法外推到群体,而弥合这一差距的科学在很大程度上尚不存在。

时机值得注意。DeepMind 上月把智能体工具作为 Google I/O 的重点;数周前,Anthropic 发布了部署 AI 智能体的「零信任」指南,其前提是把智能体视为攻击者、并假定必然会发生入侵。两家前沿实验室都在独立地对自己正在交付的系统发出警告。报道中提出的一点保留意见值得记住:安全资金可能流向奇异的假设性情景,而那些「无趣」却已在生产中的问题却无人处理。

防御

对今天正在部署智能体的团队而言,这次征集也是一份当前实践薄弱环节的清单:

  • 不要外推单智能体评估。 单独通过注入测试的模型,在集群中仍可能失常。在投入生产前,于沙箱中在交互状态下测试智能体。
  • 在智能体之间采取零信任姿态。 把来自另一个智能体的每条消息当作不可信输入,而非权威 —— 这与致命三要素智能体二选一规则背后的教训一致。
  • 投资于身份、声誉与承诺基础设施。 跨平台交互需要可验证的身份与来源,而非对调用方所声称角色的隐性信任。
  • 在群体层面监控。 按单个智能体记录日志会遗漏集体失效模式;应对整个集群的波动性与涌现行为进行监测,并在影响半径较大处引入人工审查。

现状

该征集自 2026 年 6 月 11 日起开放;申请截止日期为 2026 年 8 月 8 日,获选者预计在 2026 年秋季公布。它建立在 DeepMind 的 2025 年多智能体框架、其关于「AI Agent Traps」的工作,以及 Cooperative AI Foundation 关于先进 AI 多智能体风险的报告之上。其中不涉及任何代码、模型或漏洞 —— 这是一项设定议程与提供资助的举措,其影响将取决于它最终资助的研究。

Sources