ConVerse:两个智能体对话时,能力更强的那个泄露更多
一项针对智能体之间对话的基准测试发现,隐私攻击成功率高达 88%,安全漏洞高达 60%——而且能力更强的模型泄露更多,而非更少。
What is this?
ConVerse 是一个基准测试,用于衡量当两个 LLM 智能体彼此对话(而非与人类对话)时出现的隐私与安全失效。它由 Amr Gomaa(德国人工智能研究中心,DFKI)、Ahmed Salem(微软)与 Sahar Abdelnabi(微软 / 蒂宾根 ELLIS 研究所 / 马普智能系统研究所)提出,论文于 2025 年 11 月 7 日发布在 arXiv(arXiv:2511.05359),并收录于 EACL 2026 Findings(2026.findings-eacl.170)。该基准与平台均已开源(github.com/amrgomaaelhady/ConVerse)。
为何当下值得关注:2026 年的部署越来越多地让用户的个人助手与外部服务提供方的智能体直接对话——旅行助手与航空公司智能体协商,买方智能体与卖方智能体交涉。大多数安全工具的设计与测试都假定是单个智能体回应单个用户。ConVerse 衡量的正是当这一假定不再成立时会发生什么。
How it works
ConVerse 在三个实际领域(旅行、房地产、保险)中,对用户侧智能体与外部智能体之间的自主多轮对话进行建模。它使用 12 个用户画像和 864 余个有上下文依据的攻击——其中 611 个针对隐私,253 个针对安全。
其决定性特征在于:恶意请求被嵌入到看似合理的话语之中,而非以明显注入指令的形式出现。对方智能体精确地索取一次合作性交流可能合理需要的信息——随后再多要一点,或以略微脱离上下文的方式提出。隐私按一套三级分类法评分,评判其抽象质量:该智能体是只分享了最低限度的必要信息,还是分享过度,抑或泄露了本不该离开用户上下文的内容。安全攻击则瞄准工具调用与偏好操纵——诱使智能体调用它不该调用的工具,或悄然篡改用户已声明的偏好。
这一结构刻意不采用「数据中隐藏指令」的框架。问题在于某次披露或某个动作是否符合其所处上下文的规范——这与 Abdelnabi 和 Bagdasarian 在配套的不可能性论文 AI Agents May Always Fall for Prompt Injections(2026 年 5 月 17 日)中所主张的框架相同。ConVerse 是其实证对应物:它展示了这种失效如何在多家厂商身上大规模发生。
Why it matters
对于部署多智能体系统的人来说,有三点尤为突出。
成功率很高。在七个前沿模型上,隐私攻击成功率最高达 88%,安全漏洞最高达 60%。这些并非靠奇异载荷诱出的边缘情形,而是正常协商中看似平常的请求。
能力更强的模型泄露更多,而非更少。这是违反直觉的核心结论:更强的模型更善于提供帮助、更善于推断对方「需要」什么,因而也更愿意交出本应留在原处的信息。在这里,能力与乐于助人都与保密性相悖。那些认为升级到前沿模型就能提升智能体间安全性的团队,应当去验证这一假设,而非依赖它。
安全成为通信的涌现属性。单个智能体可以逐轮通过所有护栏检查,却仍在多轮交流中泄露,因为危害存在于对话之中,而非任何单条消息之中。基于孤立提示词校准的输入/输出过滤器看不到它。
Defenses
ConVerse 是一个测量工具,而非漏洞利用。它所指向的防御方案与上下文完整性的研究文献一致。
将智能体之间的连接视为信任边界。外部对方智能体是不可信输入,与网页或电子邮件无异。不要仅因为它是「一个智能体」、以合作性的语言表达,就赋予它隐性权限。
在出口处实施数据最小化。在用户侧智能体披露任何内容之前,先检查这一具体字段对这一具体任务是否必要,并优先采用仍能完成交流的最抽象形式(用日期范围而非精确行程,用价格区间而非精确预算)。ConVerse 的三级抽象分类法可作为可操作的评分标准。
将工具调用与偏好变更置于上下文确认之下。在 ConVerse 中,安全攻击通过工具使用与偏好操纵得逞;高影响或跨上下文的动作应要求带外确认,而非在对话中自动触发。
按多轮而非单轮评估。由于失效是涌现的,你的测试框架必须完整演练智能体之间的对话。ConVerse 是动态且开源的,因此可针对你自己的技术栈运行,而不应被当作静态排行榜。
不要假定更大的模型就更安全。每次更换底层模型时都重新运行隐私与安全测试套件,并根据每个智能体实际持有的权限与数据对结果加权。
Status
| 项目 | 详情 |
|---|---|
| 基准 | ConVerse —— arXiv:2511.05359,2025 年 11 月 7 日发布 |
| 发表 | EACL 2026 Findings(2026.findings-eacl.170) |
| 作者 | Amr Gomaa(DFKI)、Ahmed Salem(微软)、Sahar Abdelnabi(微软 / ELLIS / MPI-IS) |
| 范围 | 3 个领域、12 个画像、864+ 个攻击(611 隐私、253 安全)、7 个模型 |
| 关键结果 | 隐私最高 88%,安全最高 60%;更强的模型泄露更多 |
| 代码 | github.com/amrgomaaelhady/ConVerse |
随着个人助手开始直接与服务提供方的智能体协商,安全的基本单元正从提示词转向对话。ConVerse 为团队提供了一种具体、可复现的方式,去观察当谈判桌另一端同样是一个模型时,自己的智能体会如何表现。