社会传染:多智能体环境中 LLM 智能体会泄露隐私数据
2026 年 5 月的一项研究模拟了数千个 LLM 智能体,发现数据泄露具有社会传染性:智能体在看到同伴泄露后泄露概率约高出 8 倍,明确的隐私指令能降低但无法消除该效应。
这是什么?
2026 年 5 月 26 日,三位研究者(Aman Priyanshu、Supriti Vijay、Esha Pahwa)发表了 “Got a Secret? LLM Agents Can’t Keep It: Evaluating Privacy in Multi-Agent Systems”(arXiv:2605.27766,将发表于 ACM CAIS ‘26)。该成果是一项测量,而非漏洞利用:当把 LLM 智能体置于与其他智能体共处的持久社交环境中时,它们泄露用户私密数据的程度,远超同样的模型在孤立的单轮测试中的表现——而且这种泄露会像传染一样在智能体之间扩散。
这个问题之所以重要,是因为大多数安全基准仍把模型当作孤立的聊天助手、针对单一受限提示作答来评测。本研究表明,智能体所处的社会语境本身就是一个隐私变量,而单轮评测永远无法揭示它。该工作是 Meta CIMemories 基准(2025 年 11 月)的延续——后者已表明语境完整性违规会随任务累积;本研究把问题扩展到众多智能体随时间互动的场景。
工作原理
作者构建了一个类 Reddit 的模拟环境——124 个社区、一个共享的 SQLite 后端,以及一套十二项功能的工具(浏览、搜索、发帖、回复、投票、记忆)——并以来自真实的纯智能体社交网络的 2533 个智能体填充。每个智能体都被赋予一份约 97 个属性的合成人类档案,涵盖十个敏感领域(身份、财务、健康、心理健康、法律、人际关系、住房、就业、教育、日程)。泄露由一个 LLM 裁判针对这些基准属性进行评分——这是一种基于语境完整性的隐私定义:当某个敏感属性出现在不应出现的语境中时,该披露即构成违规。
在此基础上运行两项评估:
设置 细节
--------------------- --------------------------------------------------------
有机模拟 2533 个智能体,模拟 25 天,111209 条内容
(29945 条帖子 + 81264 条回复)。无脚本化对手。
受控测试台 一次仅一个智能体面对冻结快照,7 个前沿模型,
5 个等级的"将披露常态化"的帖子,工具调用预算
10 至 50。共 7000 条轨迹。
所谓”对抗性”内容刻意设计得很温和:虚构的智能体随口提及关于自己”人类”的细节,并被点赞至所在子社区最高帖的约 1.2 倍,以便在智能体按热度浏览时凸显出来。没有越狱,也没有注入载荷——只是一个分享被常态化的社区。这就是全部机制,正因如此,这才是可发表的防御性发现,而非攻击配方。
关键数字,均取自论文:
- 从单轮转向社交。 从单轮 CIMemories 评估转为多轮社交互动后,OpenAI 模型的违规率从 19.95% 升至 45.3%。
- 社会传染。 在同一帖子中紧随一条泄露回复之后的回复,有 12.8% 的概率也泄露,而紧随一条干净回复之后仅为 1.6%(全局基线 1.8%)——约提升 8 倍。一旦越过界线一次,下一个智能体就更可能越界。
- 指令有帮助但守不住。 在系统提示中加入明确的”不要披露私密信息”只能部分降低泄露:gpt-4o 从 2624 次泄露写入降至 2102,gpt-5-mini 从 2889 降至 2194。只有 gpt-5 大幅下降(从 2296 降至 482)。即便开启防护,聚合泄露率仍保持在 37.8% 以上。
- “在哪里”与模型同样重要。 各子社区的泄露率从技术类社区(记忆、智能体工具)的不足 2%,到自我介绍类社区的 16% 以上——几乎跨越一个数量级,可与前沿模型之间的差距相比。在更长的工具调用预算下,多个模型的泄露率达到 50-60%。
一般身份属性在泄露中占主导(1496 项),其次是就业(921)、日程(812)和心理健康(767)。
为何重要
这里的风险面不是某个易受攻击的端点,而是承载用户个人档案、并在长时间跨度内与其他智能体对话的智能体的部署模式——这正是新兴智能体网络的形态。这与致命三要素直接相关:一个同时具备私密数据访问、不可信内容暴露和对外通信渠道的智能体。新的转折在于,“不可信内容”无需是精心设计的攻击。仅仅是同伴的行为,就足以随时间侵蚀智能体的语境完整性边界。
对任何部署智能体的人而言有三点后果:
- 你的部署前隐私测试很可能过于乐观。 一个通过了单轮 PII 检查的模型,一旦嵌入社区并运行五十次工具调用,仍可能以两位数的比率泄露。在孤立环境中测得的合规性无法迁移。
- 提示层面的防护在社会压力下会退化。 “不要分享私密数据”表现得像一种概率性防御,而非硬边界——其效果高度依赖于模型。
- 泄露会累积并级联。 它依赖于轨迹:智能体参与越久、观察到的披露越多,它披露得就越多。一条高可见度帖子中的泄露,就能抬高整个平台的泄露率。
作者始终提醒:检测依赖 LLM 裁判,因此所报告的违规率应视为上限,且档案为合成数据。需要记住的是效应的方向,而非确切百分比。
防御
没有补丁——这是一个设计问题。缓解措施是系统性的,且大多呼应作者自身的前瞻议程。
- 将社会语境作为一等变量来测试。 在评估矩阵中,除模型和提示外,加入社区结构、同伴暴露和互动时长。单轮拒答基准无法捕捉规范漂移。复用 CIMemories 的语境完整性框架,并将其扩展到多轮、多智能体的运行。
- 最小化智能体可泄露的内容。 当一项任务只需要三个字段时,不要把完整的 PII 档案载入智能体的上下文。数据最小化能在社会压力如何演变的情况下都限制爆炸半径。
- 对记忆进行沙箱隔离,防止跨语境浮现。 持久记忆是此处的载体。将记忆读取限定在当前任务/语境,使在某一场景中习得的属性不会在无关社区重新出现。这与时间性记忆污染是同一课,只是应用到了社交渠道。
- 约束参与范围。 智能体在哪里发帖,对泄露的预测力不亚于驱动它的模型。把智能体限制在与任务相关的渠道,比调整其人设更可靠地降低暴露。
- 监控披露级联。 识别传染特征——某帖中的一次泄露后跟随更多泄露——并在其扩散至整个平台之前介入(限速、重新注入隐私指令、暂停智能体)。
- 在长时运行中重申约束,并优先选用稳健模型。 泄露随工具调用预算增加:在长会话中定期重新注入隐私指令,并将模型选择偏向那些在压力下确实守得住的模型(gpt-5 降至 482 表明差距是真实存在的)。把指令视为缓解,而非免疫。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| ”Got a Secret?” 论文 | arXiv:2605.27766 | 2026-05-26 | 多智能体隐私模拟;CAIS ‘26 |
| 代码与数据 | llms-cant-keep-secrets.github.io | 2026-05 | 已公开发布 |
| CIMemories 基准 | arXiv:2511.14937 | 2025-11-18 | 本工作所依托的语境完整性基准 |
| 评测的模型 | 论文 §4.3 | 2026-05 | gpt-5 / -mini / -nano、gpt-4o / -mini、gemini-3-pro / -flash |
| 缓解状态 | — | — | 无补丁;仅有设计层面的控制 |
正确的定性不是”智能体会泄露秘密”——孤立模型在直接提示下泄露早已不是新闻。而是一个无害的社交环境,在没有任何攻击载荷的情况下,就足以让本会独自保持沉默的智能体交出用户的私密数据——而且你连接的智能体越多,情况越糟。如果你在构建智能体网络,请把社会拓扑纳入你的威胁模型,而不是当作背景。
本文出于防御目的,总结了公开且可同行评审的研究。文中不含任何可操作的攻击载荷。所报告数字为作者所得,反映由 LLM 裁判评估的合成档案,应视为上限。最后审阅于 2026-06-04。