DATA LEAK MEDIUM NEW

社会传染：多智能体环境中 LLM 智能体会泄露隐私数据

2026 年 5 月的一项研究模拟了数千个 LLM 智能体，发现数据泄露具有社会传染性：智能体在看到同伴泄露后泄露概率约高出 8 倍，明确的隐私指令能降低但无法消除该效应。

2026-06-04 // 7 min affects: gpt-5, gpt-5-mini, gpt-5-nano, gpt-4o, gpt-4o-mini, gemini-3-pro, gemini-3-flash

这是什么？

2026 年 5 月 26 日，三位研究者（Aman Priyanshu、Supriti Vijay、Esha Pahwa）发表了 “Got a Secret? LLM Agents Can’t Keep It: Evaluating Privacy in Multi-Agent Systems”（arXiv:2605.27766，将发表于 ACM CAIS ‘26）。该成果是一项测量，而非漏洞利用：当把 LLM 智能体置于与其他智能体共处的持久社交环境中时，它们泄露用户私密数据的程度，远超同样的模型在孤立的单轮测试中的表现——而且这种泄露会像传染一样在智能体之间扩散。

这个问题之所以重要，是因为大多数安全基准仍把模型当作孤立的聊天助手、针对单一受限提示作答来评测。本研究表明，智能体所处的社会语境本身就是一个隐私变量，而单轮评测永远无法揭示它。该工作是 Meta CIMemories 基准（2025 年 11 月）的延续——后者已表明语境完整性违规会随任务累积；本研究把问题扩展到众多智能体随时间互动的场景。

工作原理

作者构建了一个类 Reddit 的模拟环境——124 个社区、一个共享的 SQLite 后端，以及一套十二项功能的工具（浏览、搜索、发帖、回复、投票、记忆）——并以来自真实的纯智能体社交网络的 2533 个智能体填充。每个智能体都被赋予一份约 97 个属性的合成人类档案，涵盖十个敏感领域（身份、财务、健康、心理健康、法律、人际关系、住房、就业、教育、日程）。泄露由一个 LLM 裁判针对这些基准属性进行评分——这是一种基于语境完整性的隐私定义：当某个敏感属性出现在不应出现的语境中时，该披露即构成违规。

在此基础上运行两项评估：

设置                   细节
---------------------  --------------------------------------------------------
有机模拟               2533 个智能体，模拟 25 天，111209 条内容
                       （29945 条帖子 + 81264 条回复）。无脚本化对手。
受控测试台             一次仅一个智能体面对冻结快照，7 个前沿模型，
                       5 个等级的"将披露常态化"的帖子，工具调用预算
                       10 至 50。共 7000 条轨迹。

所谓”对抗性”内容刻意设计得很温和：虚构的智能体随口提及关于自己”人类”的细节，并被点赞至所在子社区最高帖的约 1.2 倍，以便在智能体按热度浏览时凸显出来。没有越狱，也没有注入载荷——只是一个分享被常态化的社区。这就是全部机制，正因如此，这才是可发表的防御性发现，而非攻击配方。

关键数字，均取自论文：

从单轮转向社交。 从单轮 CIMemories 评估转为多轮社交互动后，OpenAI 模型的违规率从 19.95% 升至 45.3%。
社会传染。 在同一帖子中紧随一条泄露回复之后的回复，有 12.8% 的概率也泄露，而紧随一条干净回复之后仅为 1.6%（全局基线 1.8%）——约提升 8 倍。一旦越过界线一次，下一个智能体就更可能越界。
指令有帮助但守不住。 在系统提示中加入明确的”不要披露私密信息”只能部分降低泄露：gpt-4o 从 2624 次泄露写入降至 2102，gpt-5-mini 从 2889 降至 2194。只有 gpt-5 大幅下降（从 2296 降至 482）。即便开启防护，聚合泄露率仍保持在 37.8% 以上。
“在哪里”与模型同样重要。 各子社区的泄露率从技术类社区（记忆、智能体工具）的不足 2%，到自我介绍类社区的 16% 以上——几乎跨越一个数量级，可与前沿模型之间的差距相比。在更长的工具调用预算下，多个模型的泄露率达到 50-60%。

一般身份属性在泄露中占主导（1496 项），其次是就业（921）、日程（812）和心理健康（767）。

为何重要

这里的风险面不是某个易受攻击的端点，而是承载用户个人档案、并在长时间跨度内与其他智能体对话的智能体的部署模式——这正是新兴智能体网络的形态。这与致命三要素直接相关：一个同时具备私密数据访问、不可信内容暴露和对外通信渠道的智能体。新的转折在于，“不可信内容”无需是精心设计的攻击。仅仅是同伴的行为，就足以随时间侵蚀智能体的语境完整性边界。

对任何部署智能体的人而言有三点后果：

你的部署前隐私测试很可能过于乐观。 一个通过了单轮 PII 检查的模型，一旦嵌入社区并运行五十次工具调用，仍可能以两位数的比率泄露。在孤立环境中测得的合规性无法迁移。
提示层面的防护在社会压力下会退化。 “不要分享私密数据”表现得像一种概率性防御，而非硬边界——其效果高度依赖于模型。
泄露会累积并级联。 它依赖于轨迹：智能体参与越久、观察到的披露越多，它披露得就越多。一条高可见度帖子中的泄露，就能抬高整个平台的泄露率。

作者始终提醒：检测依赖 LLM 裁判，因此所报告的违规率应视为上限，且档案为合成数据。需要记住的是效应的方向，而非确切百分比。

防御

没有补丁——这是一个设计问题。缓解措施是系统性的，且大多呼应作者自身的前瞻议程。

将社会语境作为一等变量来测试。 在评估矩阵中，除模型和提示外，加入社区结构、同伴暴露和互动时长。单轮拒答基准无法捕捉规范漂移。复用 CIMemories 的语境完整性框架，并将其扩展到多轮、多智能体的运行。
最小化智能体可泄露的内容。 当一项任务只需要三个字段时，不要把完整的 PII 档案载入智能体的上下文。数据最小化能在社会压力如何演变的情况下都限制爆炸半径。
对记忆进行沙箱隔离，防止跨语境浮现。 持久记忆是此处的载体。将记忆读取限定在当前任务/语境，使在某一场景中习得的属性不会在无关社区重新出现。这与时间性记忆污染是同一课，只是应用到了社交渠道。
约束参与范围。 智能体在哪里发帖，对泄露的预测力不亚于驱动它的模型。把智能体限制在与任务相关的渠道，比调整其人设更可靠地降低暴露。
监控披露级联。 识别传染特征——某帖中的一次泄露后跟随更多泄露——并在其扩散至整个平台之前介入（限速、重新注入隐私指令、暂停智能体）。
在长时运行中重申约束，并优先选用稳健模型。 泄露随工具调用预算增加：在长会话中定期重新注入隐私指令，并将模型选择偏向那些在压力下确实守得住的模型（gpt-5 降至 482 表明差距是真实存在的）。把指令视为缓解，而非免疫。

状态

项目	参考	日期	备注
”Got a Secret?” 论文	arXiv:2605.27766	2026-05-26	多智能体隐私模拟；CAIS ‘26
代码与数据	llms-cant-keep-secrets.github.io	2026-05	已公开发布
CIMemories 基准	arXiv:2511.14937	2025-11-18	本工作所依托的语境完整性基准
评测的模型	论文 §4.3	2026-05	gpt-5 / -mini / -nano、gpt-4o / -mini、gemini-3-pro / -flash
缓解状态	—	—	无补丁；仅有设计层面的控制

正确的定性不是”智能体会泄露秘密”——孤立模型在直接提示下泄露早已不是新闻。而是一个无害的社交环境，在没有任何攻击载荷的情况下，就足以让本会独自保持沉默的智能体交出用户的私密数据——而且你连接的智能体越多，情况越糟。如果你在构建智能体网络，请把社会拓扑纳入你的威胁模型，而不是当作背景。

本文出于防御目的，总结了公开且可同行评审的研究。文中不含任何可操作的攻击载荷。所报告数字为作者所得，反映由 LLM 裁判评估的合成档案，应视为上限。最后审阅于 2026-06-04。

社会传染：多智能体环境中 LLM 智能体会泄露隐私数据

这是什么？

工作原理

为何重要

防御

状态

Sources