Secret Stealing:被植入后门的模型代码窃取你的微调数据
2026 年 4 月 30 日的一篇论文表明,被篡改的模型代码(而非被投毒的权重)可从本地微调数据中窃取 API 密钥和个人信息,精确恢复率超过 98%,并能绕过 DP-SGD 与各类审计。
这是什么?
Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors(arXiv 2604.27426,发布于 2026 年 4 月 30 日)针对许多团队视为硬性隐私边界的一个假设:认为在自己的机器上、离线微调开放权重模型就能确保训练数据的私密性。论文证明这并不够。攻击者既不需要你的权重,也不需要你的数据,更不需要访问你训练过程的网络。他只需让你运行他的模型代码——也就是定义模型架构的那段 Python——这段代码便可悄悄记忆并在日后泄露你微调数据中的机密。
这之所以重要,是因为本地微调数据集中常常包含高熵机密:API 密钥、访问令牌、个人标识、财务记录。该攻击正是为提取这些内容而设计。
工作原理
供应链向量是模型的自定义代码,而非其权重。Hugging Face 等平台上分发的许多开放权重模型都附带一个 modeling.py(或类似文件),一旦传入 trust_remote_code=True,加载器就会执行它。作者的洞见在于:把恶意逻辑伪装成该代码中普通的架构定义,从而把对权重的被动投毒,转变为训练过程中对执行流程的主动劫持。
以往「污染预训练权重」的攻击对自然语言这类模糊目标有效,但对密钥这种稀疏、高熵的字符串则失效:概率性前缀无法可靠地复现 sk-[REDACTED]。基于模型代码的方法绕开了这一难题。据作者所述,它采用一种确定性的全链路记忆机制,通过在线张量规则匹配在实时计算流中锁定 token 级别的机密,再借助值–梯度解耦注入「窃取」梯度,使机密被刻入模型而不损害主任务。当你部署微调后的模型后,攻击者便通过黑盒查询通道恢复这些机密。
# 风险的概念性示意 —— 这不是可用的漏洞利用代码。
# 通过 trust_remote_code 执行的自定义 modeling 文件,
# 可以在前向/反向传播过程中运行任意逻辑:
model = AutoModelForCausalLM.from_pretrained(
"vendor/cool-new-model",
trust_remote_code=True, # <-- 执行供应商的 Python,包括 modeling.py
)
# 从此处起,模型代码可以看到每一个训练批次 —— 包括你微调数据中的机密 ——
# 并能以确定性方式将其记忆下来。
论文报告的结果十分突出:精确恢复机密的 Strict ASR 超过 98%,且对微调模型的目标任务没有可测量的影响;据称该技术还能规避 DP-SGD、语义审计和代码审计。
为何重要
该威胁模型推翻了一条令人安心的思维捷径。「我们离线微调,所以数据出不去」——一旦执行了未经核验的模型代码,这句话就不再成立。信任边界不是网络,而是你允许在训练进程中运行的代码。2026 年 5 月一项相近成果 Be Careful When Fine-tuning On Open-Source LLMs(arXiv 2505.15656)从权重一侧得出互补结论:提供方可植入黑盒后门,日后恢复你的微调查询。两者共同表明,开放权重微调流水线存在多个数据窃取面,「它在我的硬件上运行」并不是隐私保障。
任何下载社区模型并用敏感内部数据进行微调的组织——初创公司、大型企业、受监管行业——都在影响范围内。
防御
论文本身已表明 DP-SGD 以及朴素的代码或语义审计并不充分,因此应把它当作一个纵深防御问题,而非依赖单一控制。
- 将模型代码视为不可信代码。 对未经审阅的仓库,避免使用
trust_remote_code=True。优先选择能以标准内置架构和safetensors权重加载、且不执行供应商 Python 的模型。 - 固定并审阅自定义 modeling 文件。 如必须使用自定义代码,请将其纳入自己的仓库、固定到具体的 commit、每次更新都做差异比对,并由人工审读
forward/backward中实际运行的内容。警惕任何检查、哈希或累积原始输入张量的代码。 - 隔离训练进程。 在沙箱化、禁止出站网络、文件系统最小权限的环境中运行微调,使训练过程与日后任何「恢复」路径都没有外泄通道。
- 缩小战利品。 在训练前清洗或令牌化微调数据中的机密——原始 API 密钥、凭据和个人信息通常根本不应出现在训练语料中。
- 监控输出。 部署前用诱饵字符串、提取式查询等方式探测微调模型是否记忆了机密,并对攻击者外泄机密所需的黑盒查询面进行限速与日志记录。
现状
这是一项已发表的学术研究,描述的是针对开放权重微调供应链的一类攻击,而非针对某个已部署产品的漏洞利用。关键日期:arXiv 预印本发布于 2026 年 4 月 30 日(arXiv 2604.27426);权重一侧的相近成果(arXiv 2505.15656)为 2026 年 5 月。其实用启示不依赖于任何特定框架:trust_remote_code 执行路径是一项「信任代码」的决策,理应据此加以治理。