SUPPLY CHAIN MEDIUM NEW

Secret Stealing：被植入后门的模型代码窃取你的微调数据

2026 年 4 月 30 日的一篇论文表明，被篡改的模型代码（而非被投毒的权重）可从本地微调数据中窃取 API 密钥和个人信息，精确恢复率超过 98%，并能绕过 DP-SGD 与各类审计。

2026-06-18 // 6 min affects: 开放权重大模型, huggingface transformers, 自定义模型代码（trust_remote_code）, 本地微调流水线

这是什么？

Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors（arXiv 2604.27426，发布于 2026 年 4 月 30 日）针对许多团队视为硬性隐私边界的一个假设：认为在自己的机器上、离线微调开放权重模型就能确保训练数据的私密性。论文证明这并不够。攻击者既不需要你的权重，也不需要你的数据，更不需要访问你训练过程的网络。他只需让你运行他的模型代码——也就是定义模型架构的那段 Python——这段代码便可悄悄记忆并在日后泄露你微调数据中的机密。

这之所以重要，是因为本地微调数据集中常常包含高熵机密：API 密钥、访问令牌、个人标识、财务记录。该攻击正是为提取这些内容而设计。

工作原理

供应链向量是模型的自定义代码，而非其权重。Hugging Face 等平台上分发的许多开放权重模型都附带一个 modeling.py（或类似文件），一旦传入 trust_remote_code=True，加载器就会执行它。作者的洞见在于：把恶意逻辑伪装成该代码中普通的架构定义，从而把对权重的被动投毒，转变为训练过程中对执行流程的主动劫持。

以往「污染预训练权重」的攻击对自然语言这类模糊目标有效，但对密钥这种稀疏、高熵的字符串则失效：概率性前缀无法可靠地复现 sk-[REDACTED]。基于模型代码的方法绕开了这一难题。据作者所述，它采用一种确定性的全链路记忆机制，通过在线张量规则匹配在实时计算流中锁定 token 级别的机密，再借助值–梯度解耦注入「窃取」梯度，使机密被刻入模型而不损害主任务。当你部署微调后的模型后，攻击者便通过黑盒查询通道恢复这些机密。

# 风险的概念性示意 —— 这不是可用的漏洞利用代码。
# 通过 trust_remote_code 执行的自定义 modeling 文件，
# 可以在前向/反向传播过程中运行任意逻辑：
model = AutoModelForCausalLM.from_pretrained(
    "vendor/cool-new-model",
    trust_remote_code=True,   # <-- 执行供应商的 Python，包括 modeling.py
)
# 从此处起，模型代码可以看到每一个训练批次 —— 包括你微调数据中的机密 ——
# 并能以确定性方式将其记忆下来。

论文报告的结果十分突出：精确恢复机密的 Strict ASR 超过 98%，且对微调模型的目标任务没有可测量的影响；据称该技术还能规避 DP-SGD、语义审计和代码审计。

为何重要

该威胁模型推翻了一条令人安心的思维捷径。「我们离线微调，所以数据出不去」——一旦执行了未经核验的模型代码，这句话就不再成立。信任边界不是网络，而是你允许在训练进程中运行的代码。2026 年 5 月一项相近成果 Be Careful When Fine-tuning On Open-Source LLMs（arXiv 2505.15656）从权重一侧得出互补结论：提供方可植入黑盒后门，日后恢复你的微调查询。两者共同表明，开放权重微调流水线存在多个数据窃取面，「它在我的硬件上运行」并不是隐私保障。

任何下载社区模型并用敏感内部数据进行微调的组织——初创公司、大型企业、受监管行业——都在影响范围内。

防御

论文本身已表明 DP-SGD 以及朴素的代码或语义审计并不充分，因此应把它当作一个纵深防御问题，而非依赖单一控制。

将模型代码视为不可信代码。 对未经审阅的仓库，避免使用 trust_remote_code=True。优先选择能以标准内置架构和 safetensors 权重加载、且不执行供应商 Python 的模型。
固定并审阅自定义 modeling 文件。 如必须使用自定义代码，请将其纳入自己的仓库、固定到具体的 commit、每次更新都做差异比对，并由人工审读 forward/backward 中实际运行的内容。警惕任何检查、哈希或累积原始输入张量的代码。
隔离训练进程。 在沙箱化、禁止出站网络、文件系统最小权限的环境中运行微调，使训练过程与日后任何「恢复」路径都没有外泄通道。
缩小战利品。 在训练前清洗或令牌化微调数据中的机密——原始 API 密钥、凭据和个人信息通常根本不应出现在训练语料中。
监控输出。 部署前用诱饵字符串、提取式查询等方式探测微调模型是否记忆了机密，并对攻击者外泄机密所需的黑盒查询面进行限速与日志记录。

现状

这是一项已发表的学术研究，描述的是针对开放权重微调供应链的一类攻击，而非针对某个已部署产品的漏洞利用。关键日期：arXiv 预印本发布于 2026 年 4 月 30 日（arXiv 2604.27426）；权重一侧的相近成果（arXiv 2505.15656）为 2026 年 5 月。其实用启示不依赖于任何特定框架：trust_remote_code 执行路径是一项「信任代码」的决策，理应据此加以治理。

Secret Stealing：被植入后门的模型代码窃取你的微调数据

这是什么？

工作原理

为何重要

防御

现状

Sources