sistema: OPERATIVO
← volver a todos los hacks
SUPPLY CHAIN MEDIUM NEW

Envenenamiento secuencial: repartir una puerta trasera entre las etapas del post-entrenamiento

Un artículo del 3 de junio de 2026 muestra que un veneno repartido entre datos de SFT y de preferencias — insignificante en cada etapa por separado — se combina en una puerta trasera funcional. Las auditorías por etapa crean una «ilusión del atacante único».

2026-06-08 // 7 min affects: sft-pipelines, rlhf-ppo, dpo-alignment, open-weight-llms

¿De qué se trata?

El 3 de junio de 2026, investigadores de la Universidad de Waterloo, la Universidad de Ottawa, la Universidad de Chicago y el Vector Institute publicaron Sequential Data Poisoning in LLM Post-Training (arXiv:2606.04929). El artículo estudia un modelo de amenaza que la mayoría de la investigación sobre envenenamiento ha ignorado: el alineamiento moderno no es un único entrenamiento, sino una cadena de etapas — ajuste fino supervisado (SFT) seguido de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) mediante PPO, o de optimización directa de preferencias (DPO). Cada etapa toma datos de una fuente distinta y potencialmente no confiable.

El resultado central es lo que los autores llaman la «ilusión del atacante único»: una contribución envenenada que parece inofensiva al auditar cada etapa por separado puede combinarse, a través de las etapas, en una puerta trasera fiable. Los equipos que revisan por separado el conjunto de SFT y el de preferencias — la práctica habitual — pueden concluir cada uno «esto está limpio» y aun así desplegar un modelo comprometido.

Cómo funciona

El montaje reparte una puerta trasera por el pipeline de post-entrenamiento en lugar de concentrarla en un solo conjunto de datos. Dos adversarios (o más) contribuyen cada uno a una etapa distinta. El artículo describe dos regímenes:

Pipeline      Etapa 1 (SFT)        Etapa 2 (RLHF/DPO)      Efecto aislado        Efecto combinado
------------  -------------------  ----------------------  --------------------  ----------------
SFT -> DPO    envenenar datos SFT  envenenar preferencias  cada uno sube         aditivo; repartir
                                                           algo la ASR solo      el presupuesto
                                                                                 supera concentrarlo
SFT -> PPO    envenenar datos SFT  envenenar modelo de     ASR casi nula         puerta trasera
                                   recompensa (RM)         por cada etapa        revelada solo en
                                                                                 combinación

En el caso SFT → DPO las contribuciones son aproximadamente aditivas: el veneno de cada etapa eleva la tasa de éxito del ataque (ASR), y el artículo constata que repartir un presupuesto fijo de veneno entre las dos etapas supera gastarlo todo en una sola. El caso SFT → PPO es más nítido y preocupante: ni el veneno de SFT ni el del modelo de recompensa producen una ASR significativa por sí solos, pero su combinación hace emerger la puerta trasera. El comportamiento malicioso es invisible a nivel de cada conjunto de datos y solo aparece en la interacción entre etapas.

Aquí no se reproduce ninguna cadena de activación ni receta de envenenamiento reproducible — la referencia canónica es el propio artículo. La enseñanza es estructural: la frontera de seguridad que importa es el pipeline de post-entrenamiento en su conjunto, no un conjunto de datos aislado.

Por qué importa

El resultado reformula un supuesto defensivo. Los trabajos previos sobre envenenamiento — incluido el hallazgo de Anthropic en 2025 de que un número bajo y casi constante de muestras puede envenenar modelos de cualquier tamaño y el análisis de seguimiento sobre el número casi constante de venenos — ya habían mostrado que el presupuesto absoluto necesario es alarmantemente bajo. El envenenamiento secuencial añade un segundo eje: ese presupuesto puede fragmentarse entre fronteras de aprovisionamiento de modo que ninguna auditoría vea jamás lo suficiente para dar la alarma.

Esto encaja con cómo se obtienen realmente los datos de alineamiento en 2026. Los datos de instrucción de SFT, las etiquetas de preferencias humanas y los datos de entrenamiento del modelo de recompensa proceden a menudo de proveedores distintos, plataformas de crowdsourcing, corpus extraídos o pipelines de generación sintética — equipos distintos, supuestos de confianza distintos, revisión distinta en cada paso. Un proveedor que solo influye en el conjunto de preferencias, y otro que solo influye en la mezcla de SFT, pasan la revisión individualmente. El riesgo reside en la composición, y eso es precisamente lo que la gobernanza de datos etapa por etapa no comprueba.

Defensas

Aquí no hay parche — se trata de una clase de riesgo en cómo se ensamblan los pipelines de alineamiento. Las mitigaciones giran en torno a la procedencia y la evaluación de extremo a extremo.

  1. Evalúe el pipeline de extremo a extremo, no etapa por etapa. La lección central del artículo es que las auditorías de datos por etapa pasan por alto los efectos de interacción. Ejecute las evaluaciones de puertas traseras y disparadores sobre el modelo post-entrenado final, contra un conjunto de sondas construido de forma independiente — y trate una auditoría de SFT limpia y una de preferencias limpia como necesarias pero no suficientes.

  2. Rastree la procedencia de los datos en cada etapa. Mantenga una lista de materiales (bill of materials) para los datos de SFT, de preferencias y del modelo de recompensa: fuente, proveedor, método de recolección y estado de revisión. El envenenamiento secuencial explota que estas etapas se gobiernan de forma independiente. Cruzar proveedores entre etapas permite señalar cuándo un mismo actor aguas arriba toca más de una etapa.

  3. Diversifique y aísle a los proveedores por etapa. Si un único proveedor suministra a la vez su corpus de SFT y sus etiquetas de preferencias, un solo proveedor comprometido posee las dos mitades del ataque. Separar proveedores — y limitar la cuota de una fuente dentro de una etapa — eleva el coste de la colusión entre etapas.

  4. Reserve datos de evaluación internos y de confianza. Conserve un benchmark interno, libre de veneno, de sondas conductuales y de tipo disparador, que nunca entre en ningún conjunto de entrenamiento. Vuélvalo a ejecutar tras cada cambio importante de post-entrenamiento. El resultado de PPO muestra puertas traseras que solo aparecen tras la composición: el control debe situarse después de la última etapa.

  5. Prefiera pipelines de preferencias y recompensa auditables. Los datos del modelo de recompensa de RLHF y los pares de preferencias de DPO son más difíciles de inspeccionar que los ejemplos de SFT, aunque son decisivos para el ataque según el artículo. Muestree, registre y verifique los datos de preferencias y de RM con el mismo rigor que los datos de instrucción.

  6. Haga red-teaming explícito sobre la composición. Añada el envenenamiento «de presupuesto repartido» a su manual de red team: suponga que un adversario solo puede tocar una etapa, y compruebe si dos adversarios así de limitados se combinan en algo que su filtrado por etapa dejaría pasar.

Estado

ElementoReferenciaFechaNotas
Sequential Data Poisoning in LLM Post-TrainingarXiv:2606.049292026-06-03Introduce el modelo de la «ilusión del atacante único»
Régimen SFT → DPOMismo artículo2026-06-03Aditivo; repartir un presupuesto fijo supera concentrarlo
Régimen SFT → PPOMismo artículo2026-06-03Ninguna etapa por sí sola es significativa; la puerta trasera solo aparece en combinación
Número casi constante de venenosarXiv:2510.071922025-10Contexto: el presupuesto absoluto de veneno requerido es bajo
Envenenamiento con muestras pequeñasAnthropic Research2025-10Contexto: pocas muestras bastan para envenenar modelos de cualquier tamaño

La conclusión no es «otro artículo de envenenamiento más». Es que la unidad de auditoría de un modelo envenenado debe ser todo el pipeline de post-entrenamiento, porque un adversario puede mantener cada contribución individual por debajo del umbral que cualquier revisión aislada detectaría — y dejar que las etapas hagan el resto.

Sources