Exposición de trazas de razonamiento: ocultar el chain-of-thought no lo protege
Un artículo de mayo de 2026 muestra que basta con un prompt para sacar a la salida visible el chain-of-thought oculto de un modelo de razonamiento — y que las trazas recuperadas sirven para destilar un modelo más pequeño.
¿De qué se trata?
La mayoría de los modelos de razonamiento desplegados ya no muestran su chain-of-thought (CoT) en bruto. OpenAI trata el CoT oculto de sus modelos de razonamiento como un objeto de supervisión interna, Gemini expone resúmenes del pensamiento en lugar de los pensamientos en bruto, y el extended thinking de Claude ofrece una transparencia controlada, no completa. Las razones declaradas son la supervisión de seguridad y la protección de un activo comercial valioso: las trazas de razonamiento detalladas son justo lo que se necesita para destilar el comportamiento de un modelo de frontera en uno más barato.
Un artículo publicado en arXiv el 30 de mayo de 2026 — «Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs» (arXiv:2606.00642, Lu et al., National Yang Ming Chiao Tung University y UC Berkeley) — pregunta si esa ocultación a nivel de interfaz protege realmente la traza. Su respuesta es no. Con un método de prompting ligero que los autores llaman Reasoning Exposure Prompting (REP), un usuario puede inducir a un modelo víctima a emitir en su salida visible un razonamiento muy parecido a su traza interna oculta, y el texto recuperado basta para entrenar un modelo estudiante más pequeño.
Esto importa porque replantea un control en el que confían muchos proveedores. Ocultar el CoT pretendía frenar la extracción de capacidades; este trabajo muestra que la traza puede filtrarse mediante prompting ordinario, sin acceso a pesos, logits ni al canal de supervisión.
Cómo funciona
La intuición es conductual, no adversarial. Un modelo de razonamiento que se niega a revelar sus pasos ocultos cuando se le pregunta directamente continuará de buen grado un patrón que se le haya mostrado. REP explota esa brecha.
A alto nivel, REP construye un prefijo corto de demostraciones pregunta–razonamiento–respuesta, lo envuelve en un formato de tipo código (los autores prueban bloques markdown, comandos de shell y transformaciones similares) y lo antepone a la pregunta objetivo real. Como las demostraciones presentan el razonamiento como parte de la respuesta visible para el usuario, el modelo considera el razonamiento visible paso a paso como la forma de salida esperada y también lo produce para el objetivo. Aquí no se reproduce ningún payload; el mecanismo es un condicionamiento de formato en few-shot, no una cadena secreta.
Para verificar que el texto expuesto es el razonamiento propio del modelo y no un sustituto plausible, los autores rastrean tres trazas en modelos de pesos abiertos: la traza interna benigna con prompting normal, la traza interna bajo REP y la traza visible que produce REP. Miden la validez estructural (¿es analizable como razonamiento-luego-respuesta?), la fidelidad de exposición (¿coincide la traza visible con la interna?), la preservación del comportamiento (¿se mantiene la respuesta?) y la utilidad posterior (¿ayuda entrenar con ella a un estudiante?).
En sus experimentos —OpenThoughts-114k como conjunto fuente, Qwen3-14B y Qwen3-32B como víctimas, Qwen3-14B como modelo sombra y Qwen2.5-7B-Instruct como estudiante— la mejor configuración fue un prefijo en bloque markdown con tres demostraciones. En promedio sobre los benchmarks, produjo ganancias para el estudiante superiores en 2,09× a la supervisión solo-respuesta, en 1,25× al entrenamiento con trazas resumidas, y en 1,23× a la baseline de inversión de trazas de «How to Steal Reasoning Without Reasoning Traces» (arXiv:2603.07267, marzo de 2026), alcanzando el 96,7 % de un oráculo que usa la traza interna real. Es decir, las trazas expuestas portan una señal de razonamiento transferible, no solo estilo.
Por qué importa
La primera consecuencia es para la protección de la propiedad intelectual de los modelos. Ocultar el CoT en bruto forma parte ya, de forma documentada, de la respuesta de los grandes laboratorios a los intentos de destilación y extracción de modelos. REP, junto con el trabajo de inversión de trazas de marzo de 2026, es una segunda demostración independiente de que pesos ocultos más una traza oculta no bastan: si un usuario puede interactuar con el modelo, puede reconstruir razonamiento de calidad de entrenamiento. Quien asumiera en su modelo de amenazas «no mostramos el CoT, así que no se puede copiar» debería revisar esa hipótesis.
La segunda consecuencia es para la supervisión de seguridad. El artículo de posición sobre la monitorabilidad del CoT, firmado por más de 40 investigadores de OpenAI, Anthropic y Google DeepMind (arXiv:2507.11473, julio de 2025), sostiene que unas cadenas de pensamiento legibles son una señal de seguridad frágil pero valiosa — y advierte de que la presión sobre el CoT puede hacer que diverja del razonamiento real del modelo. REP añade un matiz: la traza visible que un usuario puede provocar quizá no sea el mismo objeto que el proveedor supervisa internamente, de modo que un razonamiento que parece benigno en un canal no garantiza nada sobre el otro.
La tercera es el alcance. Los experimentos usan modelos Qwen3 de pesos abiertos, por lo que las cifras exactas no se trasladan automáticamente a sistemas cerrados. Pero el método no requiere acceso privilegiado, y los sistemas desplegados a los que apunta conceptualmente —modelos de razonamiento con CoT oculto tras una API— son justamente los de alto valor.
Defensas
El artículo es franco al reconocer que esto es difícil de detener limpiamente, y sus propios resultados descartan las opciones fáciles.
-
No confíe en bloqueos deterministas de cadenas o formatos. Bloquear un delimitador, envoltorio o bloque concreto detiene una variante de REP; los autores señalan que cambios menores de formato preservan la exposición. Las blocklists de patrones son aquí frágiles por construcción.
-
No confíe solo en el entrenamiento de rechazo. Las defensas orientadas al rechazo son insuficientes, porque un prompting de tipo jailbreak puede suprimir el rechazo mientras REP sigue ofreciendo una vía condicionada por el formato para reconstruir el razonamiento. Trate «el modelo se niega a mostrar su CoT» como un control débil, no como una frontera.
-
Gobierne en la capa de destilación, no solo en la traza. Como la filtración es la señal de razonamiento y no una copia literal de la traza oculta, las defensas duraderas apuntan a la extracción: límites de tasa y volumen por cuenta, detección de anomalías en patrones de acceso compatibles con la recolección de datasets, monitorización por similitud de salida y canarios, y la vía legal / términos de servicio que los proveedores ya emplean contra las campañas de destilación.
-
Recalcule el coste del control «CoT oculto» en su modelo de amenazas. Si opera un modelo de razonamiento, contabilice el CoT oculto como algo que eleva el coste del atacante, no como protección de la traza. Si consume uno, no asuma que el razonamiento oculto de un proveedor es irrecuperable al diseñar sistemas que dependan de ese secreto.
-
Mantenga un monitor interno fiel. Conforme al artículo sobre monitorabilidad, conserve un canal de CoT en el que realmente confíe para la revisión de seguridad, y tenga en cuenta que una traza visible provocada por el usuario puede divergir de él.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| REP / «Hidden Thoughts Are Not Secret» | arXiv:2606.00642 | 2026-05-30 | El prompting recupera el razonamiento oculto; 96,7 % de la utilidad del oráculo |
| Inversión de trazas («How to Steal Reasoning…») | arXiv:2603.07267 | 2026-03-07 | Reconstruye trazas desde entradas/respuestas/resúmenes; baseline de REP |
| CoT Monitorability (40+ autores, OpenAI/Anthropic/DeepMind) | arXiv:2507.11473 | 2025-07-15 | El CoT como señal de seguridad frágil; fidelidad degradable bajo presión |
| Alcance empírico | arXiv:2606.00642 | 2026-05-30 | Víctimas Qwen3-14B/32B, estudiante Qwen2.5-7B-Instruct; pesos abiertos |
El titular no es «un nuevo jailbreak». Es que una suposición arquitectónica de confidencialidad —oculta el chain-of-thought y permanecerá oculto— no se sostiene frente a un prompting ordinario, ni para la protección de la PI ni para la supervisión de seguridad que motivaron ocultarlo en primer lugar.