Lockdown Mode de OpenAI: cortar la vía de exfiltración del prompt injection
El 6 de junio de 2026 OpenAI amplió Lockdown Mode a las cuentas personales y Business de autoservicio de ChatGPT: un ajuste determinista que desactiva los canales de salida usados para exfiltrar datos mediante prompt injection.
¿Qué es esto?
OpenAI presentó por primera vez Lockdown Mode y las etiquetas «Elevated Risk» el 13 de febrero de 2026, inicialmente para ChatGPT Enterprise, Edu, Healthcare y Teachers. El 6 de junio de 2026, la compañía comenzó a desplegar Lockdown Mode hacia las cuentas personales elegibles (Free, Go, Plus, Pro) y los planes ChatGPT Business de autoservicio, según informaron The Hacker News y TechCrunch ese mismo día. Es un control de producto defensivo, no la divulgación de una vulnerabilidad.
Lockdown Mode apunta a un escenario de fallo concreto: el prompt injection usado para la exfiltración de datos. No intenta impedir que la inyección ocurra; elimina los canales por los cuales una inyección exitosa podría sacar sus datos hacia un atacante. OpenAI lo dice con claridad: este modo «no está pensado para todos» — está diseñado para directivos, equipos de seguridad y organizaciones que manejan datos sensibles y que aceptan perder funciones a cambio de una superficie de ataque menor.
Cómo funciona
El prompt injection se vuelve peligroso cuando coinciden tres condiciones — un encuadre conocido como lethal trifecta (trifecta letal): el modelo tiene acceso a datos privados, es alcanzable por contenido no confiable y dispone de un canal de salida para enviar datos a otro lugar. Lockdown Mode ataca la tercera pata.
OpenAI describe el control como determinista: en lugar de pedir al modelo que juzgue si una acción es segura, desactiva de forma dura las capacidades que podrían sacar datos de la red controlada por OpenAI. Según el anuncio de OpenAI y la cobertura de junio, cuando Lockdown Mode está activo desactiva:
# Capacidades desactivadas de forma determinista en Lockdown Mode
# Fuente: anuncio de OpenAI + The Hacker News / TechCrunch (2026-06-06)
navegacion web en vivo -> solo contenido en cache, sin peticiones salientes
imagenes web -> sin recuperar/mostrar imagenes desde la web
deep research -> desactivado
modo agente -> desactivado
red de Canvas -> el codigo generado por Canvas no puede acceder a la red
descargas de archivos -> bloqueadas (sin descarga para analisis de datos)
El ejemplo clave es la navegación: en Lockdown Mode, el acceso web está limitado al contenido en caché, de modo que ninguna petición de red en vivo sale de la red de OpenAI — cerrando una vía de exfiltración clásica por URL en la que una instrucción inyectada hace que el modelo recupere atacante.example/?leak=<secreto>. Cabe destacar que Lockdown Mode no cambia cómo funcionan la memoria, la subida de archivos o el compartir conversaciones, y no puede ejecutarse a la vez que el Developer Mode — activar uno desactiva el otro.
La pieza complementaria, las etiquetas Elevated Risk, estandariza las advertencias en ChatGPT, ChatGPT Atlas y Codex para las capacidades que amplían la superficie de ataque — por ejemplo, conceder a Codex acceso de red para consultar documentación. Los administradores de Workspace conservan controles granulares, por aplicación y por acción, además de los registros de la Compliance API para la supervisión.
Por qué importa
Es un cambio notable en cómo un proveedor de frontera plantea el problema. OpenAI reconoce, dentro de su producto, que el prompt injection es un problema «de frontera» sin resolver y que la defensa realista a corto plazo consiste en restringir las capacidades, no en perfeccionar el juicio del modelo. Para los profesionales, la arquitectura es la lección: cortar el canal de exfiltración suele ser más barato y fiable que intentar volver inmune a un modelo frente a instrucciones maliciosas que, inevitablemente, acabará encontrando.
Las limitaciones importan igual. OpenAI afirma sin rodeos que Lockdown Mode «no garantiza que la exfiltración de datos no pueda ocurrir». La inyección todavía puede producirse a través de contenido web en caché o de un archivo subido y seguir corrompiendo el comportamiento o la exactitud de una respuesta; queda riesgo residual a través de aplicaciones habilitadas, combinaciones de capacidades imprevistas o técnicas recién descubiertas. Un modo que desactiva las funciones de agente y las descargas también supone un impuesto real sobre la productividad — precisamente por eso OpenAI lo reserva a usuarios de alto riesgo en lugar de activarlo por defecto.
Defensas
Trate Lockdown Mode como una plantilla, no como una solución mágica.
Cartografíe primero sus propios canales de exfiltración. Todo agente capaz de navegar, mostrar imágenes remotas, invocar herramientas o descargar archivos tiene una vía de salida; inventaríelos como hizo OpenAI y pregúntese cuáles puede desactivar en las sesiones sensibles.
Prefiera el bloqueo determinista de capacidades frente a las barreras basadas en el juicio del modelo para los flujos de alto riesgo. Un interruptor estricto que bloquea la salida de red en vivo es auditable; un clasificador que «casi siempre» rechaza no lo es. Use ambos, pero no deje que un filtro probabilístico sea lo único entre los datos privados e Internet.
Acote el alcance y señale el riesgo residual. Reserve las capacidades más permisivas (modo agente, código con acceso a red, conectores no confiables) para contextos donde los datos no sean sensibles, y haga visible el riesgo para el usuario en el momento de la decisión — el papel que deben cumplir las etiquetas Elevated Risk.
Por último, manténgalo como una sola capa. Lockdown Mode se apoya sobre el sandboxing, la seguridad de enlaces URL, la monitorización y el RBAC/registros de auditoría empresariales. Nada de eso sustituye el privilegio mínimo en las herramientas ni la revisión humana de las acciones de consecuencias.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Lanzamiento inicial | Anuncio de OpenAI | 2026-02-13 | Lockdown Mode + etiquetas Elevated Risk; Enterprise, Edu, Healthcare, Teachers |
| Despliegue ampliado | The Hacker News / TechCrunch | 2026-06-06 | Personales (Free/Go/Plus/Pro) + Business de autoservicio |
| Mecanismo | Desactivación determinista de capacidades | 2026 | Navegación→solo caché, sin imágenes web, sin deep research, sin modo agente, sin red de Canvas, sin descargas |
| Alcance | Etiquetas Elevated Risk | 2026 | Coherentes en ChatGPT, ChatGPT Atlas, Codex |
| Límite declarado | OpenAI | 2026-06 | «No garantiza que la exfiltración no pueda ocurrir»; excluyente con el Developer Mode |
Es una versión de producto defensiva: no hay nada que parchear. La conclusión accionable es arquitectónica: el prompt injection se contiene más fácilmente eliminando el canal de exfiltración que intentando que el modelo rechace cada instrucción maliciosa — y toda capacidad que deje habilitada es una vía que ha decidido mantener abierta.