sistema: OPERATIVO
← volver a todos los hacks
DATA LEAK MEDIUM NEW

Inversión de prompts: la inferencia LLM distribuida filtra entradas; llega una defensa rigurosa

Los ataques de inversión de prompts recuperan hasta el 88,4 % de los tokens de entrada desde activaciones intermedias. Un artículo enviado el 10 de junio de 2026 propone la primera defensa con garantías formales.

2026-06-12 // 6 min affects: llama-65b, open-weight LLMs, edge-cloud inference, distributed inference platforms

¿Qué es esto?

La inferencia colaborativa reparte un modelo de lenguaje grande entre varias máquinas: un teléfono o un dispositivo edge ejecuta las primeras capas transformer, un servidor en la nube (o un enjambre de GPU voluntarias) ejecuta el resto, y solo las activaciones intermedias viajan por la red. Es una respuesta popular al coste de servir modelos open-weight — y asume, en silencio, que las activaciones pueden compartirse sin riesgo.

Esa suposición es falsa. El ataque de inversión de prompts (PIA), presentado en arXiv:2503.09022 (enviado el 12 de marzo de 2025, revisado el 2 de mayo de 2025), demuestra que un participante malicioso puede reconstruir el prompt original a partir del tensor de activaciones que recibe. En el conjunto de datos Skytrax con Llama-65B, el ataque recupera el 88,4 % de los tokens de entrada incluso invirtiendo el número máximo de capas transformer — donde la mejor línea base anterior solo alcanzaba el 22,8 %. Una línea de trabajo relacionada (arXiv:2503.09291) demostró ataques similares de inferencia de prompts contra frameworks de inferencia LLM distribuida.

El 10 de junio de 2026, un nuevo artículo — Defense Against Prompt Inversion Attacks: An Information-Theoretic Approach for LLM Collaborative Inference (arXiv:2606.11592, Noorbakhsh, Khalili y Sehatbakhsh) — propuso la primera defensa para este escenario con garantías formales en lugar de ruido heurístico.

Cómo funciona

Primero el lado del ataque: invertir activaciones de LLM se consideraba difícil por la fuerte no linealidad de las capas transformer. PIA divide el problema en dos etapas.

# Ataque de inversión de prompts (PIA), pipeline conceptual
[activación recibida]
   → Etapa 1: optimizar un embedding de entrada continuo,
              restringido hacia la matriz de embeddings del modelo
   → Etapa 2: convertir los embeddings en tokens discretos,
              con calibración de activaciones + especulación semántica
   → [prompt reconstruido, ~88 % de precisión por token]

El término de restricción es el truco clave: en lugar de explorar todo el espacio de embeddings, la optimización se atrae hacia puntos que corresponden a tokens reales del vocabulario, lo que hace mucho más precisa la recuperación discreta final.

El lado defensivo: arXiv:2606.11592 formaliza la fuga como información mutua entre la activación transmitida y el prompt de entrada. El marco aprende representaciones que preservan la privacidad minimizando explícitamente esa información mutua, mientras mantiene la utilidad de la tarea bajo restricciones de cómputo y latencia. En concreto, los autores insertan adaptadores de privacidad — cuellos de botella de información de baja dimensión — en el punto de corte, y derivan cotas teóricas sobre el error de reconstrucción del prompt y sobre la precisión por token de la inferencia posterior. Resultados reportados: hasta un 35 % de reducción en el éxito del ataque frente a las defensas existentes, con mejores compromisos privacidad-utilidad-latencia.

Por qué importa

Toda arquitectura que envía activaciones a través de una frontera de confianza hereda este riesgo: descarga edge-cloud, mercados de GPU y cómputo voluntario, servicio multi-parte de modelos open-weight, e incluso algunos diseños «privacy-friendly» que mantienen los embeddings en local pero transmiten salidas de capas. Los prompts que cruzan esos cables incluyen transcripciones de soporte, código fuente y consultas médicas. PIA demuestra que el receptor no necesita el texto en claro — las activaciones son el texto, con ~88 % de precisión por token.

El artículo defensivo de junio de 2026 importa por una segunda razón: documenta que las respuestas existentes — perturbación heurística, ruido ajustado empíricamente — no ofrecían ninguna comprensión teórica de cuánta privacidad compraban realmente. Esa brecha entre «añadimos ruido» y «podemos acotar el error de reconstrucción» es exactamente donde los despliegues en producción acaban quemándose.

Defensas

  • Modele la amenaza de su partición. Trate a cualquier parte que reciba activaciones intermedias como capaz de leer el prompt. Si esa parte no es de confianza, el diseño equivale a enviar texto en claro, salvo prueba en contrario.
  • Prefiera mecanismos con garantías frente al ruido ad hoc. Los adaptadores de privacidad con cuello de botella de información (arXiv:2606.11592) ofrecen reducción medible de información mutua y cotas de error de reconstrucción; la perturbación aleatoria, no.
  • Vigile el punto de corte. La inversión se demostró incluso a través del número máximo de capas — la profundidad por sí sola no protege.
  • Aísle las cargas sensibles. Encamine los prompts regulados o confidenciales a inferencia de una sola parte, o a montajes con aislamiento hardware (TEE) o cifrado de extremo a extremo, en lugar de servicio colaborativo multiinquilino.
  • Evalúe contra el ataque real. Mida cualquier defensa desplegada frente a la inversión en dos etapas tipo PIA, no solo frente a líneas base antiguas de inversión de embeddings que recuperan ~23 % de los tokens.

Estado

ElementoDetalle
Ataque (PIA)arXiv:2503.09022, enviado el 12 de marzo de 2025 (v3 el 2 de mayo de 2025)
Recuperación demostrada88,4 % de precisión por token, Skytrax / Llama-65B, inversión máx. de capas
Ataque relacionadoarXiv:2503.09291, frameworks de inferencia distribuida
DefensaarXiv:2606.11592, enviado el 10 de junio de 2026
Mejora reportadaHasta 35 % de reducción del éxito del ataque vs defensas existentes
Diseños afectadosInferencia particionada edge-cloud, servicio GPU distribuido/voluntario

Sources