PROMPT INJECTION MEDIUM NEW

Inyección de prompts en la práctica: ataques ocultos en el cribado de CV con LLM

Un estudio de USENIX Security 2026 sobre 196.682 CV reales halló que cerca del 1 % contiene inyecciones de prompt ocultas, y que más del 90 % son 'inyecciones de datos' invisibles, no las instrucciones explícitas que buscan los detectores actuales.

2026-06-01 // 6 min affects: llm-resume-screening, applicant-tracking-systems, pdf-text-extraction

¿Qué es esto?

El 27 de mayo de 2026, investigadores de Duke, la UNC, UC Berkeley y la plataforma de reclutamiento hireEZ publicaron Measuring Real-World Prompt Injection Attacks in LLM-based Resume Screening (arXiv:2605.28999, que se presentará en USENIX Security 2026). Es, según los autores, la primera medición a gran escala de la inyección de prompts en una aplicación LLM desplegada: no una demostración de laboratorio, sino un recuento de con qué frecuencia ocurre realmente el ataque en producción.

La inyección de prompts encabeza el OWASP LLM Top 10 desde 2023, pero casi toda la evidencia era conceptual o anecdótica. Este estudio cubre ese vacío con datos: alrededor del 1 % de los aproximadamente 196.682 CV reales contenía instrucciones o palabras clave ocultas dirigidas a manipular el cribado automatizado. El modelo de amenaza es mundano y conviene enunciarlo con claridad: el atacante es un candidato que intenta que su propio CV obtenga mejor posición, y la carga útil es invisible para una persona que lee el PDF.

Cómo funciona

El estudio analizó dos conjuntos de datos anonimizados de hireEZ: 83.277 CV de un producto de emparejamiento de candidatos (julio de 2024 – noviembre de 2025) y 113.405 de sistemas empresariales de seguimiento de candidaturas (julio de 2019 – diciembre de 2025). Un Hybrid Cascade Detector sensible al documento (análisis de fuente y color basado en reglas, seguido de verificación por LLM) y un Visual Discrepancy Analyzer (un modelo visión-lenguaje que compara la página renderizada con el texto extraído por la máquina) señalaron el contenido oculto. Ambos ya operan en la cadena de producción de hireEZ.

Las técnicas de ocultación son viejos trucos de tipografía, no exploits novedosos, por lo que aquí no se reproduce ninguna carga útil. Los candidatos incrustan texto que el ojo humano no ve pero que un analizador de PDF extrae: texto blanco sobre fondo blanco (por color), tamaños de fuente de alrededor de 1 pt (por tamaño), texto situado fuera de la zona visible (por posición) o capas de PDF que los analizadores leen pero los renderizadores no dibujan.

El hallazgo principal desmonta los supuestos de la comunidad investigadora. Más del 90 % de las inyecciones detectadas —90,5 % en el conjunto reciente, 95,7 % en el histórico— no son instrucciones en absoluto. Son inyecciones de datos: bloques ocultos de aptitudes, palabras clave y experiencia fabricadas para engañar a la coincidencia por palabras clave y a la similitud de embeddings. Las cargas explícitas tipo «ignore previous instructions», las que obsesionan a los benchmarks, son la minoría.

Esa distribución explica por qué fallan los detectores textuales existentes en esta superficie. El estudio reporta DataSentinel con 87,0 % de exhaustividad pero 0,9 % de precisión (marca casi todo), mientras que PromptArmor y PromptGuard alcanzan 58,3 % y 45,5 % de precisión pero se desploman a 7,0 % y 5,0 % de exhaustividad, porque buscan patrones de instrucción que el 90 % de los ataques reales simplemente no usa. Una lista oculta de palabras clave es semánticamente indistinguible de un texto de CV legítimo; la única señal fiable es la discrepancia visual entre lo que ve una persona y lo que extrae la máquina.

Por qué importa

Es la primera cifra sólida de prevalencia de la inyección de prompts en la práctica, y no es despreciable: cerca de 1 de cada 100 CV, lo que los autores describen como una cota inferior conservadora. La tendencia temporal es el otro indicio. El conjunto de 6,5 años se mantiene plano entre 0,6 y 0,8 % de 2019 a 2023 y luego sube a alrededor del 1,2 % en 2024, justo cuando el cribado por LLM se hizo ampliamente conocido entre los candidatos. Aquí la inyección de prompts se comporta como una conducta social emergente, no como un ruido de fondo fijo.

La lección trasciende la contratación. Un estudio de benchmark complementario, AI Security Beyond Core Domains (arXiv:2512.20164, actualizado el 26 de abril de 2026), midió tasas de éxito de ataque superiores al 80 % para algunos tipos de inyección frente a prompts de cribado de CV, y observó que las defensas habituales en dominios maduros como la revisión de código están sencillamente ausentes en el cribado de CV, la revisión por pares y otras cadenas especializadas. Todo flujo que alimenta a un LLM con documentos no confiables y actúa sobre la salida —CV, facturas, tickets de soporte, envíos científicos— hereda la misma exposición.

Defensas

Valide entre modalidades, no solo el texto. El ataque dominante es invisible para los filtros puramente textuales. Renderice el documento como imagen, extraiga por separado el texto legible por la máquina y marque el contenido que aparece en la extracción pero no en el renderizado visible para la persona. Esta comprobación de discrepancia visual es la señal más eficaz que identifica el estudio.
Elimine o normalice el contenido oculto antes de que el LLM lo vea. Descarte en la ingesta los tamaños de fuente por debajo del umbral (p. ej., menores de 4 pt), el texto cuyo color coincide con el fondo, los elementos fuera de página y las capas de PDF no renderizadas.
No dependa solo de los detectores de patrones de instrucción. Las herramientas ajustadas para «ignore previous instructions» pasan por alto el más del 90 % de los ataques sin instrucción. Trátelas como una capa, no como el control principal.
Prefiera defensas en tiempo de entrenamiento cuando el riesgo es alto. El estudio de benchmark halló que la mitigación por prompt redujo los ataques solo un 10,1 % (con un 12,5 % de falsos rechazos), mientras que un enfoque Foreign Instruction Detection through Separation ajustado con LoRA llegó al 15,4 %, y ambos combinados al 26,3 %: los métodos en entrenamiento superaron a los prompts en inferencia tanto en seguridad como en utilidad. Tenga en cuenta que incluso la mejor reducción combinada es parcial: superponga defensas, no espere que una sola cierre la brecha.
Mantenga el modelo como asesor, no como decisor. Cuando un CV inyectado pueda cambiar una decisión de contratación, el LLM debe mostrar y ordenar, y la persona debe decidir; además, los registros de cribado deberían anotar la discrepancia entre lo extraído y lo visible para fines de auditoría.

Estado

Elemento	Referencia	Fecha	Notas
Estudio de medición publicado	Zhang et al., arXiv:2605.28999	2026-05-27	USENIX Security 2026; ~196.682 CV, ~1 % inyectados
Proporción de inyección de datos	ídem	2026-05-27	90,5 % (reciente) / 95,7 % (histórico) sin instrucción explícita
Tendencia en la práctica	ídem	2019–2025	Estable ~0,6–0,8 %, salto a ~1,2 % en 2024
Comparación de detectores	ídem	2026-05-27	Los detectores generalistas fallan ante la inyección de datos
Benchmark + defensa FIDS	Mu et al., arXiv:2512.20164	2026-04-26	>80 % de ASR en algunos tipos; defensa combinada ~26,3 % de reducción

La conclusión no es que el cribado de CV esté especialmente roto, sino que la inyección de prompts ha pasado en silencio de la prueba de concepto a una conducta real, medible y al alza, y que los detectores diseñados para la versión de manual del ataque no captan la versión que la gente realmente emplea.