Inyección indirecta de prompts en la web: tres estudios convergen en abril de 2026
Google, Forcepoint y CISPA midieron de forma independiente la inyección indirecta de prompts en la web abierta en abril de 2026. El balance: más de 15 000 cargas validadas, 32 % de crecimiento y plantillas industrializadas.
¿De qué se trata?
Tres estudios de medición independientes, publicados a finales de abril de 2026, confirman algo que la comunidad de seguridad sospechaba sin haber podido cuantificarlo: la inyección indirecta de prompts (IPI) ya no es una curiosidad de laboratorio. Hay adversarios sembrando activamente la web abierta con instrucciones dirigidas a los agentes basados en LLM, y la práctica crece lo suficiente como para resultar visible en rastreos a escala continental.
Los tres informes aparecen en menos de cinco días:
- Google Security Team (23 de abril de 2026) — un escaneo de entre 2 y 3 mil millones de páginas rastreadas al mes en blogs, foros y secciones de comentarios, comparando instantáneas de CommonCrawl entre noviembre de 2025 y febrero de 2026.
- Forcepoint X-Labs (24 de abril de 2026) — caza activa de amenazas sobre infraestructura web pública, con telemetría disparada por patrones como
Ignore previous instructionsoIf you are an LLM. - Khodayari, Zhang, Acharya y Pellegrino del CISPA Helmholtz Center (arXiv:2604.27202, 29 de abril de 2026) — estudio empírico académico sobre 1,2 mil millones de URLs distribuidas en 24,8 millones de hosts, que identifica 15,3 K instancias de inyección validadas en 11,7 K páginas.
La convergencia importa más que cada cifra por separado: dos equipos red team corporativos y un grupo académico, con metodologías distintas, observan la misma tendencia.
Cómo funciona
La inyección indirecta es la clase de ataque que Greshake y colegas describieron en 2023: se incrustan instrucciones en contenido que el modelo consumirá luego como dato, y el agente las cumple. Lo que cambia en 2026 es la escala y el realismo de los vectores.
El artículo del CISPA concluye que 54 plantillas de prompt explican cerca del 95 % de los casos detectados. Esa es la firma de una herramienta organizada, no de experimentación aislada. Forcepoint observa de forma independiente «plantillas de inyección compartidas entre varios dominios» y señala una carga ampliamente distribuida que parece operar como sonda de prueba, una manera de identificar qué productos de IA recogen y obedecen texto no confiable antes de desplegar cargas de mayor impacto.
La visibilidad es el otro hallazgo llamativo. Cerca del 70 % de las cargas validadas por CISPA reside en HTML no renderizado: cabeceras, comentarios, metadatos. Del resto, el 87 % está oculto visualmente mediante una de estas tres técnicas, con recuentos aproximados:
# Conjunto de datos CISPA (15,3K cargas validadas, abril de 2026)
HTML no renderizado (cabeceras/comentarios/metadatos) ≈ 70%
visible pero oculto por renderizado:
manipulación de color/contraste 2 397
oclusión (overlays) 1 860
fuera del viewport 1 802
Los vectores visibles se reparten en cuatro objetivos principales:
- Manipulación de reputación (~1,5 K instancias) — instrucciones que piden a los pipelines LLM de búsqueda promocionar un producto, forzar una cita o relegar a un competidor.
- Protección de contenido / anti-scraping (~4 K) — dueños de sitios pidiendo a los modelos rechazar el resumen u omitir contenido.
- Detección de bots de IA (~3 K) — cargas que solicitan al agente revelar su modelo y versión.
- Cargas disruptivas o destructivas — Google documenta ejemplos que instruyen al agente para borrar archivos en la máquina del usuario; Forcepoint aísla cargas con una transacción PayPal completamente especificada, o que enrutan pagos mediados por IA hacia un enlace de donación de Stripe a través de una palabra «amplificadora de persuasión» (
ultrathink).
La eficacia práctica sigue siendo moderada. Los 5 200 experimentos controlados de CISPA, con 13 modelos y cuatro representaciones de página, muestran un cumplimiento que llega al 8 % en entradas de texto plano para modelos pequeños, y baja al 0,2-1,1 % cuando se preservan las pistas estructurales del HTML original. No es despreciable, pero está lejos de ser universal.
Por qué importa
La cifra de +32 % de crecimiento (Google, noviembre de 2025 → febrero de 2026) es el dato titular. Otras tres implicaciones cuentan para quien despliegue funcionalidades LLM.
Primero, la superficie de ataque escala con el privilegio del agente, no con la inteligencia del modelo. La formulación de Forcepoint es exacta: «Una IA de navegador que solo resume es de bajo riesgo. Una IA agéntica capaz de enviar correos, ejecutar comandos de terminal o procesar pagos se convierte en un objetivo de alto impacto.» La misma carga que produce una respuesta cómica frente a un lector pasivo se traduce en una transferencia bancaria frente a un agente sin restricciones.
Segundo, la economía ofensiva se consolida. Plantillas recurrentes y carga-sonda apuntan a herramientas y reconocimiento, no a bromas aisladas. La era del Ignore previous instructions de 2023 deja paso a una IPI industrializada, con la misma curva de maduración que han recorrido el spam SEO, el malvertising y el typosquatting de cadena de suministro.
Tercero, las representaciones estructurales ayudan. Ambos estudios coinciden: pasar al modelo la estructura HTML original —no texto aplanado— reduce el cumplimiento de las instrucciones incrustadas. Encaja con el marco de integridad contextual de Abdelnabi y Bagdasarian (arXiv:2605.17634) y ofrece a los equipos defensores una palanca concreta para optimizar.
Defensas
Estas mediciones no transforman el manual defensivo; afinan sus prioridades.
- Tratar el contenido web como no confiable por defecto. Cualquier agente que consuma páginas recuperadas debe operar bajo la Regla de dos — no combinar nunca en la misma sesión entrada no confiable, acceso a datos privados y capacidad para modificar el estado.
- Preservar las pistas estructurales. Pase al modelo el HTML con sus límites intactos (encabezados, bloques de código, zonas de metadatos) en lugar de aplanarlo a texto plano. Los experimentos del CISPA cuantifican la ganancia: un orden de magnitud menos de cumplimiento.
- Filtrar las técnicas de ocultación antes del retrieval. Renderizar la página y luego exportar solo el DOM visible, eliminando comentarios HTML, etiquetas
meta, elementos fuera de pantalla y texto convisibility:hidden,display:none, contraste casi nulo o tamaño de un píxel. La mayoría de las cargas reales muere en este filtro. - Lista blanca de dominios para flujos sensibles. Si el agente puede actuar sobre pagos, código o datos internos, restrinja el corpus a fuentes conocidas en lugar de la web abierta.
- Vigilar las plantillas de alta señal. Las 54 plantillas que explican el 95 % de las inyecciones son identificables. Un pre-filtro con un clasificador pequeño, o incluso con expresiones regulares sobre los patrones más fuertes (
Ignore previous instructions,If you are an LLM, inyección de etiquetas de rol enmeta), captura la cola a coste prácticamente nulo. - Registrar cada arista contenido-recuperado → acción. Cuando el agente decide actuar, anotar el documento aguas arriba que justifica la acción. Revisar las primeras miles de estas trazas saca a la luz las violaciones de integridad contextual que describen los datos del CISPA.
Por último: asuma que su corpus de pruebas está contaminado. El artículo del CISPA destaca que algunas cargas se dirigen específicamente a flujos de selección de personal y a agentes de soporte al cliente. Si su conjunto red team procede de la web abierta, casi con seguridad contiene IPI activas.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Estudio empírico CISPA | arXiv:2604.27202 | 2026-04-29 | 1,2 mil M de URLs, 24,8 M de hosts, 15,3 K cargas validadas |
| Entrada del blog de Google | security.googleblog.com | 2026-04-23 | +32 % de crecimiento nov. 2025 → feb. 2026 |
| Informe Forcepoint X-Labs | forcepoint.com | 2026-04-24 | Cargas de redirección de pagos, sondas de prueba |
| Síntesis Help Net Security | helpnetsecurity.com | 2026-04-24 | Recapitulación de Google + Forcepoint |
| Resultado conexo sobre integridad contextual | arXiv:2605.17634 | 2026-05-17 | Por qué la separación dato/instrucción es el marco equivocado |
Tres estudios de medición en cinco días que coinciden en dirección y orden de magnitud son una rareza. La web ya no es un corpus pasivo que los agentes LLM puedan consumir con ingenuidad; se está convirtiendo en un adversario activo, y los agentes más expuestos son los que más privilegios concentran.
Sources
- → https://arxiv.org/abs/2604.27202
- → https://arxiv.org/html/2604.27202v1
- → https://www.helpnetsecurity.com/2026/04/24/indirect-prompt-injection-in-the-wild/
- → https://security.googleblog.com/2026/04/ai-threats-in-wild-current-state-of.html
- → https://www.forcepoint.com/blog/x-labs/indirect-prompt-injection-payloads