ADVERSARIAL MEDIUM NEW

SilentRetrieval: envenenamiento fluido de corpus RAG que evade los filtros de perplejidad

Un preprint de arXiv del 27 de mayo de 2026 presenta un ataque en dos etapas que oculta disparadores de secuestro dentro de documentos fluidos, alcanzando 57 % de éxito LLM en Natural Questions y MS MARCO con un solo documento envenenado por consulta.

2026-05-29 // 7 min affects: rag-pipelines, dense-retrievers, natural-questions-rag, ms-marco-rag, vector-databases

¿De qué se trata?

El 27 de mayo de 2026 se publicó en arXiv el preprint SilentRetrieval: Hijacking Retrieval-Augmented Generation via Semantically-Preserving Adversarial Data Poisoning (arXiv 2605.28074), que propone un ataque de envenenamiento de corpus capaz de sobrevivir a los dos filtros en los que más se apoyan los equipos RAG en producción: la puntuación de recuperación y la detección de anomalías por perplejidad. Los documentos envenenados se leen como texto ordinario, se integran de forma natural en el corpus y solo dirigen al modelo hacia la respuesta elegida por el atacante una vez recuperados.

El artículo extiende una línea de trabajo iniciada con PoisonedRAG en 2024 y continuada con variantes prácticas y de caja negra durante 2025. El ingrediente nuevo es la fluidez: los ataques previos tendían a dejar huellas de perplejidad detectables. SilentRetrieval co-optimiza explícitamente la recuperabilidad y la verosimilitud lingüística, lo que le da relevancia más allá de otro resultado de envenenamiento.

Cómo funciona

El ataque se desarrolla en dos etapas.

Etapa 1 — Coordinated Beam Search (CBS). En lugar de mutar un documento huésped token por token contra un objetivo de similitud de recuperación, CBS busca conjuntamente ediciones de múltiples tokens contra un objetivo combinado que recompensa tanto la similitud semántica con la consulta objetivo como una perplejidad baja bajo un modelo de referencia. El resultado es un documento huésped que sigue siendo recuperable para la consulta objetivo y que se lee con naturalidad.

Etapa 2 — Context-Adaptive Trigger Generation (CATG). Un LLM congelado fusiona después un pequeño “disparador” — la manipulación que el atacante quiere que se siga — dentro del contenido fluido. CATG adapta la redacción del disparador al contexto circundante, de modo que el documento final no muestra las rupturas de estilo típicas de una instrucción inyectada.

Una lectura útil del diseño:

# Dos filtros en los que los defensores suelen confiar — qué hace SilentRetrieval con cada uno

  Filtro de recuperación
    "Descartar documentos cuya similitud con consultas recientes sea sospechosa."
    → CBS mantiene el documento envenenado dentro del top-k para la consulta objetivo
      sin optimizarlo hasta convertirlo en un valor atípico obvio.

  Filtro de perplejidad
    "Descartar documentos cuyo texto superficial sea estadísticamente extraño."
    → CBS está restringido a mantener la perplejidad cerca de la línea base del corpus;
      CATG fusiona el disparador para que la costura no se note.

Cifras reportadas por el artículo, en un escenario de un documento envenenado por consulta sobre Natural Questions y MS MARCO: tasa de aparición en el top-10 de 84,6 % / 81,3 % y tasa de éxito de ataque LLM de 57,5 % / 54,8 %, manteniendo la perplejidad cercana a la línea base. El atacante solo necesita colocar un único documento fluido por consulta objetivo.

Por qué importa

Tres propiedades separan este resultado del titular habitual sobre envenenamiento de corpus.

La primera es el modelo de amenaza. SilentRetrieval no supone acceso a los pesos del recuperador ni al modelo respondedor. El atacante solo necesita poder escribir en el corpus — lo que, en despliegues reales, incluye cualquier fuente que el RAG ingiere automáticamente: wikis, sistemas de tickets, crawls públicos, documentación de terceros, archivos subidos por usuarios, bases de conocimiento de proveedores. Cada uno de esos canales de escritura conlleva ahora un riesgo de integridad significativo.

La segunda es el punto ciego defensivo. Muchas pilas RAG en producción dependen de una combinación de (a) listas blancas de fuentes, (b) puntuación de recuperación por similitud y (c) clasificadores de perplejidad o de “parece inyección” sobre el fragmento recuperado. SilentRetrieval está construido por diseño para sobrevivir a (b) y (c). Las listas blancas ((a)) solo ayudan si cada canal de ingesta está curado, lo que rara vez ocurre en cuanto el sistema toca subidas de usuarios o datos web.

La tercera es el ángulo económico. Un documento envenenado por consulta objetivo basta para superar el 50 % de tasa de éxito en benchmarks estándar. Es una escritura pequeña, repetible y de bajo ruido — exactamente el tipo de contribución que pasa desapercibida entre contenido ordinario.

El ataque cae directamente bajo OWASP LLM04:2025 — Data and Model Poisoning, con solapamiento hacia LLM08:2025 (Vector and Embedding Weaknesses). Es un resultado de investigación, no un 0-day contra un producto nombrado, pero agudiza la pregunta de qué puede confiar realmente el propietario de un corpus RAG sobre su propio índice.

Defensas

Ningún control único elimina esta clase de ataque. La lista corta que se sostiene a mayo de 2026:

Trate el corpus RAG como una frontera de escritura, no solo de lectura. Autentique y registre cada canal de ingesta. Etiquete las entradas con source, ingested_by, ingested_at. El fallo más común en producción es que “el corpus” es en la práctica la unión de una docena de canales de escritura sin un dueño claro.
Puntúe la recuperación según la procedencia, no solo la similitud. Una coincidencia de alta similitud proveniente de una fuente de baja confianza debe penalizarse o ponerse en revisión antes de llegar al contexto del generador.
Defienda en la etapa de respuesta, no solo en la de recuperación. Enfoques como Traceback of Poisoning Attacks to RAG (abril de 2025, actualizado hasta 2026) atribuyen una respuesta generada a documentos recuperados específicos: una respuesta sospechosa permite identificar la fuente que la indujo — útil para la respuesta a incidentes y la limpieza continua del corpus.
Reduzca el apalancamiento de un único documento. Exija corroboración de al menos dos documentos recuperados de buckets de procedencia independientes antes de que el generador trate un hecho como cierto. Las cifras de SilentRetrieval asumen un documento envenenado por consulta: subir el listón a dos fuentes independientes eleva el coste del atacante de forma aproximadamente cuadrática.
Vigile las anomalías condicionadas a la consulta. Un documento que aparece en el top-k para una consulta inusualmente específica o sensible, especialmente cuando hace una semana no habría sido una respuesta natural, merece marcación — incluso cuando su texto superficial es limpio.
Limite el radio de impacto aguas abajo. Las respuestas generadas que disparan llamadas a herramientas o acciones visibles para el usuario no deben heredar confianza plena del corpus. Las mismas ACL por herramienta y confirmaciones humanas que limitan los abusos de agentes limitan los abusos de RAG.

Estado

Elemento	Referencia	Fecha	Notas
Artículo SilentRetrieval	arXiv `2605.28074`	2026-05-27	84,6 %/81,3 % HR@10, 57,5 %/54,8 % ASR-LLM en NQ / MS MARCO
PoisonedRAG (precursor)	arXiv `2402.07867`	2024-02	primer envenenamiento de corpus RAG ampliamente citado
Defensa Traceback	arXiv `2504.21668`	2025-04	atribuye respuestas generadas a documentos recuperados
Categoría	OWASP LLM Top 10 (2025)	2025	LLM04 Data and Model Poisoning + LLM08 Vector and Embedding Weaknesses

El artículo es un resultado de investigación, no un exploit divulgado contra un proveedor nombrado. Su lectura operativa no depende de una pila concreta: cualquier pipeline RAG que acepte contenido de un canal que no controla acaba de añadir una superficie de integridad que el filtrado por perplejidad por sí solo no cubrirá.