ADVERSARIAL

(14)

14 hack(s).

Colapsar la aceleración de los LLM: un ataque al speculative decoding

Un artículo de mayo de 2026 muestra que pequeñas perturbaciones de entrada pueden colapsar en silencio la ganancia del speculative decoding, reduciendo el rendimiento sin alterar la salida visible del modelo.

2026-07-16//6 min

ADVERSARIAL MEDIUM NEW

Un solo documento envenenado que secuestra el razonamiento de un modelo

Un artículo para SIGIR '26 muestra que un único documento adverso en un corpus RAG puede llevar a un modelo de razonamiento a la respuesta elegida por el atacante — sin inundación, imitando el estilo de razonamiento del modelo.

2026-07-14//6 min

ADVERSARIAL MEDIUM NEW

Manipular a los revisores de IA solo reescribiendo la forma

No hace falta un prompt oculto para engañar a un revisor LLM. Dos artículos de junio de 2026 muestran que reescribir solo la presentación de un paper — nunca los resultados — infla las puntuaciones de revisión de IA en más de un punto.

2026-07-09//8 min

ADVERSARIAL MEDIUM NEW

Manipulación de opinión a nivel de discurso contra RAG de caja negra

Un artículo de mayo de 2026 muestra cómo un presupuesto de envenenamiento reducido y camuflado, repartido por una red de temas, puede desplazar la postura de un sistema RAG de caja negra en muchas consultas relacionadas, no en una sola.

2026-07-08//7 min

ADVERSARIAL MEDIUM NEW

PRAC: secuestrar la elección de un agente de uso de ordenador vía su atención

Un artículo de Tübingen (abril de 2026) muestra que una sola imagen de producto perturbada de forma imperceptible puede concentrar la atención visual de un agente de uso de ordenador y dirigir el 82 % de sus selecciones, sin tocar nunca su salida.

2026-06-22//6 min

ADVERSARIAL MEDIUM NEW

Cuando el revisor de IA no sabe leer la figura: ataques cross-modales a la revisión por pares

Un artículo de arXiv de junio de 2026 (PaperGuard) muestra que los revisores de IA son vulnerables no solo por el texto, sino por las figuras — la inyección de prompts en caja negra y las perturbaciones de imagen en caja blanca invierten el veredicto.

2026-06-20//6 min

ADVERSARIAL MEDIUM NEW

Rapid Poison: cuando una defensa anti-jailbreak se vuelve superficie de ataque

Un artículo de arXiv del 15 de junio de 2026 muestra que el paso de proliferación de las defensas Rapid Response puede envenenarse a una tasa del 1 %, forzando hasta un 100 % de falsos positivos o un 96 % de falsos negativos en el clasificador.

2026-06-19//8 min

ADVERSARIAL MEDIUM NEW

Black-Hole Attack: envenenar una base de datos vectorial mediante la geometría de los embeddings

Un artículo del 7 de abril de 2026 muestra que unos pocos vectores situados cerca del centroide aparecen hasta en el 99,85 % de los top-10: un envenenamiento de bases vectoriales independiente de la consulta y del modelo.

2026-06-18//6 min

ADVERSARIAL MEDIUM NEW

M3Att: envenenamiento de RAG médico multimodal sin conocer las consultas

Un artículo de mayo de 2026 envenena un RAG médico de imagen-texto sin conocer de antemano las consultas de los usuarios. Perturbaciones de imagen imperceptibles secuestran la recuperación; un texto guiado por la ambigüedad clínica evade la autocorrección del modelo — y las defensas de prefiltrado apenas lo afectan.

2026-06-17//7 min

ADVERSARIAL MEDIUM NEW

CRCP: envenenamiento de corpus RAG que sobrevive al chunking y al reranking

Un artículo de arXiv del 9 de junio de 2026 muestra que muchos ataques de envenenamiento de corpus fallan en silencio tras el reranking, y propone CRCP, una variante "chunk-aware" diseñada para sobrevivir a pipelines RAG realistas. La lección trata de cómo se evalúa, no solo de cómo se defiende.

2026-06-15//6 min

ADVERSARIAL MEDIUM NEW

HPAA: tipografía que el humano lee pero los LLM de moderación pasan por alto

Un artículo del 8 de junio de 2026 presenta los ataques adversarios perceptibles por humanos: texto dañino que sigue siendo evidente para un lector, pero que evade la moderación por LLM mediante manipulación tipográfica.

2026-06-11//5 min

ADVERSARIAL MEDIUM NEW

SlotGCG: la posición del token adverso, no solo su contenido, determina el jailbreak

Un artículo de junio de 2026 muestra que los jailbreaks tipo GCG ganan ~14 % de eficacia cuando los tokens adversos se sitúan en posiciones correlacionadas con la atención, y conservan un 42 % de éxito frente al filtrado de entrada.

2026-06-08//6 min

ADVERSARIAL MEDIUM NEW

SilentRetrieval: envenenamiento fluido de corpus RAG que evade los filtros de perplejidad

Un preprint de arXiv del 27 de mayo de 2026 presenta un ataque en dos etapas que oculta disparadores de secuestro dentro de documentos fluidos, alcanzando 57 % de éxito LLM en Natural Questions y MS MARCO con un solo documento envenenado por consulta.

2026-05-29//7 min

ADVERSARIAL MEDIUM

Usability as a Weapon: cómo una petición de mejora vuelve inseguro el código de un LLM

Un paper de arXiv del 11 de mayo de 2026 demuestra que pedirle a un LLM de código una versión 'más rápida', 'más simple' o con 'una función más' elimina las protecciones de forma silenciosa. UPAttack llega al 98,1 % en GPT-5.2-chat y Gemini-3.

2026-05-26//8 min