← volver a categorías
ADVERSARIAL
(2)2 hack(s).
ADVERSARIAL MEDIUM NEW
SilentRetrieval: envenenamiento fluido de corpus RAG que evade los filtros de perplejidad
Un preprint de arXiv del 27 de mayo de 2026 presenta un ataque en dos etapas que oculta disparadores de secuestro dentro de documentos fluidos, alcanzando 57 % de éxito LLM en Natural Questions y MS MARCO con un solo documento envenenado por consulta.
2026-05-29//7 min
ADVERSARIAL MEDIUM
Usability as a Weapon: cómo una petición de mejora vuelve inseguro el código de un LLM
Un paper de arXiv del 11 de mayo de 2026 demuestra que pedirle a un LLM de código una versión 'más rápida', 'más simple' o con 'una función más' elimina las protecciones de forma silenciosa. UPAttack llega al 98,1 % en GPT-5.2-chat y Gemini-3.
2026-05-26//8 min