Todos los hacks (75)
Base de datos abierta de ataques, jailbreaks y defensas sobre LLM. Actualizada a diario.
SymJack: una copia de archivo aprobada se convierte en RCE en seis agentes de codificación IA
Adversa AI publicó el 26 de mayo de 2026 un patrón de secuestro por enlace simbólico que transforma una orden de shell aparentemente inocua en sobrescritura de la configuración y RCE en el host, en Claude Code, Cursor, Gemini, Antigravity, Copilot, Grok Build y Codex CLI.
Slopsquatting en 2026: 127 nombres de paquetes que los cinco LLM frontera alucinan de forma idéntica
Una replicación en arXiv del 16 de mayo de 2026 del estudio de slopsquatting de USENIX Security '25 muestra que las tasas de alucinación bajan en los modelos frontera — pero identifica 127 paquetes fantasma inventados de forma idéntica por todos los modelos probados, una superficie de ataque de supply chain independiente del modelo.
Blindfold: jailbreaks a nivel de acción que burlan las defensas semánticas de los LLM embebidos
Un artículo de SenSys '26 (11–14 de mayo de 2026) presenta Blindfold, un marco automatizado que jailbreakea LLM embebidos descomponiendo un objetivo dañino en acciones individualmente inocuas — hasta un 53 % más de éxito de ataque sobre un brazo robótico 6-DoF real.
MCPwn (CVE-2026-33032): un endpoint MCP de nginx-ui entrega el servidor web
Un endpoint MCP sin autenticación en nginx-ui ≤ 2.3.3 permite que cualquier atacante de red reescriba configuraciones de nginx y reinicie el servicio. CVSS 9.8, divulgación pública el 15 de abril de 2026, explotación en entorno real horas después del parche.
Medir la capacidad de exploit de los LLM: ExploitBench, ExploitGym y SCONE-bench
El 22 de mayo de 2026, Anthropic publicó los resultados de Mythos Preview en tres nuevos benchmarks de explotación. Las cifras — y la forma en que los benchmarks descomponen la cadena de exploit — cambian cómo los defensores deben pensar la capacidad ofensiva de frontera.
Proprietary Problems: el estudio de Cisco con 15 modelos cerrados muestra que las puntuaciones de seguridad de un solo turno pasan por alto la mayor parte del riesgo multiturno
Un estudio de Cisco del 27 de mayo de 2026 sobre 15 modelos insignia cerrados de OpenAI, Anthropic, Google, Amazon y xAI mide tasas de éxito de ataque multiturno entre el 7,89 % y el 88,30 %, con brechas de hasta 55 puntos respecto al régimen de un solo turno.
Un millón de servicios de IA expuestos: lo que el escaneo de Intruder encontró realmente
El 5 de mayo de 2026, Intruder publicó los resultados de un escaneo de internet que mapeó un millón de servicios de IA expuestos en dos millones de hosts. El fallo recurrente no es exótico: son las configuraciones por defecto permisivas.
La brecha de seguridad agente-humano: lo que la producción despliega, lo que la investigación estudia
Un paper de UCLA del 23 de mayo de 2026 audita 59 estudios académicos, 21 sistemas de agentes en producción y 26 plugins de seguridad, y constata que las defensas que prefieren los investigadores no tienen ningún despliegue en producción.
El impuesto de autonomía: cómo el entrenamiento defensivo rompe a los agentes LLM
Un artículo de USC del 19 de marzo de 2026 mide el coste del entrenamiento anti-inyección sobre la competencia de los agentes — los modelos defendidos expiran en el 99 % de las tareas, frente al 13 % de la línea base.
MCP necesita un apretón de manos de confianza: admisión atestiguada de servidores de herramientas
Un paper de arXiv del 22 de mayo de 2026 propone mcp-attested — una extensión retrocompatible de MCP que condiciona todo despacho de herramientas a una aserción firmada, una allowlist deny-by-default y un registro de auditoría a prueba de manipulaciones.
WARD: un modelo guardián co-evolucionado que resiste inyecciones de prompt adaptativas en agentes web
Un artículo de la NUS del 14 de mayo de 2026 propone WARD —un modelo guardián entrenado contra un atacante adversarial con memoria— y reporta recall casi perfecto fuera de distribución frente a inyecciones de prompt en agentes web.
MemMorph: secuestro de la selección de herramientas mediante envenenamiento fluido de la memoria
Un artículo de arXiv del 24 de mayo de 2026 (NTU Singapur) muestra que tres entradas plausibles en la memoria bastan para guiar a un agente hacia la herramienta elegida por el atacante con un 85,9 % de éxito — y sobreviven a tres defensas estándar.
SilentRetrieval: envenenamiento fluido de corpus RAG que evade los filtros de perplejidad
Un preprint de arXiv del 27 de mayo de 2026 presenta un ataque en dos etapas que oculta disparadores de secuestro dentro de documentos fluidos, alcanzando 57 % de éxito LLM en Natural Questions y MS MARCO con un solo documento envenenado por consulta.
CISA + Five Eyes publican la primera guía conjunta sobre adopción de IA agéntica
El 1 de mayo de 2026, CISA, NSA y las agencias cibernéticas de los Five Eyes publicaron 'Careful Adoption of Agentic AI Services' — una taxonomía de 5 riesgos y un manual de despliegue que los operadores de infraestructuras críticas deben incorporar a sus marcos de ciberseguridad existentes.
Microsoft Copilot Cowork: skills envenenadas exfiltran archivos de M365 sin aprobación
Divulgación de PromptArmor del 26 de mayo de 2026: cinco líneas de inyección de prompt dentro de una skill de Copilot Cowork bastan para filtrar documentos de SharePoint y OneDrive vía mensajes de Teams auto-aprobados.
CrossMPI: inyección de prompt solo por imagen dirige lo que leen y ven los VLM
Un artículo de la Universidad de Xidian publicado en arXiv el 15 de mayo de 2026 presenta CrossMPI: perturbaciones de imagen imperceptibles que modifican cómo los modelos de visión-lenguaje interpretan tanto la imagen como la solicitud textual del usuario, con un 66 % de éxito promedio en cinco LVLM.
IterInject: cuando un LLM optimiza sus propias inyecciones de prompt indirectas
Un artículo del 23 de mayo de 2026 cierra el bucle payload / diagnosticador / optimizador LLM — el ASR de inyección indirecta sube de casi cero a 33–90 % en InjecAgent y 5 de 9 objetivos caen en Claude Code.
La NSA AISC publica una guía de seguridad para MCP en entornos de IA
El 20 de mayo de 2026, el Artificial Intelligence Security Center de la NSA publicó una hoja informativa de 15 páginas sobre Model Context Protocol: ocho clases de debilidades, cinco incidentes reales y nueve recomendaciones defensivas.
pgAdmin 4 incorpora un panel LLM y hereda un LFI+SSRF clásico (CVE-2026-7817)
pgAdmin 4 9.15 corrige un LFI y un SSRF autenticados en los nuevos endpoints de configuración de la API LLM. La clase de bug tiene cuarenta años; la superficie es nueva.
Envenenar la torre de vigilancia: cuando los copilotos de SOC leen logs controlados por el atacante
Un artículo del 23 de mayo de 2026 formaliza la inyección de prompt por sustrato de logs — contenido adverso colado en campos de logs para dirigir los asistentes LLM de los SOC. La mejor defensa deja pasar un 11,8 % medio de inyecciones.
Contaminación temporal de memoria: deriva longitudinal de seguridad en agentes LLM
Tres preprints de arXiv de abril y mayo de 2026 convergen en un modo de fallo complementario al envenenamiento de memoria — los agentes con memoria derivan hacia lo inseguro a medida que se acumula contexto benigno, con los resúmenes comprimidos actuando como canal de blanqueo.
La presión: los equipos de seguridad del open source bajo la avalancha de vulnerabilidades asistidas por IA
El 26 de mayo de 2026, Daniel Stenberg (curl) publica «The pressure»: más de un informe de seguridad creíble al día, doce CVE confirmadas a mitad de ciclo y un patrón que otros mantenedores ya confirman en paralelo.
El harness del agente es tu frontera real de privilegios — y la mayoría de los equipos la dibuja en el lugar equivocado
Un análisis de Pillar Security del 26 de mayo de 2026 sostiene que el harness — Claude Code, Cursor, Codex — guarda los secretos, herramientas y hooks que el agente nunca ve. Los bugs recientes de harness y la CVE-2026-22708 lo demuestran.
Sockpuppeting: una sola línea de prefill que hace jailbreak a 11 LLM en producción
Una línea inyectada como último mensaje del asistente induce a 7 de 10 modelos importantes a generar contenido dañino. La defensa no está en el modelo — está en la validación del orden de mensajes a nivel de API.
GrafanaGhost: inyección indirecta de prompt encadenada con un bug de parseo de URL para exfiltrar datos de paneles
La divulgación del 7 de abril de 2026 de Noma Security muestra cómo tres defectos modestos — un punto de inyección almacenado, una comprobación startsWith('/') y un bypass de guardarraíl en una sola palabra — se combinan en un canal silencioso de exfiltración a través del asistente IA de Grafana.
Las redes de agentes fallan de otra forma: el red-team de Microsoft, más RAMPART y Clarity
Microsoft Research red-teameó una plataforma interna con más de 100 agentes siempre activos. Cuatro patrones de ataque — propagación, amplificación, captura de confianza, cadenas de proxy — solo aparecen a nivel de red. RAMPART y Clarity, liberados el 20 de mayo de 2026, son la respuesta.
Antigravity find_by_name: cuando una llamada a herramienta nativa salta por encima del Secure Mode
El 20 de abril de 2026, Pillar Security divulgó que un único parámetro sin sanear de la herramienta find_by_name de Google Antigravity convertía la búsqueda de archivos en ejecución de código arbitrario — y eludía el sandbox más estricto del IDE.
El boletín de Apple de mayo de 2026 acredita formalmente a Claude en dos CVE de macOS
El 11 de mayo de 2026, el aviso de seguridad de Apple para macOS Tahoe 26.5 menciona a Claude junto a sus investigadores en dos CVE — un desbordamiento de enteros en el kernel y un use-after-free en WebKit. La investigación de vulnerabilidades asistida por IA ya está en el changelog oficial.
BadHost (CVE-2026-48710): un solo carácter en el encabezado Host elude la autenticación en Starlette, vLLM y FastMCP
X41 D-Sec divulgó el 22 de mayo de 2026 un bypass de autorización crítico en Starlette < 1.0.1. Un único / ? o # en el encabezado HTTP Host desincroniza la ruta enrutada respecto a la ruta que ve el middleware, rompiendo la autorización basada en path en vLLM, LiteLLM, FastMCP y miles de agentes de IA construidos sobre FastAPI.
Bleeding Llama: un fallo de parsing GGUF filtra la memoria del proceso Ollama a atacantes no autenticados
Divulgada públicamente en mayo de 2026 y bautizada Bleeding Llama por Cyera, la CVE-2026-7482 permite a un atacante remoto extraer fragmentos arbitrarios del heap de un servidor Ollama — claves de API, system prompts, conversaciones de otros usuarios — con tres llamadas a la API sin autenticación. El parche silencioso se publicó 2,5 meses antes de la asignación del CVE.
ClaudeBleed: cuando un agente de navegador confía en la extensión equivocada
LayerX reveló ClaudeBleed el 6 de mayo de 2026: un fallo de frontera de confianza permitía que cualquier extensión de Chrome controlara Claude in Chrome y exfiltrara datos de Gmail, Drive y GitHub. El primer parche fue eludido en pocas horas.
Inyección de prompt codificada: cuando los guardrails fallan porque el LLM decodifica el payload
El 4 de mayo de 2026, un tuit escrito en código Morse vació unos 175 000 $ de una billetera cripto controlada por Grok. El incidente es la demostración más cara hasta hoy de un punto ciego defensivo conocido: los filtros por coincidencia de cadenas no ven a través de las codificaciones que el propio modelo decodifica sin problema.
La primera ola de CVE: el descubrimiento asistido por IA reconfigura los volúmenes de divulgación
El análisis de VulnCheck del 14 de mayo de 2026 muestra una subida YTD de +563 % en Chrome, +476 % en GitHub, +180 % en VMware, +170 % en Apache. El giro sistémico tras los titulares de Apple, Mozilla y ActiveMQ ya es visible en las cifras.
Inyección por font-mapping: cuando el peer review se vuelve superficie de ataque para LLM
Un benchmark de arXiv del 25 de mayo de 2026 muestra que payloads ocultos vía font-mapping hacen pasar las revisiones de un LLM de rechazo a aceptación. ICML 2026 ya usó la misma técnica en espejo para rechazar 497 artículos.
Transporte STDIO de MCP: la decisión de diseño que se convirtió en 11 CVE y 200 000 agentes expuestos
El 16 de abril de 2026, OX Security reveló que el transporte STDIO del MCP de Anthropic ejecuta cualquier comando que reciba. Anthropic lo calificó como «por diseño». La cascada ha producido once CVE en seis semanas.
MultiBreak: 10 389 prompts multiturno revelan cómo los jailbreaks conversacionales burlan la alineación de los LLM
Un paper aceptado en ICML 2026, publicado el 3 de mayo, presenta el benchmark multiturno más amplio y diverso hasta la fecha. Registra brechas en la tasa de éxito de ataque de hasta 54 puntos en DeepSeek-R1-7B y 34,6 en GPT-4.1-mini frente al estado del arte previo, y cuantifica cómo una alineación que aguanta en un solo turno se desploma a lo largo de varios.
Cuando los prompts se vuelven shells: de la inyección al RCE en frameworks de agentes
Dos CVE en Microsoft Semantic Kernel y cuatro en CrewAI — todos divulgados a comienzos de 2026 — convierten un único prompt inyectado en ejecución remota de código sobre el host. El patrón es estructural, no accidental.
Teaching Claude Why: cómo Anthropic redujo a cero el desalineamiento agéntico
El 8 de mayo de 2026, el equipo de Alignment Science de Anthropic publicó un estudio que muestra que enseñar a Claude a explicar su razonamiento ético — no solo a demostrarlo — redujo el desalineamiento agéntico del 96 % a menos del 1 %.
Envenenar una vez, explotar para siempre: envenenamiento persistente de la memoria de los agentes LLM (OWASP ASI06)
Un paper de arXiv de abril de 2026 sobre memory poisoning entre sitios y un post de OWASP del 13 de mayo de 2026 sobre el hallazgo MemoryTrap de Cisco contra Claude Code convergen en la misma lección: la memoria del agente es una frontera de confianza.
Asegurar los agentes IA como sistemas operativos: el plano del CISPA
Un artículo del CISPA publicado el 14 de mayo de 2026 traslada décadas de seguridad de SO a los agentes LLM. Probado en cuatro agentes tipo OpenClaw, dos clases de debilidades — exfiltración entre usuarios y salida de red no autorizada — fallan en todos los sistemas.
Ataque ICS asistido por IA: lecciones de la intrusión contra la empresa de aguas de Monterrey
El informe publicado por Dragos en mayo de 2026 sobre Servicios de Agua y Drenaje de Monterrey documenta la primera campaña analizada públicamente en la que un LLM comercial — Claude — fue el operador técnico principal de un intento de intrusión OT.
AudioHijack: audio imperceptible secuestra agentes de voz (IEEE S&P 2026)
Un artículo de IEEE S&P del 16 de abril de 2026 introduce la inyección de prompt auditiva: una reverberación adversaria oculta en el audio empuja a 13 modelos de audio-lenguaje y a agentes de voz comerciales (Mistral AI, Microsoft Azure) a ejecutar acciones no autorizadas con un 79-96% de éxito.
XSS en Discourse AI (CVE-2026-27740): cuando la salida de un LLM se trata como HTML de confianza
Un mensaje reportado, un moderador IA, una llamada a htmlSafe. El plugin Discourse AI trataba la salida del LLM como marcado de confianza, convirtiendo una prompt injection indirecta en XSS contra el staff. Publicado el 19 de marzo de 2026.
La Tríada Letal: cuando un agente lee datos privados, contenido no confiable y puede llamar fuera
El marco de Simon Willison para el único error arquitectónico que convirtió la oleada de exfiltraciones de agentes de IA de 2026 en una clase de vulnerabilidad, no en una coincidencia.
Vulnerabilidades de back-end en MCP: fallos clásicos reaparecen en los puentes IA-bases de datos
La investigación de Akamai del 12 de mayo de 2026 detalla una inyección SQL (CVE-2025-66335), falta de autenticación y entradas sin sanear en tres servidores MCP — Apache Doris, Apache Pinot y Alibaba RDS. El patrón, más que los bugs, es la enseñanza.
OpenAI Daybreak y GPT-5.5-Cyber: un modelo de seguridad permisivo tras una verificación de identidad
Entre el 7 y el 12 de mayo de 2026, OpenAI lanzó Daybreak — una plataforma de ciberseguridad sobre GPT-5.5, Codex Security y un hermano «cyber-permisivo», GPT-5.5-Cyber. El red team de UK AISI ya había encontrado un jailbreak universal en seis horas.
Project Glasswing: Claude Mythos halla más de 10 000 bugs críticos en un mes
La actualización publicada por Anthropic el 26 de mayo de 2026 indica que cerca de 50 socios de Project Glasswing han usado Claude Mythos Preview para identificar más de 10 000 vulnerabilidades de severidad alta o crítica, incluidas 271 fallas latentes parcheadas en Firefox 150.
Semantic Kernel: cuando un prompt se convierte en shell (CVE-2026-25592, CVE-2026-26030)
Microsoft divulgó el 7 de mayo de 2026 dos vulnerabilidades críticas en Semantic Kernel que convierten un único prompt inyectado en ejecución de código a nivel de host. La causa raíz es arquitectónica: el registro de herramientas y eval() se trataron como comodidades, no como fronteras de seguridad.
Disparadores ocultos en SKILL.md: ataques semánticos a la cadena de suministro de los registros de skills
Un artículo de la Universidad de Maryland del 12 de mayo de 2026 muestra que un añadido de 20 tokens en un archivo SKILL.md hace que el agente descubra y seleccione una skill adversaria en el 77–86 % de los ensayos, y elude los escaneos del registro hasta el 100 % de las veces.
Trust No Tool: envenenamiento cognitivo de agentes LLM vía la retroalimentación de herramientas
Un artículo de arXiv del 17 de mayo de 2026 introduce el «envenenamiento cognitivo»: una herramienta maliciosa que se gana la confianza del agente durante muchas interacciones benignas y solo arma la acción final. El objetivo de defensa se desplaza del prompt a la trayectoria.
Usability as a Weapon: cómo una petición de mejora vuelve inseguro el código de un LLM
Un paper de arXiv del 11 de mayo de 2026 demuestra que pedirle a un LLM de código una versión 'más rápida', 'más simple' o con 'una función más' elimina las protecciones de forma silenciosa. UPAttack llega al 98,1 % en GPT-5.2-chat y Gemini-3.
Agents Rule of Two: la respuesta pragmática de Meta al prompt injection
Publicada el 31 de octubre de 2025 por Meta y retomada en la guía de Databricks de mayo de 2026, la Agents Rule of Two limita cada sesión de agente a dos de tres propiedades de riesgo — el marco más accionable mientras el prompt injection siga sin solución.
CVE-2026-35435: los agentes M365 publicados desde Azure AI Foundry confiaron en quien no debían
Divulgada el 7 de mayo de 2026 (CVSS 8.6), una falla de control de acceso en Azure AI Foundry permite a atacantes no autorizados elevar privilegios a través de los agentes publicados en M365. Microsoft reporta explotación activa; hay mitigaciones disponibles antes del parche.
Azure SRE Agent: una verificación de token multi-tenant permitía que extraños observaran sus incidentes (CVE-2026-32173)
Divulgada el 20 de abril de 2026, una mala configuración de app registration en Entra ID sobre el WebSocket /agentHub de Azure SRE Agent permitía a cualquier tenant conectarse y escuchar cada prompt, razonamiento, comando CLI y credencial — en silencio.
Claw Chain: cuatro CVE de OpenClaw que convierten al agente de IA en las manos del atacante
Divulgada el 15 de mayo de 2026, la Claw Chain de Cyera Research encadena cuatro fallos parcheados de OpenClaw — escape de sandbox, fuga de variables de entorno, elevación de privilegios MCP, lectura por symlink — en una toma de control completa del host vía el propio agente.
Comment and Control: un mismo patrón de inyección de prompt, tres agentes filtrando secretos de GitHub Actions
Divulgada el 15 de abril de 2026, la técnica Comment and Control convierte títulos de PR, comentarios de issues y comentarios HTML en canales de exfiltración de credenciales en Claude Code, Gemini CLI y GitHub Copilot Agent.
Integridad contextual: por qué fallan las defensas contra inyección de prompt
Un artículo de mayo de 2026 de Abdelnabi y Bagdasarian relee la inyección de prompt a través de la Integridad Contextual y muestra que separar datos e instrucciones es un error de categoría.
Copirate 365: encadenando inyección de prompt, invocación diferida de herramientas y secuestro de memoria en M365 Copilot (CVE-2026-24299)
El informe DEF CON de Johann Rehberger, publicado en mayo de 2026, recorre una cadena de inyección indirecta de prompt en cinco etapas que convierte un correo trampa en una puerta trasera persistente dentro de Microsoft 365 Copilot. Ya está parcheado, pero los patrones son genéricos.
Inyección indirecta de prompts en la web: tres estudios convergen en abril de 2026
Google, Forcepoint y CISPA midieron de forma independiente la inyección indirecta de prompts en la web abierta en abril de 2026. El balance: más de 15 000 cargas validadas, 32 % de crecimiento y plantillas industrializadas.
LiteLLM CVE-2026-42208: una inyección SQL pre-autenticación en la pasarela de IA
Divulgada el 20 de abril de 2026 y explotada 36 horas después de la publicación del aviso global, CVE-2026-42208 convierte la cabecera Authorization de LiteLLM en una lectura directa sobre cada credencial de proveedor que la pasarela intermedia.
Cuando el atacante es otro LLM: los grandes modelos de razonamiento como jailbreakers autónomos
Un artículo de Nature Communications formalizado en mayo de 2026 muestra cómo cuatro modelos de razonamiento — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini y Qwen3 235B — vulneran las salvaguardas de nueve LLM objetivo con una tasa de éxito global del 97,14 %, partiendo únicamente de un prompt de sistema.
Jailbreaks por codificación matemática: cuando la teoría de conjuntos elude la seguridad de los LLM
Un artículo de arXiv publicado el 5 de mayo de 2026 muestra que reformular un prompt dañino como un problema de teoría de conjuntos o de lógica formal evade el entrenamiento de seguridad en el 46–56 % de los intentos sobre ocho modelos frontera — pero solo si un LLM auxiliar realiza la reformulación.
PraisonAI CVE-2026-44338: un servidor de agentes sin autenticación, explotado en 3h44
Divulgada el 11 de mayo de 2026, CVE-2026-44338 entrega PraisonAI con la autenticación desactivada en duro en su antiguo servidor API. Un escáner CVE-Detector sondeó el endpoint menos de cuatro horas después.
ShareLeak (CVE-2026-21520): el primer CVE asignado por Microsoft a una inyección de prompt en Copilot
Divulgado el 15 de abril de 2026, el informe ShareLeak de Capsule Security describe una inyección indirecta de prompt en Microsoft Copilot Studio. Microsoft asignó CVE-2026-21520 (CVSS 7.5) — un precedente que recalifica la prompt injection como clase de vulnerabilidad rastreada.
ARGUS: una defensa por grafo de procedencia contra la inyección de prompts contextual
Publicado el 5 de mayo de 2026, el paper ARGUS introduce la auditoría por grafo de influencia para agentes LLM — la tasa de éxito de ataque cae del 28,8 % al 3,8 % en un nuevo benchmark.
Jerarquía de instrucciones: entrenar a los LLM para priorizar órdenes privilegiadas
El artículo de OpenAI de 2024 propone una defensa estructural frente a la inyección de prompt: enseñar al modelo que sistema > usuario > salida de herramienta. La idea ya es central en el entrenamiento de GPT-4o-mini y la serie o.
LMDeploy SSRF: cuando un cargador de imágenes secuestra la infraestructura de IA
CVE-2026-33626 convirtió load_image() de LMDeploy en una primitiva SSRF genérica. El primer exploit en producción se observó 12 horas y 31 minutos tras la publicación del aviso.
Secuestro de agentes en localhost: ataques WebSocket cross-origin a agentes de código IA
CVE-2026-44211 (CVSS 9.7), divulgada el 7 de mayo de 2026, demuestra cómo una sola visita a una página maliciosa puede secuestrar un agente de código IA que se ejecuta en el portátil de una persona desarrolladora. La clase de ataque es genérica — y arquitectónica.
Mini Shai-Hulud: el gusano de supply chain que apuntó al stack de tooling de IA
Divulgado entre el 11 y el 18 de mayo de 2026, el gusano Mini Shai-Hulud troyanizó más de 170 paquetes de npm y PyPI — incluidos Mistral AI, Guardrails AI y TanStack — y persiste dentro de Claude Code y VS Code.
El filtrado de salida vence a la autodefensa del modelo: 20 000 ataques adaptativos, un solo superviviente
Publicado el 26 de abril y revisado el 12 de mayo de 2026, un artículo de Swept AI / Michigan enfrentó nueve defensas contra inyección de prompts a un atacante adaptativo. Todas las defensas del lado del modelo terminaron cediendo. El filtrado de salida en la aplicación resistió — cero fugas en 15 000 ataques.
Prompts como shells: cuando la inyección de prompt se convierte en RCE en frameworks de agentes
Dos CVE divulgadas en Microsoft Semantic Kernel el 7 de mayo de 2026 (CVE-2026-25592, CVE-2026-26030) muestran cómo un único prompt inyectado puede pasar del texto a la ejecución remota de código en el host del agente.
ASCII Smuggling: comandos ocultos vía caracteres Unicode Tag
Los caracteres Unicode Tag (U+E0000–U+E007F) son invisibles para los humanos pero interpretados por los LLM. Los atacantes los incrustan en emails, páginas web y PDFs para inyectar comandos silenciosos que secuestran el comportamiento de agentes.
Many-shot jailbreaking: 256 ejemplos para saltar cualquier alineamiento
Investigadores de Anthropic mostraron que rellenando la ventana de contexto con 256 falsos ejemplos de Q&A se elude el entrenamiento de seguridad. Más contexto = más superficie de ataque.
Extracción de system prompt mediante ataques de repetición
Pedirle al modelo que 'repita la palabra poema para siempre' lo hace eventualmente vomitar datos de entrenamiento y system prompts. Documentado en Claude 3, GPT-4 y Gemini.
Sleeper agents: puertas traseras ocultas que sobreviven al entrenamiento de seguridad
Anthropic demostró que modelos entrenados con frases-disparador ocultas retienen el comportamiento backdoor incluso después del entrenamiento RLHF estándar. Las implicaciones para los LLM de pesos abiertos son significativas.