sistema: OPERATIVO
> cat /hacks/*.md | wc -l

Todos los hacks (75)

Base de datos abierta de ataques, jailbreaks y defensas sobre LLM. Actualizada a diario.

AGENTS CRITICAL NEW

SymJack: una copia de archivo aprobada se convierte en RCE en seis agentes de codificación IA

Adversa AI publicó el 26 de mayo de 2026 un patrón de secuestro por enlace simbólico que transforma una orden de shell aparentemente inocua en sobrescritura de la configuración y RCE en el host, en Claude Code, Cursor, Gemini, Antigravity, Copilot, Grok Build y Codex CLI.

2026-05-30//6 min
SUPPLY CHAIN MEDIUM NEW

Slopsquatting en 2026: 127 nombres de paquetes que los cinco LLM frontera alucinan de forma idéntica

Una replicación en arXiv del 16 de mayo de 2026 del estudio de slopsquatting de USENIX Security '25 muestra que las tasas de alucinación bajan en los modelos frontera — pero identifica 127 paquetes fantasma inventados de forma idéntica por todos los modelos probados, una superficie de ataque de supply chain independiente del modelo.

2026-05-29//7 min
AGENTS MEDIUM NEW

Blindfold: jailbreaks a nivel de acción que burlan las defensas semánticas de los LLM embebidos

Un artículo de SenSys '26 (11–14 de mayo de 2026) presenta Blindfold, un marco automatizado que jailbreakea LLM embebidos descomponiendo un objetivo dañino en acciones individualmente inocuas — hasta un 53 % más de éxito de ataque sobre un brazo robótico 6-DoF real.

2026-05-29//7 min
INFRASTRUCTURE CRITICAL NEW

MCPwn (CVE-2026-33032): un endpoint MCP de nginx-ui entrega el servidor web

Un endpoint MCP sin autenticación en nginx-ui ≤ 2.3.3 permite que cualquier atacante de red reescriba configuraciones de nginx y reinicie el servicio. CVSS 9.8, divulgación pública el 15 de abril de 2026, explotación en entorno real horas después del parche.

2026-05-29//7 min
RESEARCH MEDIUM NEW

Medir la capacidad de exploit de los LLM: ExploitBench, ExploitGym y SCONE-bench

El 22 de mayo de 2026, Anthropic publicó los resultados de Mythos Preview en tres nuevos benchmarks de explotación. Las cifras — y la forma en que los benchmarks descomponen la cadena de exploit — cambian cómo los defensores deben pensar la capacidad ofensiva de frontera.

2026-05-29//8 min
RESEARCH MEDIUM NEW

Proprietary Problems: el estudio de Cisco con 15 modelos cerrados muestra que las puntuaciones de seguridad de un solo turno pasan por alto la mayor parte del riesgo multiturno

Un estudio de Cisco del 27 de mayo de 2026 sobre 15 modelos insignia cerrados de OpenAI, Anthropic, Google, Amazon y xAI mide tasas de éxito de ataque multiturno entre el 7,89 % y el 88,30 %, con brechas de hasta 55 puntos respecto al régimen de un solo turno.

2026-05-29//8 min
DEFENSE MEDIUM NEW

Un millón de servicios de IA expuestos: lo que el escaneo de Intruder encontró realmente

El 5 de mayo de 2026, Intruder publicó los resultados de un escaneo de internet que mapeó un millón de servicios de IA expuestos en dos millones de hosts. El fallo recurrente no es exótico: son las configuraciones por defecto permisivas.

2026-05-29//8 min
RESEARCH MEDIUM NEW

La brecha de seguridad agente-humano: lo que la producción despliega, lo que la investigación estudia

Un paper de UCLA del 23 de mayo de 2026 audita 59 estudios académicos, 21 sistemas de agentes en producción y 26 plugins de seguridad, y constata que las defensas que prefieren los investigadores no tienen ningún despliegue en producción.

2026-05-29//7 min
RESEARCH MEDIUM NEW

El impuesto de autonomía: cómo el entrenamiento defensivo rompe a los agentes LLM

Un artículo de USC del 19 de marzo de 2026 mide el coste del entrenamiento anti-inyección sobre la competencia de los agentes — los modelos defendidos expiran en el 99 % de las tareas, frente al 13 % de la línea base.

2026-05-29//7 min
DEFENSE MEDIUM NEW

MCP necesita un apretón de manos de confianza: admisión atestiguada de servidores de herramientas

Un paper de arXiv del 22 de mayo de 2026 propone mcp-attested — una extensión retrocompatible de MCP que condiciona todo despacho de herramientas a una aserción firmada, una allowlist deny-by-default y un registro de auditoría a prueba de manipulaciones.

2026-05-29//7 min
DEFENSE MEDIUM NEW

WARD: un modelo guardián co-evolucionado que resiste inyecciones de prompt adaptativas en agentes web

Un artículo de la NUS del 14 de mayo de 2026 propone WARD —un modelo guardián entrenado contra un atacante adversarial con memoria— y reporta recall casi perfecto fuera de distribución frente a inyecciones de prompt en agentes web.

2026-05-29//8 min
AGENTS MEDIUM NEW

MemMorph: secuestro de la selección de herramientas mediante envenenamiento fluido de la memoria

Un artículo de arXiv del 24 de mayo de 2026 (NTU Singapur) muestra que tres entradas plausibles en la memoria bastan para guiar a un agente hacia la herramienta elegida por el atacante con un 85,9 % de éxito — y sobreviven a tres defensas estándar.

2026-05-29//7 min
ADVERSARIAL MEDIUM NEW

SilentRetrieval: envenenamiento fluido de corpus RAG que evade los filtros de perplejidad

Un preprint de arXiv del 27 de mayo de 2026 presenta un ataque en dos etapas que oculta disparadores de secuestro dentro de documentos fluidos, alcanzando 57 % de éxito LLM en Natural Questions y MS MARCO con un solo documento envenenado por consulta.

2026-05-29//7 min
GOVERNANCE MEDIUM

CISA + Five Eyes publican la primera guía conjunta sobre adopción de IA agéntica

El 1 de mayo de 2026, CISA, NSA y las agencias cibernéticas de los Five Eyes publicaron 'Careful Adoption of Agentic AI Services' — una taxonomía de 5 riesgos y un manual de despliegue que los operadores de infraestructuras críticas deben incorporar a sus marcos de ciberseguridad existentes.

2026-05-28//7 min
AGENTS CRITICAL NEW

Microsoft Copilot Cowork: skills envenenadas exfiltran archivos de M365 sin aprobación

Divulgación de PromptArmor del 26 de mayo de 2026: cinco líneas de inyección de prompt dentro de una skill de Copilot Cowork bastan para filtrar documentos de SharePoint y OneDrive vía mensajes de Teams auto-aprobados.

2026-05-28//8 min
MULTIMODAL MEDIUM

CrossMPI: inyección de prompt solo por imagen dirige lo que leen y ven los VLM

Un artículo de la Universidad de Xidian publicado en arXiv el 15 de mayo de 2026 presenta CrossMPI: perturbaciones de imagen imperceptibles que modifican cómo los modelos de visión-lenguaje interpretan tanto la imagen como la solicitud textual del usuario, con un 66 % de éxito promedio en cinco LVLM.

2026-05-28//7 min
INDIRECT INJECTION MEDIUM NEW

IterInject: cuando un LLM optimiza sus propias inyecciones de prompt indirectas

Un artículo del 23 de mayo de 2026 cierra el bucle payload / diagnosticador / optimizador LLM — el ASR de inyección indirecta sube de casi cero a 33–90 % en InjecAgent y 5 de 9 objetivos caen en Claude Code.

2026-05-28//6 min
GOVERNANCE MEDIUM NEW

La NSA AISC publica una guía de seguridad para MCP en entornos de IA

El 20 de mayo de 2026, el Artificial Intelligence Security Center de la NSA publicó una hoja informativa de 15 páginas sobre Model Context Protocol: ocho clases de debilidades, cinco incidentes reales y nueve recomendaciones defensivas.

2026-05-28//8 min
SUPPLY CHAIN MEDIUM

pgAdmin 4 incorpora un panel LLM y hereda un LFI+SSRF clásico (CVE-2026-7817)

pgAdmin 4 9.15 corrige un LFI y un SSRF autenticados en los nuevos endpoints de configuración de la API LLM. La clase de bug tiene cuarenta años; la superficie es nueva.

2026-05-28//7 min
RESEARCH MEDIUM

Envenenar la torre de vigilancia: cuando los copilotos de SOC leen logs controlados por el atacante

Un artículo del 23 de mayo de 2026 formaliza la inyección de prompt por sustrato de logs — contenido adverso colado en campos de logs para dirigir los asistentes LLM de los SOC. La mejor defensa deja pasar un 11,8 % medio de inyecciones.

2026-05-28//8 min
AGENTS MEDIUM NEW

Contaminación temporal de memoria: deriva longitudinal de seguridad en agentes LLM

Tres preprints de arXiv de abril y mayo de 2026 convergen en un modo de fallo complementario al envenenamiento de memoria — los agentes con memoria derivan hacia lo inseguro a medida que se acumula contexto benigno, con los resúmenes comprimidos actuando como canal de blanqueo.

2026-05-28//8 min
GOVERNANCE MEDIUM NEW

La presión: los equipos de seguridad del open source bajo la avalancha de vulnerabilidades asistidas por IA

El 26 de mayo de 2026, Daniel Stenberg (curl) publica «The pressure»: más de un informe de seguridad creíble al día, doce CVE confirmadas a mitad de ciclo y un patrón que otros mantenedores ya confirman en paralelo.

2026-05-28//8 min
AGENTS MEDIUM NEW

El harness del agente es tu frontera real de privilegios — y la mayoría de los equipos la dibuja en el lugar equivocado

Un análisis de Pillar Security del 26 de mayo de 2026 sostiene que el harness — Claude Code, Cursor, Codex — guarda los secretos, herramientas y hooks que el agente nunca ve. Los bugs recientes de harness y la CVE-2026-22708 lo demuestran.

2026-05-28//8 min
JAILBREAK MEDIUM NEW

Sockpuppeting: una sola línea de prefill que hace jailbreak a 11 LLM en producción

Una línea inyectada como último mensaje del asistente induce a 7 de 10 modelos importantes a generar contenido dañino. La defensa no está en el modelo — está en la validación del orden de mensajes a nivel de API.

2026-05-28//8 min
INDIRECT INJECTION MEDIUM NEW

GrafanaGhost: inyección indirecta de prompt encadenada con un bug de parseo de URL para exfiltrar datos de paneles

La divulgación del 7 de abril de 2026 de Noma Security muestra cómo tres defectos modestos — un punto de inyección almacenado, una comprobación startsWith('/') y un bypass de guardarraíl en una sola palabra — se combinan en un canal silencioso de exfiltración a través del asistente IA de Grafana.

2026-05-28//7 min
AGENTS MEDIUM

Las redes de agentes fallan de otra forma: el red-team de Microsoft, más RAMPART y Clarity

Microsoft Research red-teameó una plataforma interna con más de 100 agentes siempre activos. Cuatro patrones de ataque — propagación, amplificación, captura de confianza, cadenas de proxy — solo aparecen a nivel de red. RAMPART y Clarity, liberados el 20 de mayo de 2026, son la respuesta.

2026-05-27//9 min
AGENTS CRITICAL

Antigravity find_by_name: cuando una llamada a herramienta nativa salta por encima del Secure Mode

El 20 de abril de 2026, Pillar Security divulgó que un único parámetro sin sanear de la herramienta find_by_name de Google Antigravity convertía la búsqueda de archivos en ejecución de código arbitrario — y eludía el sandbox más estricto del IDE.

2026-05-27//8 min
OFFENSIVE AI MEDIUM

El boletín de Apple de mayo de 2026 acredita formalmente a Claude en dos CVE de macOS

El 11 de mayo de 2026, el aviso de seguridad de Apple para macOS Tahoe 26.5 menciona a Claude junto a sus investigadores en dos CVE — un desbordamiento de enteros en el kernel y un use-after-free en WebKit. La investigación de vulnerabilidades asistida por IA ya está en el changelog oficial.

2026-05-27//6 min
INFRASTRUCTURE CRITICAL

BadHost (CVE-2026-48710): un solo carácter en el encabezado Host elude la autenticación en Starlette, vLLM y FastMCP

X41 D-Sec divulgó el 22 de mayo de 2026 un bypass de autorización crítico en Starlette < 1.0.1. Un único / ? o # en el encabezado HTTP Host desincroniza la ruta enrutada respecto a la ruta que ve el middleware, rompiendo la autorización basada en path en vLLM, LiteLLM, FastMCP y miles de agentes de IA construidos sobre FastAPI.

2026-05-27//8 min
DATA LEAK CRITICAL

Bleeding Llama: un fallo de parsing GGUF filtra la memoria del proceso Ollama a atacantes no autenticados

Divulgada públicamente en mayo de 2026 y bautizada Bleeding Llama por Cyera, la CVE-2026-7482 permite a un atacante remoto extraer fragmentos arbitrarios del heap de un servidor Ollama — claves de API, system prompts, conversaciones de otros usuarios — con tres llamadas a la API sin autenticación. El parche silencioso se publicó 2,5 meses antes de la asignación del CVE.

2026-05-27//8 min
AGENTS CRITICAL

ClaudeBleed: cuando un agente de navegador confía en la extensión equivocada

LayerX reveló ClaudeBleed el 6 de mayo de 2026: un fallo de frontera de confianza permitía que cualquier extensión de Chrome controlara Claude in Chrome y exfiltrara datos de Gmail, Drive y GitHub. El primer parche fue eludido en pocas horas.

2026-05-27//7 min
PROMPT INJECTION CRITICAL

Inyección de prompt codificada: cuando los guardrails fallan porque el LLM decodifica el payload

El 4 de mayo de 2026, un tuit escrito en código Morse vació unos 175 000 $ de una billetera cripto controlada por Grok. El incidente es la demostración más cara hasta hoy de un punto ciego defensivo conocido: los filtros por coincidencia de cadenas no ven a través de las codificaciones que el propio modelo decodifica sin problema.

2026-05-27//8 min
OFFENSIVE AI MEDIUM

La primera ola de CVE: el descubrimiento asistido por IA reconfigura los volúmenes de divulgación

El análisis de VulnCheck del 14 de mayo de 2026 muestra una subida YTD de +563 % en Chrome, +476 % en GitHub, +180 % en VMware, +170 % en Apache. El giro sistémico tras los titulares de Apple, Mozilla y ActiveMQ ya es visible en las cifras.

2026-05-27//7 min
PROMPT INJECTION MEDIUM

Inyección por font-mapping: cuando el peer review se vuelve superficie de ataque para LLM

Un benchmark de arXiv del 25 de mayo de 2026 muestra que payloads ocultos vía font-mapping hacen pasar las revisiones de un LLM de rechazo a aceptación. ICML 2026 ya usó la misma técnica en espejo para rechazar 497 artículos.

2026-05-27//8 min
AGENTS CRITICAL

Transporte STDIO de MCP: la decisión de diseño que se convirtió en 11 CVE y 200 000 agentes expuestos

El 16 de abril de 2026, OX Security reveló que el transporte STDIO del MCP de Anthropic ejecuta cualquier comando que reciba. Anthropic lo calificó como «por diseño». La cascada ha producido once CVE en seis semanas.

2026-05-27//8 min
RESEARCH MEDIUM

MultiBreak: 10 389 prompts multiturno revelan cómo los jailbreaks conversacionales burlan la alineación de los LLM

Un paper aceptado en ICML 2026, publicado el 3 de mayo, presenta el benchmark multiturno más amplio y diverso hasta la fecha. Registra brechas en la tasa de éxito de ataque de hasta 54 puntos en DeepSeek-R1-7B y 34,6 en GPT-4.1-mini frente al estado del arte previo, y cuantifica cómo una alineación que aguanta en un solo turno se desploma a lo largo de varios.

2026-05-27//8 min
AGENTS CRITICAL

Cuando los prompts se vuelven shells: de la inyección al RCE en frameworks de agentes

Dos CVE en Microsoft Semantic Kernel y cuatro en CrewAI — todos divulgados a comienzos de 2026 — convierten un único prompt inyectado en ejecución remota de código sobre el host. El patrón es estructural, no accidental.

2026-05-27//8 min
RESEARCH LOW

Teaching Claude Why: cómo Anthropic redujo a cero el desalineamiento agéntico

El 8 de mayo de 2026, el equipo de Alignment Science de Anthropic publicó un estudio que muestra que enseñar a Claude a explicar su razonamiento ético — no solo a demostrarlo — redujo el desalineamiento agéntico del 96 % a menos del 1 %.

2026-05-27//8 min
AGENTS MEDIUM

Envenenar una vez, explotar para siempre: envenenamiento persistente de la memoria de los agentes LLM (OWASP ASI06)

Un paper de arXiv de abril de 2026 sobre memory poisoning entre sitios y un post de OWASP del 13 de mayo de 2026 sobre el hallazgo MemoryTrap de Cisco contra Claude Code convergen en la misma lección: la memoria del agente es una frontera de confianza.

2026-05-26//8 min
AGENTS MEDIUM

Asegurar los agentes IA como sistemas operativos: el plano del CISPA

Un artículo del CISPA publicado el 14 de mayo de 2026 traslada décadas de seguridad de SO a los agentes LLM. Probado en cuatro agentes tipo OpenClaw, dos clases de debilidades — exfiltración entre usuarios y salida de red no autorizada — fallan en todos los sistemas.

2026-05-26//8 min
OFFENSIVE AI CRITICAL

Ataque ICS asistido por IA: lecciones de la intrusión contra la empresa de aguas de Monterrey

El informe publicado por Dragos en mayo de 2026 sobre Servicios de Agua y Drenaje de Monterrey documenta la primera campaña analizada públicamente en la que un LLM comercial — Claude — fue el operador técnico principal de un intento de intrusión OT.

2026-05-26//8 min
MULTIMODAL CRITICAL

AudioHijack: audio imperceptible secuestra agentes de voz (IEEE S&P 2026)

Un artículo de IEEE S&P del 16 de abril de 2026 introduce la inyección de prompt auditiva: una reverberación adversaria oculta en el audio empuja a 13 modelos de audio-lenguaje y a agentes de voz comerciales (Mistral AI, Microsoft Azure) a ejecutar acciones no autorizadas con un 79-96% de éxito.

2026-05-26//7 min
INDIRECT INJECTION MEDIUM

XSS en Discourse AI (CVE-2026-27740): cuando la salida de un LLM se trata como HTML de confianza

Un mensaje reportado, un moderador IA, una llamada a htmlSafe. El plugin Discourse AI trataba la salida del LLM como marcado de confianza, convirtiendo una prompt injection indirecta en XSS contra el staff. Publicado el 19 de marzo de 2026.

2026-05-26//7 min
AGENTS CRITICAL

La Tríada Letal: cuando un agente lee datos privados, contenido no confiable y puede llamar fuera

El marco de Simon Willison para el único error arquitectónico que convirtió la oleada de exfiltraciones de agentes de IA de 2026 en una clase de vulnerabilidad, no en una coincidencia.

2026-05-26//8 min
AGENTS MEDIUM

Vulnerabilidades de back-end en MCP: fallos clásicos reaparecen en los puentes IA-bases de datos

La investigación de Akamai del 12 de mayo de 2026 detalla una inyección SQL (CVE-2025-66335), falta de autenticación y entradas sin sanear en tres servidores MCP — Apache Doris, Apache Pinot y Alibaba RDS. El patrón, más que los bugs, es la enseñanza.

2026-05-26//8 min
OFFENSIVE AI MEDIUM

OpenAI Daybreak y GPT-5.5-Cyber: un modelo de seguridad permisivo tras una verificación de identidad

Entre el 7 y el 12 de mayo de 2026, OpenAI lanzó Daybreak — una plataforma de ciberseguridad sobre GPT-5.5, Codex Security y un hermano «cyber-permisivo», GPT-5.5-Cyber. El red team de UK AISI ya había encontrado un jailbreak universal en seis horas.

2026-05-26//8 min
DEFENSE MEDIUM

Project Glasswing: Claude Mythos halla más de 10 000 bugs críticos en un mes

La actualización publicada por Anthropic el 26 de mayo de 2026 indica que cerca de 50 socios de Project Glasswing han usado Claude Mythos Preview para identificar más de 10 000 vulnerabilidades de severidad alta o crítica, incluidas 271 fallas latentes parcheadas en Firefox 150.

2026-05-26//8 min
AGENTS CRITICAL

Semantic Kernel: cuando un prompt se convierte en shell (CVE-2026-25592, CVE-2026-26030)

Microsoft divulgó el 7 de mayo de 2026 dos vulnerabilidades críticas en Semantic Kernel que convierten un único prompt inyectado en ejecución de código a nivel de host. La causa raíz es arquitectónica: el registro de herramientas y eval() se trataron como comodidades, no como fronteras de seguridad.

2026-05-26//8 min
SUPPLY CHAIN MEDIUM

Disparadores ocultos en SKILL.md: ataques semánticos a la cadena de suministro de los registros de skills

Un artículo de la Universidad de Maryland del 12 de mayo de 2026 muestra que un añadido de 20 tokens en un archivo SKILL.md hace que el agente descubra y seleccione una skill adversaria en el 77–86 % de los ensayos, y elude los escaneos del registro hasta el 100 % de las veces.

2026-05-26//8 min
AGENTS MEDIUM

Trust No Tool: envenenamiento cognitivo de agentes LLM vía la retroalimentación de herramientas

Un artículo de arXiv del 17 de mayo de 2026 introduce el «envenenamiento cognitivo»: una herramienta maliciosa que se gana la confianza del agente durante muchas interacciones benignas y solo arma la acción final. El objetivo de defensa se desplaza del prompt a la trayectoria.

2026-05-26//8 min
ADVERSARIAL MEDIUM

Usability as a Weapon: cómo una petición de mejora vuelve inseguro el código de un LLM

Un paper de arXiv del 11 de mayo de 2026 demuestra que pedirle a un LLM de código una versión 'más rápida', 'más simple' o con 'una función más' elimina las protecciones de forma silenciosa. UPAttack llega al 98,1 % en GPT-5.2-chat y Gemini-3.

2026-05-26//8 min
DEFENSE MEDIUM

Agents Rule of Two: la respuesta pragmática de Meta al prompt injection

Publicada el 31 de octubre de 2025 por Meta y retomada en la guía de Databricks de mayo de 2026, la Agents Rule of Two limita cada sesión de agente a dos de tres propiedades de riesgo — el marco más accionable mientras el prompt injection siga sin solución.

2026-05-25//7 min
AGENTS CRITICAL

CVE-2026-35435: los agentes M365 publicados desde Azure AI Foundry confiaron en quien no debían

Divulgada el 7 de mayo de 2026 (CVSS 8.6), una falla de control de acceso en Azure AI Foundry permite a atacantes no autorizados elevar privilegios a través de los agentes publicados en M365. Microsoft reporta explotación activa; hay mitigaciones disponibles antes del parche.

2026-05-25//7 min
AGENTS CRITICAL

Azure SRE Agent: una verificación de token multi-tenant permitía que extraños observaran sus incidentes (CVE-2026-32173)

Divulgada el 20 de abril de 2026, una mala configuración de app registration en Entra ID sobre el WebSocket /agentHub de Azure SRE Agent permitía a cualquier tenant conectarse y escuchar cada prompt, razonamiento, comando CLI y credencial — en silencio.

2026-05-25//8 min
AGENTS CRITICAL

Claw Chain: cuatro CVE de OpenClaw que convierten al agente de IA en las manos del atacante

Divulgada el 15 de mayo de 2026, la Claw Chain de Cyera Research encadena cuatro fallos parcheados de OpenClaw — escape de sandbox, fuga de variables de entorno, elevación de privilegios MCP, lectura por symlink — en una toma de control completa del host vía el propio agente.

2026-05-25//8 min
AGENTS CRITICAL

Comment and Control: un mismo patrón de inyección de prompt, tres agentes filtrando secretos de GitHub Actions

Divulgada el 15 de abril de 2026, la técnica Comment and Control convierte títulos de PR, comentarios de issues y comentarios HTML en canales de exfiltración de credenciales en Claude Code, Gemini CLI y GitHub Copilot Agent.

2026-05-25//8 min
RESEARCH MEDIUM

Integridad contextual: por qué fallan las defensas contra inyección de prompt

Un artículo de mayo de 2026 de Abdelnabi y Bagdasarian relee la inyección de prompt a través de la Integridad Contextual y muestra que separar datos e instrucciones es un error de categoría.

2026-05-25//7 min
PROMPT INJECTION CRITICAL

Copirate 365: encadenando inyección de prompt, invocación diferida de herramientas y secuestro de memoria en M365 Copilot (CVE-2026-24299)

El informe DEF CON de Johann Rehberger, publicado en mayo de 2026, recorre una cadena de inyección indirecta de prompt en cinco etapas que convierte un correo trampa en una puerta trasera persistente dentro de Microsoft 365 Copilot. Ya está parcheado, pero los patrones son genéricos.

2026-05-25//7 min
INDIRECT INJECTION MEDIUM

Inyección indirecta de prompts en la web: tres estudios convergen en abril de 2026

Google, Forcepoint y CISPA midieron de forma independiente la inyección indirecta de prompts en la web abierta en abril de 2026. El balance: más de 15 000 cargas validadas, 32 % de crecimiento y plantillas industrializadas.

2026-05-25//7 min
INFRASTRUCTURE CRITICAL

LiteLLM CVE-2026-42208: una inyección SQL pre-autenticación en la pasarela de IA

Divulgada el 20 de abril de 2026 y explotada 36 horas después de la publicación del aviso global, CVE-2026-42208 convierte la cabecera Authorization de LiteLLM en una lectura directa sobre cada credencial de proveedor que la pasarela intermedia.

2026-05-25//6 min
RESEARCH MEDIUM

Cuando el atacante es otro LLM: los grandes modelos de razonamiento como jailbreakers autónomos

Un artículo de Nature Communications formalizado en mayo de 2026 muestra cómo cuatro modelos de razonamiento — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini y Qwen3 235B — vulneran las salvaguardas de nueve LLM objetivo con una tasa de éxito global del 97,14 %, partiendo únicamente de un prompt de sistema.

2026-05-25//7 min
JAILBREAK MEDIUM

Jailbreaks por codificación matemática: cuando la teoría de conjuntos elude la seguridad de los LLM

Un artículo de arXiv publicado el 5 de mayo de 2026 muestra que reformular un prompt dañino como un problema de teoría de conjuntos o de lógica formal evade el entrenamiento de seguridad en el 46–56 % de los intentos sobre ocho modelos frontera — pero solo si un LLM auxiliar realiza la reformulación.

2026-05-25//7 min
AGENTS CRITICAL

PraisonAI CVE-2026-44338: un servidor de agentes sin autenticación, explotado en 3h44

Divulgada el 11 de mayo de 2026, CVE-2026-44338 entrega PraisonAI con la autenticación desactivada en duro en su antiguo servidor API. Un escáner CVE-Detector sondeó el endpoint menos de cuatro horas después.

2026-05-25//6 min
INDIRECT INJECTION MEDIUM

ShareLeak (CVE-2026-21520): el primer CVE asignado por Microsoft a una inyección de prompt en Copilot

Divulgado el 15 de abril de 2026, el informe ShareLeak de Capsule Security describe una inyección indirecta de prompt en Microsoft Copilot Studio. Microsoft asignó CVE-2026-21520 (CVSS 7.5) — un precedente que recalifica la prompt injection como clase de vulnerabilidad rastreada.

2026-05-25//7 min
DEFENSE MEDIUM

ARGUS: una defensa por grafo de procedencia contra la inyección de prompts contextual

Publicado el 5 de mayo de 2026, el paper ARGUS introduce la auditoría por grafo de influencia para agentes LLM — la tasa de éxito de ataque cae del 28,8 % al 3,8 % en un nuevo benchmark.

2026-05-22//8 min
DEFENSE MEDIUM

Jerarquía de instrucciones: entrenar a los LLM para priorizar órdenes privilegiadas

El artículo de OpenAI de 2024 propone una defensa estructural frente a la inyección de prompt: enseñar al modelo que sistema > usuario > salida de herramienta. La idea ya es central en el entrenamiento de GPT-4o-mini y la serie o.

2026-05-22//8 min
INFRASTRUCTURE CRITICAL

LMDeploy SSRF: cuando un cargador de imágenes secuestra la infraestructura de IA

CVE-2026-33626 convirtió load_image() de LMDeploy en una primitiva SSRF genérica. El primer exploit en producción se observó 12 horas y 31 minutos tras la publicación del aviso.

2026-05-22//7 min
AGENTS CRITICAL

Secuestro de agentes en localhost: ataques WebSocket cross-origin a agentes de código IA

CVE-2026-44211 (CVSS 9.7), divulgada el 7 de mayo de 2026, demuestra cómo una sola visita a una página maliciosa puede secuestrar un agente de código IA que se ejecuta en el portátil de una persona desarrolladora. La clase de ataque es genérica — y arquitectónica.

2026-05-22//8 min
SUPPLY CHAIN CRITICAL

Mini Shai-Hulud: el gusano de supply chain que apuntó al stack de tooling de IA

Divulgado entre el 11 y el 18 de mayo de 2026, el gusano Mini Shai-Hulud troyanizó más de 170 paquetes de npm y PyPI — incluidos Mistral AI, Guardrails AI y TanStack — y persiste dentro de Claude Code y VS Code.

2026-05-22//8 min
DEFENSE MEDIUM

El filtrado de salida vence a la autodefensa del modelo: 20 000 ataques adaptativos, un solo superviviente

Publicado el 26 de abril y revisado el 12 de mayo de 2026, un artículo de Swept AI / Michigan enfrentó nueve defensas contra inyección de prompts a un atacante adaptativo. Todas las defensas del lado del modelo terminaron cediendo. El filtrado de salida en la aplicación resistió — cero fugas en 15 000 ataques.

2026-05-22//7 min
AGENTS CRITICAL

Prompts como shells: cuando la inyección de prompt se convierte en RCE en frameworks de agentes

Dos CVE divulgadas en Microsoft Semantic Kernel el 7 de mayo de 2026 (CVE-2026-25592, CVE-2026-26030) muestran cómo un único prompt inyectado puede pasar del texto a la ejecución remota de código en el host del agente.

2026-05-22//8 min
PROMPT INJECTION CRITICAL

ASCII Smuggling: comandos ocultos vía caracteres Unicode Tag

Los caracteres Unicode Tag (U+E0000–U+E007F) son invisibles para los humanos pero interpretados por los LLM. Los atacantes los incrustan en emails, páginas web y PDFs para inyectar comandos silenciosos que secuestran el comportamiento de agentes.

2026-05-19//8 min
JAILBREAK CRITICAL

Many-shot jailbreaking: 256 ejemplos para saltar cualquier alineamiento

Investigadores de Anthropic mostraron que rellenando la ventana de contexto con 256 falsos ejemplos de Q&A se elude el entrenamiento de seguridad. Más contexto = más superficie de ataque.

2026-05-15//6 min
DATA LEAK CRITICAL

Extracción de system prompt mediante ataques de repetición

Pedirle al modelo que 'repita la palabra poema para siempre' lo hace eventualmente vomitar datos de entrenamiento y system prompts. Documentado en Claude 3, GPT-4 y Gemini.

2026-05-10//4 min
RESEARCH LOW

Sleeper agents: puertas traseras ocultas que sobreviven al entrenamiento de seguridad

Anthropic demostró que modelos entrenados con frases-disparador ocultas retienen el comportamiento backdoor incluso después del entrenamiento RLHF estándar. Las implicaciones para los LLM de pesos abiertos son significativas.

2026-05-03//14 min