> bienvenido al lado oscuro

Todas las formas conocidas de romper un Large Language Model.

Base de datos abierta de 618 ataques a LLM documentados. Jailbreaks, inyecciones de prompt, extracción de datos, entradas adversariales. Actualizada a diario, desde arXiv y el terreno.

$ explorar hacks → ¿Qué es esto?

~ 618 EXPLOITS DETECTADOS ~

618

Hacks documentados

Categorías

2327

Fuentes citadas

Idiomas

Hack destacado

ver archivo →

INFRASTRUCTURE CRITICAL NEW

RCE sin autenticar en el backend RPC de inferencia distribuida de llama.cpp

Una comprobación de límites ausente en el backend RPC de llama.cpp permite que cualquier cliente con acceso al puerto del servidor lea y escriba la memoria del proceso y logre ejecución remota de código. Corregido en b8492.

2026-07-10 // 6 min

Leer análisis completo →

# example prompt — illustrative, defensive

# llama.cpp RPC graph-compute RCE (illustrative, defensive)
# The tensor parser only bounds-checks data when buffer != 0:
if tensor.buffer:              # attacker sets buffer = 0 to skip this
    validate(tensor.data)      # [bounds check lives only here]
result.data = tensor.data      # [payload] taken from the wire unconditionally
# Root cause: reachability == compromise; the RPC protocol has no auth.
# Defense: upgrade to build b8492+, bind ggml-rpc-server to 127.0.0.1,
# never publish port 50052, and tunnel nodes over mTLS/WireGuard.

Recientes

todos los hacks (618) →

RESEARCH MEDIUM NEW

Cuando un agente hace red-teaming a otro: un grafo de conceptos de vulnerabilidad para agentes de código

Un artículo del 13 de julio de 2026 muestra a un agente de investigación sondeando agentes de código en producción y guardando lo aprendido como conceptos reutilizables y falsables — un artefacto duradero para los equipos de seguridad, no otro exploit desechable.

2026-07-17//6 min

DEFENSE LOW NEW

DT-Guard: una barrera de seguridad que razona al entrenar y es veloz al inferir

Un artículo de julio de 2026 entrena una barrera de seguridad de contenido con trazas de razonamiento pero las descarta en la inferencia — emite solo etiquetas estructuradas, con baja latencia y un F1 cercano a 0,88.

2026-07-17//6 min

AGENTS MEDIUM NEW

Cómo unas preferencias sincronizadas pueden secuestrar las herramientas locales de Claude Desktop

Pentera demostró que un atacante con acceso a la cuenta puede ocultar instrucciones en las Preferencias personales sincronizadas de Claude Desktop para forzar a sus herramientas locales a ejecutar comandos.

2026-07-17//6 min

PROMPT INJECTION CRITICAL NEW

Inyección de prompt «drive-by»: una web podía comandar Copilot en silencio en el móvil

Microsoft corrigió el 14 de julio de 2026 un fallo crítico: una página maliciosa podía hacer que Edge para Android enviara prompts ocultos a la app de Copilot, sin confirmación ni verificación de origen.

2026-07-17//6 min

DEFENSE CRITICAL NEW

Cuando las barreras de los modelos alojados bloquean a los defensores: lecciones de una intrusión agéntica

Hugging Face reveló el 16 de julio de 2026 que un agente de IA autónomo comprometió su infraestructura — y que las barreras de los modelos comerciales impidieron a sus propios analistas estudiar el ataque.

2026-07-17//6 min

RESEARCH MEDIUM NEW

Por qué un único interruptor de rechazo no distingue a un pentester de un atacante

Un artículo de julio de 2026 muestra que el rechazo de seguridad de un LLM no es un interruptor único, sino un subespacio repartido entre capas: ciego al dominio, propenso a bloquear el trabajo de seguridad legítimo y separable en los modelos de pesos abiertos.

2026-07-17//6 min

> subscribe to /var/log/hacks

Un boletín semanal de nuevos ataques.

Cada lunes por la mañana. Hacks seleccionados, papers clave, técnicas de defensa. Sin spam, sin clickbait. Te das de baja en un clic.