← volver a categorías
JAILBREAK
(3)3 hack(s).
JAILBREAK MEDIUM NEW
Sockpuppeting: una sola línea de prefill que hace jailbreak a 11 LLM en producción
Una línea inyectada como último mensaje del asistente induce a 7 de 10 modelos importantes a generar contenido dañino. La defensa no está en el modelo — está en la validación del orden de mensajes a nivel de API.
2026-05-28//8 min
JAILBREAK MEDIUM
Jailbreaks por codificación matemática: cuando la teoría de conjuntos elude la seguridad de los LLM
Un artículo de arXiv publicado el 5 de mayo de 2026 muestra que reformular un prompt dañino como un problema de teoría de conjuntos o de lógica formal evade el entrenamiento de seguridad en el 46–56 % de los intentos sobre ocho modelos frontera — pero solo si un LLM auxiliar realiza la reformulación.
2026-05-25//7 min
JAILBREAK CRITICAL
Many-shot jailbreaking: 256 ejemplos para saltar cualquier alineamiento
Investigadores de Anthropic mostraron que rellenando la ventana de contexto con 256 falsos ejemplos de Q&A se elude el entrenamiento de seguridad. Más contexto = más superficie de ataque.
2026-05-15//6 min