sistema: OPERATIVO
← volver a categorías

RESEARCH

(10)

10 hack(s).

RESEARCH MEDIUM NEW

Medir la capacidad de exploit de los LLM: ExploitBench, ExploitGym y SCONE-bench

El 22 de mayo de 2026, Anthropic publicó los resultados de Mythos Preview en tres nuevos benchmarks de explotación. Las cifras — y la forma en que los benchmarks descomponen la cadena de exploit — cambian cómo los defensores deben pensar la capacidad ofensiva de frontera.

2026-05-29//8 min
RESEARCH MEDIUM NEW

Proprietary Problems: el estudio de Cisco con 15 modelos cerrados muestra que las puntuaciones de seguridad de un solo turno pasan por alto la mayor parte del riesgo multiturno

Un estudio de Cisco del 27 de mayo de 2026 sobre 15 modelos insignia cerrados de OpenAI, Anthropic, Google, Amazon y xAI mide tasas de éxito de ataque multiturno entre el 7,89 % y el 88,30 %, con brechas de hasta 55 puntos respecto al régimen de un solo turno.

2026-05-29//8 min
RESEARCH MEDIUM NEW

La brecha de seguridad agente-humano: lo que la producción despliega, lo que la investigación estudia

Un paper de UCLA del 23 de mayo de 2026 audita 59 estudios académicos, 21 sistemas de agentes en producción y 26 plugins de seguridad, y constata que las defensas que prefieren los investigadores no tienen ningún despliegue en producción.

2026-05-29//7 min
RESEARCH MEDIUM NEW

El impuesto de autonomía: cómo el entrenamiento defensivo rompe a los agentes LLM

Un artículo de USC del 19 de marzo de 2026 mide el coste del entrenamiento anti-inyección sobre la competencia de los agentes — los modelos defendidos expiran en el 99 % de las tareas, frente al 13 % de la línea base.

2026-05-29//7 min
RESEARCH MEDIUM

Envenenar la torre de vigilancia: cuando los copilotos de SOC leen logs controlados por el atacante

Un artículo del 23 de mayo de 2026 formaliza la inyección de prompt por sustrato de logs — contenido adverso colado en campos de logs para dirigir los asistentes LLM de los SOC. La mejor defensa deja pasar un 11,8 % medio de inyecciones.

2026-05-28//8 min
RESEARCH MEDIUM

MultiBreak: 10 389 prompts multiturno revelan cómo los jailbreaks conversacionales burlan la alineación de los LLM

Un paper aceptado en ICML 2026, publicado el 3 de mayo, presenta el benchmark multiturno más amplio y diverso hasta la fecha. Registra brechas en la tasa de éxito de ataque de hasta 54 puntos en DeepSeek-R1-7B y 34,6 en GPT-4.1-mini frente al estado del arte previo, y cuantifica cómo una alineación que aguanta en un solo turno se desploma a lo largo de varios.

2026-05-27//8 min
RESEARCH LOW

Teaching Claude Why: cómo Anthropic redujo a cero el desalineamiento agéntico

El 8 de mayo de 2026, el equipo de Alignment Science de Anthropic publicó un estudio que muestra que enseñar a Claude a explicar su razonamiento ético — no solo a demostrarlo — redujo el desalineamiento agéntico del 96 % a menos del 1 %.

2026-05-27//8 min
RESEARCH MEDIUM

Integridad contextual: por qué fallan las defensas contra inyección de prompt

Un artículo de mayo de 2026 de Abdelnabi y Bagdasarian relee la inyección de prompt a través de la Integridad Contextual y muestra que separar datos e instrucciones es un error de categoría.

2026-05-25//7 min
RESEARCH MEDIUM

Cuando el atacante es otro LLM: los grandes modelos de razonamiento como jailbreakers autónomos

Un artículo de Nature Communications formalizado en mayo de 2026 muestra cómo cuatro modelos de razonamiento — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini y Qwen3 235B — vulneran las salvaguardas de nueve LLM objetivo con una tasa de éxito global del 97,14 %, partiendo únicamente de un prompt de sistema.

2026-05-25//7 min
RESEARCH LOW

Sleeper agents: puertas traseras ocultas que sobreviven al entrenamiento de seguridad

Anthropic demostró que modelos entrenados con frases-disparador ocultas retienen el comportamiento backdoor incluso después del entrenamiento RLHF estándar. Las implicaciones para los LLM de pesos abiertos son significativas.

2026-05-03//14 min