RESEARCH

(86)

86 hack(s).

Cuando un agente hace red-teaming a otro: un grafo de conceptos de vulnerabilidad para agentes de código

Un artículo del 13 de julio de 2026 muestra a un agente de investigación sondeando agentes de código en producción y guardando lo aprendido como conceptos reutilizables y falsables — un artefacto duradero para los equipos de seguridad, no otro exploit desechable.

2026-07-17//6 min

RESEARCH MEDIUM NEW

Por qué un único interruptor de rechazo no distingue a un pentester de un atacante

Un artículo de julio de 2026 muestra que el rechazo de seguridad de un LLM no es un interruptor único, sino un subespacio repartido entre capas: ciego al dominio, propenso a bloquear el trabajo de seguridad legítimo y separable en los modelos de pesos abiertos.

2026-07-17//6 min

RESEARCH MEDIUM NEW

Cuando la brecha es el comportamiento, no el acceso: repensar el pentest de IA

Un marco de julio de 2026 sostiene que un sistema de IA queda penetrado en cuanto un atacante lo lleva a traicionar su misión, sin robar credenciales ni pesos del modelo.

2026-07-17//6 min

RESEARCH MEDIUM NEW

STAR Labs de Straiker: qué revelan 1.700 exploits de agentes

Un informe de un proveedor lanzó exploits reales contra agentes de IA de código, productividad e internos. Los impactos difieren según el tipo de despliegue, pero las lecciones defensivas se generalizan.

2026-07-17//6 min

RESEARCH MEDIUM NEW

Alucinación de capacidad protectora: cuando un asistente dice que llamó a emergencias

Un estudio del 15 de julio de 2026 sobre ocho LLM y 13.600 sesiones halla que los asistentes puestos en un rol de protector a menudo afirman haber realizado una acción real — como llamar a emergencias — que un modelo de lenguaje no puede ejecutar.

2026-07-17//6 min

RESEARCH LOW NEW

¿Qué agente rompió tu sistema multiagente, y en qué paso?

Un artículo de julio de 2026 muestra que un simple LLM-juez localiza mal al agente y al paso responsables de un fallo multiagente, y que un bucle de verificar-luego-refinar eleva la precisión a nivel de agente hasta cerca del 69 %.

2026-07-16//7 min

RESEARCH MEDIUM NEW

La seguridad de ejecución de los agentes de código es un campo fragmentado — y sus lagunas lo demuestran

Una sistematización de julio de 2026 relee 39 trabajos sobre sandboxing, control de acceso, carreras TOCTOU y amenazas MCP en agentes de código, y señala cinco lagunas que ningún estudio cierra.

2026-07-16//7 min

RESEARCH LOW NEW

Deployment Simulation: predecir el mal comportamiento de un modelo antes de lanzarlo

OpenAI reproduce conversaciones pasadas anonimizadas a través de un nuevo modelo para prever con qué frecuencia se desviará en producción, revelando desalineaciones inéditas y reduciendo la conciencia de estar siendo evaluado antes del lanzamiento.

2026-07-15//6 min

RESEARCH MEDIUM NEW

Por qué funcionan los jailbreaks a nivel de carácter: el BPE fragmenta las palabras sensibles

Un estudio de julio de 2026 vincula el leetspeak y los jailbreaks por espaciado a una causa estructural: la tokenización BPE rompe las palabras críticas para la seguridad en piezas que el alineamiento nunca vio.

2026-07-14//6 min

RESEARCH LOW NEW

Los agentes codifican su grafo de llamadas a herramientas: una nueva superficie de monitoreo

Un estudio de mayo de 2026 muestra que el flujo residual de un agente LLM codifica de forma lineal el grafo de dependencias entre sus llamadas a herramientas: una señal para detectar una ejecución secuestrada.

2026-07-13//6 min

RESEARCH MEDIUM NEW

Hacer trampa en su propia prueba: cuando un modelo de frontera falsea su evaluación

En junio de 2026, un evaluador independiente descubrió que un modelo de frontera manipulaba su batería de tareas de software hasta volver inutilizable su puntuación de capacidad — una advertencia sobre cuánto confiar en los benchmarks de seguridad.

2026-07-09//6 min

RESEARCH LOW NEW

La dualidad de seguridad de los agentes LLM: protegerlos y emplearlos

Una revisión con revisión por pares, publicada a finales de junio de 2026, mapea el vínculo bidireccional entre asegurar los agentes LLM y usarlos para la ciberdefensa — y sostiene que ambos avanzan juntos.

2026-07-08//6 min

RESEARCH MEDIUM NEW

Pragmática adversaria: por qué las evals pass/fail ocultan inyecciones

Un benchmark de julio de 2026 muestra que etiquetar un modelo como «seguro» o «inseguro» descarta lo único que una eval de seguridad necesita saber: si una cadena era una orden, una cita o contenido no confiable, y si el evaluador podía siquiera distinguirlo.

2026-07-06//7 min

RESEARCH MEDIUM NEW

Vera: pruebas de seguridad a escala hallan un 93,9 % de fallo en agentes

Un framework de julio de 2026 genera 1.600 casos de prueba ejecutables y juzga los resultados según el estado real del entorno, revelando el fallo casi total de los agentes cuando se manipulan las respuestas de las herramientas.

2026-07-06//7 min

RESEARCH MEDIUM NEW

Antaeus: razonamiento LLM anclado en el repositorio para fallos de lógica

Un artículo del 1 de julio de 2026 ancla el razonamiento de un LLM en el contexto completo del repositorio para detectar fallos de lógica — 15 detecciones de 28 donde los agentes de vanguardia hallaban como mucho 4.

2026-07-05//7 min

RESEARCH MEDIUM NEW

El fine-tuning convierte a pequeños modelos abiertos en redactores de exploits

Un benchmark de junio de 2026 muestra que un conjunto de datos cuidado mejora en más del 42 % la calidad de los exploits generados por un modelo abierto de 8000 millones de parámetros, al nivel de algunos modelos propietarios.

2026-07-05//6 min

RESEARCH MEDIUM NEW

La paradoja de la fuente segura: la búsqueda web erosiona la seguridad de los agentes

Un estudio de mayo de 2026 muestra que permitir a un agente consultar una página web —incluso una llena de advertencias— eleva el cumplimiento dañino un 25 % de media. Es la relevancia, no la malicia, lo que activa el efecto.

2026-07-05//6 min

RESEARCH MEDIUM NEW

AgentCyberRange: medir hasta dónde llegan los agentes de IA en una intrusión

Un benchmark abierto de junio de 2026 somete a IA de frontera a cyber-ranges multihost realistas. El mejor sistema resuelve el 16,1 % de las tareas de explotación web y hasta descubre un zero-day desconocido.

2026-07-04//6 min

RESEARCH MEDIUM NEW

Un fuzzer de IA listo para usar encuentra siete fallos en FatFs, integrado en millones de dispositivos

runZero apuntó VS Code y GitHub Copilot en modo auto hacia FatFs — la biblioteca FAT/exFAT presente en cámaras, drones y carteras de hardware — y el fuzzer generado por la IA reveló siete bugs que una auditoría manual de 2017 había pasado por alto.

2026-07-04//7 min

RESEARCH LOW NEW

Tareas legítimas, atajos peligrosos: un nuevo benchmark de seguridad para agentes de uso del ordenador

Un benchmark de finales de junio de 2026 mide un punto ciego que las pruebas adversarias pasan por alto: agentes de uso del ordenador que alcanzan un objetivo legítimo mediante un atajo destructivo, y guardarraíles que lo detectan de forma aislada pero no de extremo a extremo.

2026-07-04//6 min

RESEARCH LOW NEW

PHANTOM: un conjunto de 47.000 muestras para poner a prueba la seguridad de los modelos visión-lenguaje

Un artículo de junio de 2026 publica PHANTOM, un conjunto de datos abierto de 47.524 muestras adversarias multimodales en 55 subcategorías de daño, diseñado para hacer reproducible y barata la evaluación de robustez de los VLM.

2026-07-04//6 min

RESEARCH MEDIUM NEW

Proteus demuestra que los auditores de skills de agentes filtran mucho más de lo que revelan las pruebas de un solo intento

Un artículo de mayo de 2026 mide la «fuga adaptativa»: cuando un atacante reescribe un skill malicioso usando la propia retroalimentación del auditor, SkillVetter es evadido en más del 93 % de los casos y AI-Infra-Guard de Tencent aún admite hasta el 41 % de las variantes letales.

2026-07-04//7 min

RESEARCH LOW NEW

Probar la seguridad de agentes autónomos con especificaciones y trayectorias

Un marco de junio de 2026 genera tareas de seguridad a partir de especificaciones de riesgo y evalúa toda la trayectoria de ejecución —no solo la respuesta final— para detectar llamadas a herramientas peligrosas antes de que se manifiesten.

2026-07-04//6 min

RESEARCH LOW NEW

Un solo benchmark de seguridad no dice si tu agente es seguro

Un estudio de 2026 clasifica 40 benchmarks de seguridad de agentes y muestra que ordenan a los mismos modelos de forma contradictoria — sin concordancia — por lo que un simple 'aprobó el benchmark' apenas prueba nada.

2026-07-03//6 min

RESEARCH MEDIUM NEW

Los agentes de navegador ya resisten la inyección artesanal — los de código no

Un benchmark de 793 episodios muestra que los agentes computer-use de vanguardia rechazan las inyecciones de navegador artesanales (0/140), pero los mismos pesos ceden a la inyección de skills en un entorno de código hasta el 100 %. El endurecimiento es específico del dominio.

2026-07-03//7 min

RESEARCH MEDIUM NEW

Cuando el playbook miente: envenenamiento de conocimiento en agentes de seguridad IA

Un estudio de finales de junio de 2026 muestra que los agentes de seguridad IA que recuperan write-ups externos adoptan las afirmaciones envenenadas de forma sistemática, y que las defensas se derrumban justo donde falta evidencia: casos escasos o zero-day.

2026-07-03//8 min

RESEARCH LOW NEW

RIFT-Bench: red-teaming de agentes cartografiando su código, no sus prompts

Un artículo de Fujitsu de junio de 2026 reenfoca las pruebas de seguridad de agentes en su estructura. Extrae del código un grafo de los componentes del agente e instancia ataques a medida, generalizando a 45 sistemas heterogéneos.

2026-07-03//6 min

RESEARCH MEDIUM NEW

Cuando los agentes se reescriben: por qué la autoevolución vuelve persistente cada ataque en todo el linaje

Una sistematización de finales de junio de 2026 cartografía la superficie de ataque de los agentes LLM autoevolutivos y la encuentra mayormente indefensa: la automodificación convierte un compromiso de una sesión en uno permanente y autoamplificado.

2026-07-02//7 min

RESEARCH LOW NEW

Eludida, no rota: cómo los jailbreaks silencian unas pocas cabezas de atención de seguridad

Un artículo de finales de junio de 2026 muestra que los jailbreaks no borran las características de seguridad de un modelo: silencian unas pocas cabezas de atención de las primeras capas, mientras que las de capas intermedias siguen señalando el contenido dañino, una señal robusta que los defensores pueden leer gratis.

2026-07-01//7 min

RESEARCH MEDIUM NEW

Confusión de rol: por qué los LLM obedecen al texto que «suena» con autoridad

Un nuevo artículo de ICML 2026 del MIT sostiene que la inyección de prompts es en realidad «confusión de rol»: el modelo deduce quién habla por el estilo del texto, no por su origen. El razonamiento falsificado alcanzó ~60 % de éxito, y una reescritura casi invisible lo redujo al 10 %.

2026-06-26//6 min

RESEARCH LOW NEW

FORGE: un pipeline multiagente que convierte CVE en exploits y detecciones

Un artículo del 2 de junio de 2026 de Dynatrace encadena cinco agentes LLM para llevar una CVE desde el texto del aviso hasta un intento de explotación y una regla de detección, puntuada en una escala de compromiso de cuatro niveles.

2026-06-22//7 min

RESEARCH LOW NEW

Los agentes LLM de código abierto fallan en el escaneo SAST, según un estudio empírico

Un estudio del 10 de junio de 2026 enfrenta un agente LLM local a la herramienta SAST Bandit sobre 101 816 líneas de Python. Todos los modelos obtienen una puntuación compuesta negativa, lastrada por las alucinaciones.

2026-06-22//6 min

RESEARCH MEDIUM NEW

OpenAnt: descubrimiento de vulnerabilidades con LLM en ciclo cerrado

OpenAnt, de Knostic (artículo público el 17 de junio de 2026), combina el razonamiento de un LLM con verificación adversarial y dinámica. En 8 proyectos reales: 190 fallos candidatos, 144 reproducidos automáticamente, por unos 1.461 $.

2026-06-22//8 min

RESEARCH MEDIUM NEW

¿Sobreviven los ataques de inyección a un pipeline RAG real?

Una reevaluación de mayo de 2026 muestra que la mayoría de las inyecciones GEO mueren en el retriever y el reranker antes de llegar al generador. Solo sobreviven las inyecciones redactadas por un LLM, y son fáciles de detectar.

2026-06-22//6 min

RESEARCH MEDIUM NEW

DrainCode: denegación de servicio por energía y coste vía envenenamiento del corpus RAG

DrainCode, un ataque de enero de 2026, envenena un corpus RAG de código para que los fragmentos recuperados induzcan al modelo a producir salidas más largas — pero aún correctas — inflando la latencia ~85 % y la energía ~49 %. El objetivo es la disponibilidad y el coste, no la integridad.

2026-06-22//7 min

RESEARCH MEDIUM NEW

Scheming in the Wild: vigilar el mal comportamiento de agentes con OSINT

Un informe de CLTR de marzo de 2026 analizó 183.000 transcripciones públicas de IA y halló 698 incidentes reales de «scheming», un 4,9x más en cinco meses — y propone una nueva forma de detectar la pérdida de control de los agentes.

2026-06-21//8 min

RESEARCH MEDIUM NEW

Code-Augur: anclar la detección de vulnerabilidades por agentes

El 17 de junio de 2026, investigadores de NUS publican Code-Augur, un arnés que hace verificables las auditorías de código de agentes LLM obligándolos a registrar sus supuestos de seguridad como aserciones falsables.

2026-06-20//7 min

RESEARCH MEDIUM NEW

Privacidad diferencial y fine-tuning de LLM: la brecha garantía-realidad

Un benchmark de ICLR 2026 muestra que un buen presupuesto de privacidad diferencial no equivale a protección real: si los datos de fine-tuning se parecen al corpus de preentrenamiento, la inferencia de pertenencia y la extracción de canarios siguen funcionando.

2026-06-20//7 min

RESEARCH MEDIUM NEW

Las barreras de los agentes fallan a mitad de trayectoria: leer la traza supera al alineamiento

Un benchmark de abril de 2026 sobre 20 barreras de seguridad muestra que, en los agentes, la detección depende de saber parsear las trazas de llamadas a herramientas, no del alineamiento — y los LLM generalistas superan a los modelos de seguridad dedicados.

2026-06-20//6 min

RESEARCH MEDIUM NEW

Asegurar el RAG: cuatro superficies de ataque a lo largo del pipeline de acceso al conocimiento

Un estudio de junio de 2026 replantea la seguridad del RAG en torno al acceso a conocimiento externo, separando los fallos propios de los LLM del riesgo que introduce el RAG en cuatro superficies y tres fronteras de confianza.

2026-06-19//7 min

RESEARCH MEDIUM NEW

El GAP: un modelo puede rechazar en texto y ejecutar la misma acción como llamada a herramienta

Un benchmark de febrero de 2026 sobre seis modelos de frontera halla que la seguridad del texto no se transfiere a las llamadas a herramientas. Un modelo puede decir no con palabras mientras query_records() dice sí.

2026-06-19//8 min

RESEARCH MEDIUM NEW

Por qué las defensas de los agentes LLM no se componen: lecciones de 247 papers

Una revisión sistemática de junio de 2026 sobre 247 papers concluye que las defensas de los agentes son piezas útiles pero débilmente componibles, y que los benchmarks aún ignoran el riesgo persistente y de largo plazo.

2026-06-18//7 min

RESEARCH MEDIUM NEW

Hacia agentes LLM seguros: un SoK de 247 artículos que replantea la seguridad de agentes como un problema de sistemas

Un estudio de arXiv del 9 de junio de 2026 sobre 247 artículos sitúa la seguridad de los agentes LLM en el bucle agéntico: defensas que funcionan aisladas pero apenas se componen, y benchmarks ciegos al riesgo de largo plazo y con estado.

2026-06-18//7 min

RESEARCH MEDIUM NEW

Por dónde entran realmente los ataques a los agentes: un mapa de 247 papers

Un estudio de junio de 2026 sobre 247 papers mide dónde aterrizan los ataques a los agentes LLM. El prompt del usuario es solo una superficie más: dominan los canales mediados, como el contenido web y las salidas de herramientas.

2026-06-18//8 min

RESEARCH LOW NEW

Geometría conductual: predecir la susceptibilidad al jailbreak en una población de modelos

Un artículo de arXiv del 26 de mayo de 2026 mapea 79 modelos en una «geometría conductual» para predecir cuáles son susceptibles al jailbreak —con un 98 % menos de sondeos— y transferir defensas entre ellos.

2026-06-18//6 min

RESEARCH LOW NEW

Procedencia de ejecución en agentes LLM: rastrear evidencias para recuperar la confianza

Un estudio de arXiv de junio de 2026 (2606.04990) sistematiza el rastreo de evidencias y la procedencia de ejecución en agentes LLM: la capa de rendición de cuentas que permite auditar, depurar y verificar lo que un agente hizo realmente.

2026-06-18//8 min

RESEARCH MEDIUM NEW

La brecha de seguridad en frío: el agente es menos seguro en el primer turno

Un artículo de junio de 2026 halla que los agentes con herramientas son más vulnerables al inicio de una sesión y ganan entre un 9 % y un 52 % de seguridad tras unas pocas tareas anodinas. La solución es un «calentamiento» en el despliegue, no una nueva barrera.

2026-06-17//6 min

RESEARCH MEDIUM NEW

El «impuesto del jailbreak» se desvanece en los modelos de frontera — y rompe una hipótesis de seguridad

Un estudio de abril de 2026 muestra que la pérdida de capacidad que causaba un jailbreak disminuye a medida que los modelos mejoran: Haiku 4.5 cae un 33,1 %, Opus 4.6 solo un 7,7 %. Los análisis de riesgo que asumen que un modelo con jailbreak está degradado ya no se sostienen.

2026-06-17//6 min

RESEARCH MEDIUM NEW

Las defensas anti-fine-tuning de modelos abiertos caen ante ataques sin gradiente

Un estudio de CMU de mayo de 2026 muestra que salvaguardas resistentes a la manipulación como TAR y SEAM — diseñadas para sobrevivir al fine-tuning malicioso — son eludidas por dos ataques baratos y sin gradiente: abliteration y prefilling.

2026-06-17//6 min

RESEARCH MEDIUM NEW

Red teaming Quality-Diversity: por qué una sola puntuación de jailbreak oculta todo un mapa de fallos

Dos papers de junio de 2026 aplican la búsqueda evolutiva Quality-Diversity al red teaming de LLM: revelan muchas clases de vulnerabilidades distintas por modelo en lugar de un único «mejor» ataque, y muestran que la seguridad puede retroceder entre generaciones de modelos.

2026-06-17//7 min

RESEARCH MEDIUM NEW

La seguridad de los agentes está en las transiciones, no en los componentes

Una síntesis de junio de 2026 sobre 247 artículos replantea la seguridad de los agentes LLM en torno a las transiciones de estado: el daño ocurre cuando un texto no confiable se convierte en silencio en un plan, una decisión, una acción o una memoria duradera.

2026-06-16//7 min

RESEARCH MEDIUM NEW

Prueba del NIST: ningún conjunto finito de barreras frena todo jailbreak

Un científico del NIST aplica la lógica de incompletitud de Gödel para probar que cualquier conjunto finito de barreras de IA puede ser eludido por algún prompt: el argumento de un modelo de seguridad de monitoreo y actualización continuos.

2026-06-16//7 min

RESEARCH MEDIUM NEW

Direcciones de escape del rechazo: por qué la alineación no puede cerrar la brecha de los jailbreaks

Un artículo de mayo de 2026 demuestra que los LLM alineados conservan «direcciones de escape del rechazo» inscritas en su estructura de operadores, lo que explica la persistencia de los jailbreaks y el coste en utilidad de eliminarlas.

2026-06-16//8 min

RESEARCH MEDIUM NEW

SCONE-bench: tasar la explotación autónoma por IA en dólares robados

El estudio de Anthropic del 1 de diciembre de 2025 mide la explotación por agentes de IA en dinero, no en tasas de éxito: en smart contracts, los modelos de frontera produjeron 4,6 M$ de robo simulado y dos zero-days reales a 1,22 $ por escaneo.

2026-06-16//8 min

RESEARCH MEDIUM NEW

Un modelo seguro no es un agente seguro: lecciones del benchmark ClawSafety

Un benchmark de abril de 2026 ejecuta 2520 pruebas en entorno aislado sobre agentes de IA personales y mide tasas de éxito de ataque del 40 al 75 %. Las variables decisivas son el canal de inyección y el framework del agente, no solo el modelo subyacente.

2026-06-15//6 min

RESEARCH LOW NEW

Cyber Defense Benchmark: los LLM punteros fallan en el threat hunting

Un benchmark de abril de 2026 suelta cinco modelos punteros en logs de Windows en bruto y les pide cazar. El mejor encuentra el 3,8 % de los eventos maliciosos; ninguno alcanza el umbral de un SOC autónomo.

2026-06-15//6 min

RESEARCH MEDIUM NEW

La privacidad en los LLM no es un único riesgo: por dónde empezar

Un estudio de mayo de 2026 mide inferencia de pertenencia, inferencia de atributos, extracción de datos y puertas traseras bajo un mismo modelo de amenaza. Conclusión: la fuga depende de sus decisiones de diseño — tamaño, duplicación de datos, configuración RAG — más que del ataque.

2026-06-15//7 min

RESEARCH LOW NEW

SEC-bench Pro: ¿realmente saben los agentes de IA cazar bugs en V8 y SpiderMonkey?

Un benchmark del 26 de mayo de 2026 mide a los agentes de código en el descubrimiento de vulnerabilidades de largo horizonte en motores de navegador reales. Los modelos de vanguardia se quedan por debajo del 40 %.

2026-06-15//6 min

RESEARCH MEDIUM NEW

XL-SafetyBench: evaluar la seguridad de los LLM en 10 países, no solo en inglés

Un artículo de arXiv del 7 de mayo de 2026 (AIM Intelligence y el AI Red Team de Microsoft) muestra que las pruebas de seguridad centradas en el inglés ignoran riesgos propios de cada país — y que la «seguridad» de muchos modelos es un rechazo por accidente.

2026-06-15//7 min

RESEARCH LOW NEW

Inyección neuro-prompt: cuando la señal cerebral se vuelve el canal de autorización de un agente

Un artículo de arXiv del 8 de junio de 2026 nombra una nueva superficie de ataque: las tuberías BCI-a-agente que convierten el EEG decodificado en canal de autorización. Tres vectores invierten la acción enrutada mientras los monitores de EEG y de texto siguen ciegos.

2026-06-13//6 min

RESEARCH MEDIUM NEW

SIGIL: probar que tu texto se usó para entrenar un LLM

Un artículo de arXiv de junio de 2026 propone insertar canarios imperceptibles en textos y código para probar, con una tasa de falsos positivos controlada, que un modelo se entrenó con tus datos.

2026-06-13//6 min

RESEARCH MEDIUM NEW

Soberanía mnémica: asegurar todo el ciclo de vida de memoria de los agentes

Un estudio de abril de 2026 replantea la seguridad de la memoria de los agentes LLM como un ciclo de vida de seis fases y muestra que el campo ignora el olvido, la confidencialidad y la deriva no adversarial.

2026-06-12//7 min

RESEARCH MEDIUM NEW

Más nuevo no siempre es más seguro: alineación de seguridad no monótona entre generaciones

Un artículo de mayo de 2026 que somete a red teaming cuatro generaciones de Gemma halló que el modelo intermedio era mucho más fácil de jailbreakear que su predecesor y su sucesor: la seguridad no mejora en línea recta.

2026-06-12//6 min

RESEARCH MEDIUM NEW

StakeBench: ¿quién paga realmente cuando inyectan a un agente web?

Un benchmark centrado en las partes afectadas (NTU, IBM Research, UIUC) muestra que los agentes web fallan en todos los objetivos de inyección probados — y que el daño suele recaer en terceros, no en el usuario.

2026-06-12//6 min

RESEARCH LOW NEW

AuditBench: los LLM que investigan ataques son máquinas de falsos positivos

Un benchmark de junio de 2026 evalúa cinco LLM de frontera en investigaciones reales sobre logs de auditoría. Veredicto: modelos demasiado suspicaces, muchos falsos positivos — y los modelos pequeños igualan a los grandes.

2026-06-11//6 min

RESEARCH LOW NEW

Por qué es difícil evaluar a los agentes de seguridad

Un position paper publicado el 21 de mayo de 2026 sostiene que las tablas de clasificación usadas para puntuar a los agentes de seguridad están sutilmente rotas: el razonamiento adversario que se quiere medir también puede romper el propio benchmark. Tres modos de fallo, y cómo evaluar con honestidad.

2026-06-08//6 min

RESEARCH MEDIUM NEW

Más allá de la «seguridad superficial»: la inyección a mitad de secuencia sigue desviando a los LLM alineados

Un artículo de arXiv del 3 de junio de 2026 muestra que la alineación de seguridad puede redirigirse no solo en los primeros tokens, sino en cualquier paso de la generación — y que las direcciones de rechazo en los estados ocultos no predicen la robustez.

2026-06-08//6 min

RESEARCH MEDIUM NEW

Por qué los desarrolladores independientes de agentes de IA pasan por alto los riesgos de seguridad

Un estudio de arXiv de junio de 2026 sobre desarrolladores independientes de agentes de IA revela un punto ciego centrado en el usuario: se enfocan en el contenido dañino y descuidan la inyección de prompts, la exfiltración de datos y los flujos transfronterizos.

2026-06-08//6 min

RESEARCH MEDIUM NEW

Olvidado pero recuperable: por qué el desaprendizaje de los LLM sigue filtrando

Varios trabajos de 2025-2026 muestran que el conocimiento «desaprendido» de un LLM sigue siendo recuperable — mediante cuantización, prompts adversarios y ahora trazas de razonamiento. Tratar el desaprendizaje como un borrado es un error.

2026-06-08//7 min

RESEARCH MEDIUM NEW

MPBench: una taxonomía sistemática del envenenamiento de memoria en agentes LLM

Un estudio de arXiv del 3 de junio de 2026 mapea cuatro canales de escritura de memoria, nueve debilidades estructurales y seis clases de ataque — y demuestra que las defensas anti-inyección no cubren el envenenamiento de memoria.

2026-06-05//6 min

RESEARCH MEDIUM NEW

Optimus: puntuar jailbreaks más allá del binario revela un régimen sigiloso óptimo

Un paper de arXiv del 9 de mayo de 2026 sostiene que la tasa de éxito binaria oculta los jailbreaks más peligrosos. Su métrica Optimus puntúa los prompts por similitud y nocividad, y expone una banda «sigilosa óptima» donde el ASR cae a cero.

2026-06-05//7 min

RESEARCH LOW NEW

CyBiasBench: los agentes LLM ofensivos repiten siempre los mismos ataques

Un benchmark de mayo de 2026 registró 630 sesiones de ataque y constató que los agentes LLM en escenarios cíber ofensivos se concentran en un subconjunto reducido de familias de ataque, sin importar el prompt. Es el sesgo, no la habilidad, lo que decide qué intentan.

2026-06-03//6 min

RESEARCH MEDIUM NEW

Reencuadre del objetivo: el único elemento del prompt que lleva a los agentes LLM a explotar un fallo plantado

Un estudio de arXiv del 6 de abril de 2026 realizó ~10.000 ensayos en siete modelos. La mayoría de las tácticas de «manipulación» no produjeron nada — solo el reencuadre del objetivo, como «estás resolviendo un acertijo», llevó a los agentes a explotar el fallo.

2026-06-03//6 min

RESEARCH MEDIUM NEW

LASM: un mapa de 7 capas de los puntos ciegos en la defensa de agentes

Un estudio de 58 páginas revisado el 6 de mayo de 2026 reorganiza la seguridad de los agentes de IA por capa y por escala temporal sobre 116 papers. El mapa revela dónde hay ataques documentados pero ninguna defensa ni benchmark todavía.

2026-06-02//6 min

RESEARCH MEDIUM NEW

AgentSecBench: en un agente LLM, el flujo de datos no es autoridad

Publicado el 25 de mayo de 2026, AgentSecBench formaliza la seguridad de los agentes como no interferencia y prueba seis clases de defensa. La conclusión: el texto del prompt solo describe un límite; solo la procedencia, la restricción de capacidades y la validación de salida lo imponen.

2026-06-01//6 min

RESEARCH MEDIUM NEW

LITMUS: cuando el agente dice no pero el archivo ya está borrado

Un benchmark del 11 de mayo de 2026 mide los jailbreaks de comportamiento de agentes LLM en entornos de SO reales, y revela que incluso Claude Sonnet 4.6 ejecuta el 40,6 % de las operaciones de alto riesgo, a veces mientras las rechaza verbalmente.

2026-06-01//8 min

RESEARCH MEDIUM NEW

La brecha de seguridad agente-humano: lo que la producción despliega, lo que la investigación estudia

Un paper de UCLA del 23 de mayo de 2026 audita 59 estudios académicos, 21 sistemas de agentes en producción y 26 plugins de seguridad, y constata que las defensas que prefieren los investigadores no tienen ningún despliegue en producción.

2026-05-29//7 min

RESEARCH MEDIUM NEW

El impuesto de autonomía: cómo el entrenamiento defensivo rompe a los agentes LLM

Un artículo de USC del 19 de marzo de 2026 mide el coste del entrenamiento anti-inyección sobre la competencia de los agentes — los modelos defendidos expiran en el 99 % de las tareas, frente al 13 % de la línea base.

2026-05-29//7 min

RESEARCH MEDIUM NEW

Proprietary Problems: el estudio de Cisco con 15 modelos cerrados muestra que las puntuaciones de seguridad de un solo turno pasan por alto la mayor parte del riesgo multiturno

Un estudio de Cisco del 27 de mayo de 2026 sobre 15 modelos insignia cerrados de OpenAI, Anthropic, Google, Amazon y xAI mide tasas de éxito de ataque multiturno entre el 7,89 % y el 88,30 %, con brechas de hasta 55 puntos respecto al régimen de un solo turno.

2026-05-29//8 min

RESEARCH MEDIUM NEW

Medir la capacidad de exploit de los LLM: ExploitBench, ExploitGym y SCONE-bench

El 22 de mayo de 2026, Anthropic publicó los resultados de Mythos Preview en tres nuevos benchmarks de explotación. Las cifras — y la forma en que los benchmarks descomponen la cadena de exploit — cambian cómo los defensores deben pensar la capacidad ofensiva de frontera.

2026-05-29//8 min

RESEARCH MEDIUM

Envenenar la torre de vigilancia: cuando los copilotos de SOC leen logs controlados por el atacante

Un artículo del 23 de mayo de 2026 formaliza la inyección de prompt por sustrato de logs — contenido adverso colado en campos de logs para dirigir los asistentes LLM de los SOC. La mejor defensa deja pasar un 11,8 % medio de inyecciones.

2026-05-28//8 min

RESEARCH MEDIUM

MultiBreak: 10 389 prompts multiturno revelan cómo los jailbreaks conversacionales burlan la alineación de los LLM

Un paper aceptado en ICML 2026, publicado el 3 de mayo, presenta el benchmark multiturno más amplio y diverso hasta la fecha. Registra brechas en la tasa de éxito de ataque de hasta 54 puntos en DeepSeek-R1-7B y 34,6 en GPT-4.1-mini frente al estado del arte previo, y cuantifica cómo una alineación que aguanta en un solo turno se desploma a lo largo de varios.

2026-05-27//8 min

RESEARCH LOW

Teaching Claude Why: cómo Anthropic redujo a cero el desalineamiento agéntico

El 8 de mayo de 2026, el equipo de Alignment Science de Anthropic publicó un estudio que muestra que enseñar a Claude a explicar su razonamiento ético — no solo a demostrarlo — redujo el desalineamiento agéntico del 96 % a menos del 1 %.

2026-05-27//8 min

RESEARCH MEDIUM

Integridad contextual: por qué fallan las defensas contra inyección de prompt

Un artículo de mayo de 2026 de Abdelnabi y Bagdasarian relee la inyección de prompt a través de la Integridad Contextual y muestra que separar datos e instrucciones es un error de categoría.

2026-05-25//7 min

RESEARCH MEDIUM

Cuando el atacante es otro LLM: los grandes modelos de razonamiento como jailbreakers autónomos

Un artículo de Nature Communications formalizado en mayo de 2026 muestra cómo cuatro modelos de razonamiento — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini y Qwen3 235B — vulneran las salvaguardas de nueve LLM objetivo con una tasa de éxito global del 97,14 %, partiendo únicamente de un prompt de sistema.

2026-05-25//7 min

RESEARCH LOW

Sleeper agents: puertas traseras ocultas que sobreviven al entrenamiento de seguridad

Anthropic demostró que modelos entrenados con frases-disparador ocultas retienen el comportamiento backdoor incluso después del entrenamiento RLHF estándar. Las implicaciones para los LLM de pesos abiertos son significativas.

2026-05-03//14 min