DEFENSE

SherAgent: la investigación de ataques con LLM y la confianza que hereda

Un artículo de julio de 2026 coloca un agente LLM en el bucle del SOC para reconstruir ataques a partir de grafos de procedencia. Una ganancia real — y un recordatorio: todo agente que razona sobre registros manipulables hereda una superficie de inyección.

2026-07-17//6 min

Escaneo de secretos con agentes: cuando un LLM vincula una credencial filtrada con lo que abre

Un artículo de investigación de julio de 2026 describe un agente LLM que no solo encuentra credenciales filtradas en documentos, sino que razona sobre el alcance que cada una abre. Una herramienta defensiva con un doble uso evidente.

2026-07-16//6 min

GPT-Red: entrenar un modelo atacante para endurecer a los defensores frente a la inyección

El 15 de julio de 2026, OpenAI describió GPT-Red, un modelo interno de red team entrenado por self-play para hallar inyecciones de prompt. Superó a los humanos 84 % frente a 13 % y luego se usó para robustecer GPT-5.6.

2026-07-16//6 min

Detectar el envenenamiento de memoria de un agente solo con sus logs de herramientas

Un estudio de junio de 2026 muestra que el envenenamiento del canal de memoria deja una huella forense en la trayectoria de llamadas a herramientas de un agente: un patrón «recall antes de send» detectable sin tocar la memoria, los pesos ni el contenido de los mensajes.

2026-07-16//6 min

Probar qué agente produjo un registro, cuando el revendedor es quien lo posee

TRACE, publicado el 9 de julio de 2026, marca la propia trayectoria del agente y sobrevive a un revendedor capaz de borrar y reescribir el registro del que depende la prueba de origen.

2026-07-16//7 min

SingGuard-NSFA: una barrera de seguridad de código abierto pensada para la ejecución de agentes, no solo para el contenido

Ant Group libera una familia de barreras que revisa las solicitudes y acciones de un agente antes de que se ejecuten — 185 escenarios de amenaza, 133 idiomas y ~50 ms de latencia.

2026-07-16//7 min

Por qué el fine-tuning derriba las barreras de seguridad: el efecto de similitud de alineación

Un estudio de ACL 2026 halla que la alineación de seguridad se rompe tras el fine-tuning sobre todo porque los datos de ajuste se parecen a los datos de alineación originales: un problema de diseño aguas arriba.

2026-07-15//7 min

Context bombs: inyección de prompts defensiva contra agentes de IA atacantes

Un estudio de Tracebit de mediados de julio de 2026 oculta cadenas breves que activan las salvaguardas del modelo dentro de secretos señuelo, reduciendo el éxito de acceso admin de cinco agentes de IA ofensivos de alrededor del 57 % al 5 % en un ciber-rango de AWS.

2026-07-15//6 min

El engaño cibernético funciona mejor con atacantes de IA que con humanos

Un estudio de junio de 2026 enfrentó a 21 modelos atacantes con trampas de engaño clásicas: todos pican más que los humanos — y siguen picando incluso tras identificar la trampa.

2026-07-15//6 min

Un cálculo lambda que prueba la resistencia de los agentes a la inyección

Un cálculo formal para agentes de IA modela conversaciones, llamadas a herramientas y ejecución de código como términos de primera clase, y prueba un teorema de no interferencia que muestra cómo el control de flujo de información puede contener la inyección de prompts.

2026-07-15//7 min

Cross-Site Prompting: la amenaza con forma de XSS que acecha a los agentes web

Un artículo de UC Berkeley bautiza el equivalente del XSS para los agentes web —el Cross-Site Prompting— y propone una capa de confinamiento a nivel de sistema que reduce el éxito de los ataques del 85,5 % al 0,7 % sin tocar el sitio.

2026-07-15//7 min

RAGCharacter: rastreo a nivel de carácter de fragmentos envenenados en RAG

Un preprint de mayo de 2026 propone una forense de caja negra, a nivel de carácter, que localiza el fragmento envenenado exacto dentro de un chunk recuperado tras un fallo del RAG, en lugar de poner en cuarentena pasajes enteros.

2026-07-15//6 min

Proteger el contenido de los crawlers agénticos en la capa de compresión

Un artículo de julio de 2026 sostiene que la compresión de contexto — y no el control de acceso — es la capa sin vigilancia donde los agentes de IA reducen el contenido web, y que perturbaciones invisibles pueden sobrevivir a ella para proteger los datos.

2026-07-14//7 min

Cuatro puertas contra los jailbreaks multironda que ningún mensaje aislado delata

Un artículo de julio de 2026 interpone un modelo de supervisión independiente con cuatro puertas — intención, contexto de confianza cero, coherencia entre rondas y riesgo de salida — para atrapar jailbreaks que parecen inocuos mensaje a mensaje.

DEFENSE CRITICAL NEW

GhostLock: un escape de contenedor que rompe la premisa del sandbox de los agentes

Un use-after-free del kernel de Linux de 15 años, divulgado el 8 de julio de 2026, otorga root a un usuario local sin privilegios y escapa de los contenedores — justo la capa de aislamiento sobre la que se apoyan la mayoría de los sandboxes de ejecución de código de los agentes.

2026-07-14//8 min

Tu guardarraíl se delata: identificar las defensas desde fuera

Un artículo de julio de 2026 muestra que un guardarraíl independiente revela su presencia, las categorías que bloquea y si fue él — y no el modelo — quien rechazó, solo a partir de señales HTTP, léxicas y de tiempo.

Impedir que los datos sensibles se filtren a chats de LLM de terceros

Un artículo de julio de 2026 construye un cortafuegos open source del lado del cliente que intercepta los prompts antes de llegar a ChatGPT, Claude o Copilot y bloquea PII, secretos y código propietario.

Filtrar las llamadas de un agente de pentest antes de ejecutarlas: qué debe ver un juez de alcance

Un benchmark de julio de 2026 muestra que un juez LLM barato puede bloquear las llamadas fuera de alcance de un agente ofensivo, pero solo si ve la petición del usuario y no únicamente una política fija.

Auditar los flujos de tokens de un agente antes de los puntos sensibles

Un artículo de julio de 2026 replantea la seguridad de los agentes persistentes en torno a los flujos de tokens en lenguaje natural, inspeccionados en la frontera antes de escribir en memoria o llamar a una herramienta.

Detectar un agente comprometido leyendo sus activaciones, no sus mensajes

Un preprint de julio de 2026 sostiene que vigilar lo que se dicen los sistemas multiagente deja pasar los ataques sigilosos. Leer los estados de activación internos de cada agente detecta el compromiso aunque los mensajes parezcan inofensivos, y repara al agente en lugar de aislarlo.

Grafos de atribución: diagnosticar por qué un jailbreak funciona dentro del modelo

Un artículo de julio de 2026 compara los grafos de cómputo internos de un modelo en prompts seguros y con jailbreak emparejados para hallar los circuitos causales de una evasión, y luego interviene sobre ellos para endurecer el modelo.

2026-07-13//7 min

Las denylists de comandos son la defensa equivocada para los agentes de IA en terminal

Un estudio de Ohio State del 20 de junio de 2026 pasó 1709 denylists de comandos de agentes reales por un detector automático de evasiones: entre el 69 % y el 98,6 % no bloquean las operaciones que dicen impedir.

Las instrucciones del prompt no son una capa de aplicación para agentes de empresa

Un estudio de julio de 2026 muestra que las instrucciones de un prompt no aplican de forma fiable los contratos de salida y traza de un agente de empresa: solo una aplicación en código alrededor del modelo preservó a la vez la seguridad y la utilidad completa.

El agente no puede verificar la autoridad: autorización fuera del modelo

Un artículo de julio de 2026 muestra que el rechazo del modelo es poco fiable —del 38 % al 100 % en 15 modelos— y defiende que la autorización de las llamadas a herramientas viva fuera del agente, ligada a una identidad verificada.

2026-07-13//7 min

Convertir el campo de descripción de MCP en un escudo contra fallos taint-style de los servidores

Un artículo de julio de 2026 halla que los errores taint-style dominan las vulnerabilidades de los servidores MCP y se corrigen con lentitud, y propone reforzar la descripción de la herramienta para que el modelo rechace la llamada peligrosa.

La atención, campo de batalla del envenenamiento RAG: desviarla o leerla

Un solo pasaje envenenado puede secuestrar una respuesta RAG captando la atención del modelo. Nuevos trabajos convierten esa misma atención en señal de detección — y en una forma de aislar los documentos entre sí.

2026-07-09//7 min

AutoSpec: enseñar a las reglas de seguridad de los agentes a corregir sus falsos positivos

Las barreras de seguridad de agentes escritas a mano son demasiado estrictas o demasiado laxas. Un artículo de finales de junio de 2026 hace evolucionar esas reglas a partir de ejemplos etiquetados mediante programación lógica inductiva, reduciendo los falsos positivos hasta un 94 % sin perder auditabilidad.

2026-07-08//7 min

BraveGuard: enseñar a un modelo guardián a vigilar toda la trayectoria de un agente

Un artículo de junio de 2026 muestra que los filtros de seguridad estáticos no detectan el daño de los agentes computer-use, y entrena un modelo guardián con amenazas reales y trazas de ejecución — elevando la detección del 39 % al 82 %.

Windows Execution Containers: aislar los agentes autónomos a nivel del SO

El SDK MXC de Microsoft (junio de 2026) traslada la contención de agentes al propio Windows: aislamiento de proceso y de sesión, identidad por agente y política aplicada en ejecución.

RAG demostrablemente robusto: agregar pasajes para resistir el envenenamiento

Un artículo de mayo de 2026 propone PRA-RAG, una defensa de agregación de la recuperación con cotas teóricas de robustez que reduce la tasa de éxito del envenenamiento hasta el 1 % manteniendo un 71 % de precisión.

Leer la intención de un agente antes de que actúe: sondas pre-acción

Un artículo de junio de 2026 lee dos señales — si hace falta una herramienta y cuán arriesgada es — directamente de las activaciones de un agente antes de la ejecución, convirtiendo los logs a posteriori en una capa de supervisión pre-acción.

AgentFlow: el análisis estático que detecta riesgos prompt-a-herramienta en el código de agentes

Un artículo de julio de 2026 construye un grafo de dependencias para programas de agentes LLM en cinco frameworks, genera una lista de materiales del agente (Agent BOM) y marca 238 riesgos prompt-a-herramienta de tipo taint en código real.

2026-07-07//7 min

AgentLens: detectar pasos peligrosos de un agente de código en sus activaciones

Un artículo de finales de junio de 2026 propone una defensa de caja blanca que lee los estados internos de un agente de código para señalar pasos dañinos en plena tarea y corregirlos mediante un pequeño subespacio de activaciones.

2026-07-07//7 min

Continuidad del estado contextual: verificar la memoria de un agente antes de que actúe

Un artículo de julio de 2026 propone una defensa que recalcula y verifica una huella criptográfica del estado de las herramientas y la memoria de un agente antes de cada consulta, para detectar el envenenamiento de herramientas y memoria que sesga su comportamiento en silencio.

2026-07-07//6 min

Untrusted Content Masking: una defensa demostrable para agentes web

Un artículo de julio de 2026 restaura la frontera de confianza que los agentes web pierden al leer una página renderizada — enmascarando las regiones no confiables del DOM y enrutándolas a un modelo de salida tipada para bloquear la inyección por construcción.

2026-07-07//8 min

Por qué una sonda con AUC 0,998 puede no detectar la inyección de prompts

Un estudio de junio de 2026 muestra que una sonda de estados internos puede alcanzar un AUC de 0,998 al señalar inyección indirecta en agentes «computer-use» mientras aprende artefactos superficiales — y propone controles para distinguir la detección real.

kNNGuard: una barrera de protección sin entrenamiento leída en las activaciones del LLM

Un artículo de julio de 2026 construye una barrera para prompts a partir de 50 ejemplos etiquetados leyendo las activaciones internas del modelo — sin fine-tuning y 2,7x más rápida que el mejor clasificador comparable.

MAGE: una memoria en la sombra que detecta ataques de agentes a largo plazo

Un artículo de mayo de 2026 adapta la idea de la shadow stack para dotar a los agentes LLM de una memoria de seguridad paralela, reduciendo un ataque multironda del 100 % al 8,3 %.

OWASP AISVS 1.0: una checklist verificable para la seguridad de aplicaciones de IA

OWASP publicó a finales de junio de 2026 la primera versión estable de su AI Security Verification Standard — 14 capítulos de requisitos pass/fail que convierten la intención de gobernanza de IA en evidencia, con capítulos dedicados a agentes y a MCP.

SUDP: dejar que un agente actúe con tus credenciales sin llegar a poseerlas

Un protocolo de mayo de 2026 replantea el manejo de secretos por parte de los agentes: en lugar de colocar una credencial reutilizable en el runtime, el agente solo propone una operación que el usuario firma, de un solo uso.

2026-07-06//7 min

AI-Infra-Guard: por qué el red teaming de agentes necesita un método por capa

Un framework publicado el 30 de junio de 2026 sostiene que la superficie de ataque de un agente está estratificada — infraestructura, herramientas, comportamiento, modelo — y ningún método único cubre las cuatro.

2026-07-05//6 min

Frenar los jailbreaks infecciosos en sistemas multiagente con purificación local

En una red de agentes multimodales, una sola imagen manipulada puede propagar un jailbreak de agente en agente hasta comprometer casi todo el sistema. Un artículo de mayo de 2026 propone una cura local, sin entrenamiento.

2026-07-05//8 min

Detener una vulneración antes de que se propague por un sistema multiagente

La mayoría de las defensas multiagente detectan al agente malicioso y lo aíslan a posteriori, cuando el daño ya está hecho. Un artículo de junio de 2026 simula el impacto de cada mensaje antes de propagarlo y reescribe los peligrosos.

2026-07-05//6 min

Zero Trust para agentes: qué corrige el marco de Anthropic y qué no

Publicado a finales de mayo de 2026, el marco Zero Trust de Anthropic replantea la seguridad de los agentes empresariales en torno a la identidad por tarea y la integridad de la memoria — pero Gartner advierte que no basta para agentes de alta autonomía.

AgentWatch: un marco abierto para auditar el comportamiento de los agentes de navegación

Un equipo de UC Berkeley auditó cinco destacados agentes de navegación con IA en cinco dimensiones de riesgo y publicó un marco de puntuación abierto, tolerante a la aleatoriedad, que cualquiera puede ampliar.

Un solo filtro no basta: una defensa por capas para chatbots RAG

Un artículo de mediados de junio de 2026 muestra que los filtros de inyección de una sola etapa dejan pasar un documento envenenado del corpus, y prueba un pipeline de tres capas que reduce el éxito de los ataques del 71 % al 11 %.

Locate-and-Judge: detectar skills de agente maliciosos con la atención

Un artículo de junio de 2026 escanea unos 134.000 skills de agente en tres marketplaces y confirma 131 skills maliciosos en circulación, usando la atención de seguimiento de instrucciones para revelar cargas ocultas en archivos de apariencia inofensiva.

2026-07-04//7 min

MDASH: el descubrimiento de vulnerabilidades con agentes de IA llega a la defensa en producción

El arnés MDASH de Microsoft orquesta más de 100 agentes de IA especializados para hallar, debatir y probar fallos de kernel. Reveló 16 CVE de Windows y logró 88,45 % en CyberGym: la señal defensiva y la de doble uso.

2026-07-04//8 min

Regularización de tokens de seguridad: mantener alineados los LLM ajustados

Un artículo de abril de 2026 muestra que un ajuste fino incluso benigno erosiona los rechazos de un LLM, y propone un regularizador ligero en el espacio de logits que preserva la seguridad sin dañar la precisión.

Dónde se rompe la jerarquía de instrucciones en los modelos de razonamiento

Un artículo de diagnóstico de junio de 2026 descompone los fallos de la jerarquía de instrucciones de los LLM de razonamiento en tres etapas — y demuestra que una autosupervisión sin reentrenamiento repara la mayoría.

2026-07-03//6 min

MemAudit: auditoría forense para hallar memoria de agente envenenada

La mayoría de las defensas intentan bloquear el envenenamiento por adelantado. Un artículo de mayo de 2026 invierte el problema: auditar la memoria a posteriori, rastreando una mala acción hasta las entradas que la causaron.

2026-07-03//6 min

La procedencia a nivel de argumento detiene la inyección donde fallan las defensas por llamada

Un artículo de mayo de 2026 sostiene que la inyección indirecta solo se vuelve peligrosa cuando un dato no confiable vincula un argumento portador de autoridad. PACT verifica la procedencia argumento por argumento.

2026-07-03//8 min

El razonamiento por alineación de tarea supera a la detección de patrones ante la inyección adaptativa

Un artículo de junio de 2026 muestra que los benchmarks estáticos sobrestiman las defensas anti-inyección: un atacante adaptativo eleva la peor tasa de éxito unos 16 puntos. RETA ancla la decisión en la tarea del usuario, no en el texto del atacante.

2026-07-03//8 min

SCOUT: asignación adaptativa de detectores contra la inyección de prompts

Publicado en arXiv en mayo de 2026, SCOUT replantea la defensa contra la inyección de prompts como un problema de enrutamiento por solicitud — reduciendo, según los autores, el éxito de los ataques un 46 % y la latencia un 40 % frente a un juez LLM permanente.

2026-07-03//6 min

TRACE: detectar el envenenamiento de corpus RAG siguiendo la influencia de los tokens

Un artículo de junio de 2026 detecta documentos envenenados en un corpus RAG rastreando qué tokens recuperados dictaron la respuesta — sin clasificador adicional ni un segundo LLM, y de paso revela la respuesta objetivo del atacante.

2026-07-03//7 min

Compartir inteligencia sobre inyección de prompts sin compartir los prompts

Un artículo de SaTML 2026 de Microsoft convierte los prompts de inyección detectados en huellas binarias que preservan la privacidad: un servicio puede alertar a los demás sin exponer el texto de los usuarios.

Cuando la inyección habla el idioma del documento: la brecha de detección por camuflaje

Dos estudios de 2026 muestran que las inyecciones redactadas con la jerga propia de un documento eluden los clasificadores de guarda — Llama Guard 3 no detectó ninguna. Parafrasear el contenido recuperado es la defensa más sólida, pero los resultados varían según el modelo.

2026-07-02//6 min

Arnés frente a modelo: evaluar LLM en detección de fallos de control de acceso

Un benchmark de Semgrep de junio de 2026 sobre detección de IDOR muestra a un modelo open-weight superando a un agente de código frontier con un prompt simple, aunque un arnés dedicado sigue por delante. Lo que deben aprender los defensores.

El blanqueo de memoria derrota las defensas por contenido y por linaje de los agentes

Un artículo de junio de 2026 demuestra que cualquier defensa que base la autoridad de un elemento de memoria en su contenido o en su historial de derivación puede blanquearse — y que solo la vinculación de origen en la escritura detiene el envenenamiento de memoria de los agentes.

Las defensas fuera de banda contra la inyección aún no han enfrentado a un atacante adaptativo

Un artículo de junio de 2026 advierte: las defensas de monitor de referencia como CaMeL y Progent aún se evalúan con benchmarks estáticos — el mismo método que hizo parecer fuertes a las defensas in-band hasta que los ataques adaptativos las rompieron.

2026-07-02//8 min

Una defensa certificada para la memoria RAG que un agente envenenado nunca olvida

Un artículo de junio de 2026 modela el envenenamiento de memoria multisesión — donde una sola entrada manipulada corrompe a todos los usuarios futuros — y ofrece la primera defensa con una cota de robustez demostrada en lugar de un filtro heurístico.

Cognitive Firewall: una defensa distribuida para agentes de navegador

Un artículo de eBay de marzo de 2026 combina un centinela local, un planificador en la nube y un guardia de ejecución determinista para reducir la inyección indirecta en agentes de navegador del 100 % a menos del 1 %.

2026-06-22//7 min

MemMark: atribuir una memoria de agente envenenada solo con la instantánea

Un artículo de arXiv del 26 de mayo de 2026 inscribe la propiedad en las decisiones latentes de escritura de memoria de un agente: la procedencia sobrevive incluso si se borran los registros y solo queda la instantánea final.

2026-06-22//7 min

AI Control Roadmap de DeepMind: defensa en profundidad para agentes no alineados

El AI Control Roadmap de Google DeepMind (junio de 2026) trata a los agentes de IA internos como posibles amenazas internas, superponiendo supervisión por modelos de confianza al alineamiento.

2026-06-21//7 min

El desaprendizaje de backdoors generaliza: eliminar un disparador puede suprimir otros

Un artículo de junio de 2026 muestra que enseñar a un LLM a ignorar un disparador de backdoor también puede debilitar otras backdoors nunca atacadas, cuando sus desplazamientos de activación internos son próximos, medidos con una nueva métrica: CASD.

2026-06-21//6 min

Desorientación defensiva: por qué bloquear jailbreaks automatizados puede volverse en contra

Un artículo de junio de 2026 modela el juez automático del atacante y muestra que los rechazos predecibles alimentan su bucle de búsqueda — propone desorientación controlada en vez de simple bloqueo.

2026-06-21//6 min

LLM salting: rotar la dirección de rechazo para romper la reutilización de jailbreaks

El «LLM salting» de SophosAI (CAMLIS 2025) aplica una pequeña rotación a la dirección de rechazo de un modelo: un jailbreak precalculado contra el modelo base deja de transferirse a tu despliegue — la defensa de las rainbow tables, aplicada a los LLM.

2026-06-21//6 min

Por qué fallan los rechazos de los agentes: el Cybersecurity Refusal Framework

Un nuevo benchmark muestra que los rechazos de seguridad de los agentes dependen de la cadena de URL, no del objetivo real. Dos trucos triviales — falsas «reglas de enfrentamiento» y proxy localhost — convierten el rechazo en obediencia sobre sitios de producción.

2026-06-20//7 min

Seguridad MCP: la pregunta no es qué ataques existen, sino dónde deben estar las defensas

Un artículo de arXiv de abril de 2026 mapea los ataques a MCP en seis capas arquitectónicas y halla defensas desiguales y demasiado centradas en la herramienta, dejando la orquestación del host, el transporte y la cadena de suministro estructuralmente desprotegidos.

2026-06-20//7 min

Localizar la inyección de prompts: de la detección a la escisión forense

Detectar una inyección de prompts solo indica que algo va mal. Dos trabajos de 2026, PromptLocate y WebSentinel, identifican con precisión qué fragmento del contexto está envenenado para extirparlo y recuperar la tarea.

2026-06-20//6 min

SEAgent: control de acceso obligatorio contra la escalada de privilegios de los agentes

Un artículo de enero de 2026 replantea los ataques a agentes como escalada de privilegios — acciones que exceden el mínimo privilegio necesario — y propone SEAgent, una capa MAC/ABAC determinista aplicada sobre un grafo de flujo de información.

2026-06-20//7 min

AuthGraph: alineación de doble grafo contra la inyección en agentes

Un artículo de UCLA del 26 de mayo de 2026 compara un grafo de autorización limpio con el grafo de procedencia real del agente, reduciendo el éxito de ataque del 40 % al 1 % en AgentDojo.

2026-06-19//6 min

Cordon: contención transaccional para agentes LLM con herramientas

Un artículo de arXiv del 16 de junio de 2026 propone 'transacciones semánticas': un runtime que retiene los efectos irreversibles de un agente y valida todo el flujo de la tarea antes de confirmar.

2026-06-19//6 min

DoubtProbe: detectar jailbreaks que reorganizan la intención

Un artículo de junio de 2026 propone una defensa en tiempo de inferencia que trata la detección de jailbreaks como una comprobación de coherencia: reconstruir la petición bajo restricciones estructurales y señalar los prompts cuyo significado no sobrevive a la ida y vuelta.

2026-06-18//6 min

SafeMCP: filtrar la adquisición de herramientas para frenar la búsqueda de poder en agentes MCP

Un artículo de arXiv del 1 de junio de 2026 (ACL 2026) propone SafeMCP, un plugin del lado del servidor que usa razonamiento anticipatorio con un modelo del mundo para filtrar la adquisición de herramientas peligrosas antes de que un agente MCP amplíe sus poderes.

2026-06-18//6 min

SkillVetBench: un LLM-juez que ve lo que los escáneres de skills pasan por alto

Un artículo de arXiv del 14 de junio de 2026 muestra que los escáneres de skills a nivel de código omiten entre el 89 % y el 100 % de las amenazas a nivel de instrucción, mientras un LLM-juez detecta las 78 skills maliciosas de prueba sin ningún falso positivo.

2026-06-18//7 min

La tríada letal ya es la norma: defienda a los agentes en tiempo de ejecución

La tríada letal antes señalaba agentes de riesgo. A mediados de 2026 describe a todo agente útil, así que evitarla por arquitectura ya no basta. La defensa se traslada a cinco señales de comportamiento en ejecución.

2026-06-18//6 min

Backdoors señuelo: eliminar backdoors LLM desconocidas mediante mecanismos internos compartidos

Un artículo de junio de 2026 elimina backdoors invisibles plantando una visible: distintas backdoors comparten patrones de activación internos, así que borrar un «señuelo» controlado debilita también la desconocida.

2026-06-17//6 min

Detectar ataques en el tráfico de llamadas a herramientas: gana el contenido

Un estudio de arXiv de mayo de 2026 sobre la supervisión de llamadas a herramientas MCP halla que los embeddings de contenido impulsan la detección (AUROC > 0,89), que la estructura de grafo aporta poco y que los splits aleatorios inflan los resultados hasta 26 puntos.

2026-06-17//6 min

RUBAS: una señal de recompensa fina para la seguridad de agentes mediante RL con rúbricas

Un artículo de junio de 2026 sustituye la recompensa binaria rechazar/ejecutar por cuatro rúbricas puntuadas — uso de herramientas, argumentos, respuesta y utilidad — para entrenar agentes que se mantienen seguros sin perder utilidad.

2026-06-17//5 min

SkillGuard: un marco de permisos para lo que una skill de agente puede hacer en ejecución

Un artículo de junio de 2026 cierra la brecha entre lo que una skill inyecta en el contexto de un agente y lo que le hace hacer, mediante manifiestos, control de acceso deny-by-default y monitorización en ejecución.

2026-06-17//6 min

Las defensas por procedencia de la memoria-grafo de los agentes son ciegas por construcción

Un artículo de arXiv fechado el 10 de junio de 2026 muestra que los controles de procedencia sobre la memoria-grafo de los LLM se eluden sin falsificar ninguna fuente: una escritura de estructura no confiable cambia qué hechos autenticados se seleccionan, y el control de flujo de información nunca lo ve.

La privacidad de un agente es un problema de trayectoria: OCELOT presupuesta la fuga por inferencia en tiempo de ejecución

Un artículo de arXiv fechado el 10 de junio de 2026 replantea la privacidad de los agentes LLM como control de riesgo a posteriori: no filtrar cada salida, sino presupuestar cuánto puede mejorar la creencia de un adversario sobre un secreto a lo largo de toda una trayectoria.

Parallax: poner la seguridad de los agentes en la arquitectura, no en el prompt

Un position paper publicado el 14 de abril de 2026 sostiene que las salvaguardas a nivel de prompt se derrumban en cuanto se compromete el razonamiento de un agente, y propone separar estructuralmente lo que piensa de lo que actúa.

2026-06-16//8 min

Arquitecturar agentes seguros: una defensa de «plan y política» contra la inyección de prompts

Un position paper de NVIDIA (31 de marzo de 2026) sostiene que la inyección indirecta de prompts no se resuelve solo en el modelo — y propone una arquitectura de «plan y política» que limita lo que un agente puede observar y decidir.

Skills de agente verificados: gobernanza de capacidades para la cadena SKILL.md

Los skills de agente verificados de NVIDIA (19 de mayo de 2026) añaden escaneo de riesgos, firma criptográfica y tarjetas de skill legibles por máquina a la cadena SKILL.md — una respuesta defensiva a los skills envenenados.

Confidential Computing para IA agéntica: lo que los enclaves no protegen

Un estudio de mayo de 2026 proyecta el confidential computing sobre la pila agéntica: los enclaves de hardware protegen la memoria y la caché KV frente a un operador cloud malicioso, pero no detienen la prompt injection.

Por qué los jailbreaks se transfieren entre modelos — y cómo el «salado» contraataca

Un estudio sobre 20 modelos open-weight muestra que la transferencia de jailbreaks surge de las representaciones internas compartidas, no de un fallo del alineamiento. Una defensa llamada LLM salting rota la dirección de rechazo para romper la reutilización.

La inyección de prompts no está resuelta: conténgala a velocidad de máquina

En Infosecurity Europe 2026, Ariel Fogel (OWASP) calificó la inyección de prompts como un problema arquitectónico sin resolver y defendió pasar de la prevención a la contención en ejecución, tan rápida como el agente.

Por qué fallan los detectores de inyección de prompts: el problema de la evasión en 2026

De los clasificadores por palabras clave a las sondas de deriva de activación, los detectores de inyección de prompts comparten una debilidad: el adversario adaptativo. Dos estudios reportan hasta ~100 % de evasión. La detección es una capa, nunca la frontera.

2026-06-15//7 min

SafeHarbor: una barrera de memoria jerárquica que ataca el sobre-rechazo de los agentes

Aceptado en ICML 2026, SafeHarbor es una barrera sin reentrenamiento que inyecta reglas de seguridad contextuales desde un árbol de riesgos autoevolutivo — 63,6 % de utilidad benigna en GPT-4o rechazando más del 93 % de los ataques.

SecureClaw: una defensa de doble frontera para agentes LLM con herramientas

Un artículo de junio de 2026 propone proteger dos fronteras distintas a la vez —autorizar las acciones externas en el punto de efecto y confinar el texto plano en la frontera de lectura— con un 0 % de éxito de ataque en un benchmark de agentes.

2026-06-14//6 min

PI-Hunter: auditar agentes para exponer y localizar inyecciones de prompt ocultas

Un artículo de junio de 2026 de investigadores de Google replantea el red-teaming de inyección de prompts como auditoría: PI-Hunter hace evolucionar casos de prueba anclados en la fuente para revelar dónde entra y se propaga una inyección latente en un agente, no solo si el ataque tiene éxito.

2026-06-13//6 min

AgentDyn: por qué las defensas anti-inyección que brillan en benchmarks fallan en el mundo real

AgentDyn, un benchmark de ICML de febrero de 2026, prueba diez defensas anti-inyección de primer nivel en tareas de agente dinámicas y abiertas. Casi todas son inseguras o sobredefienden hasta volverse inservibles.

2026-06-12//7 min

El trilema de la defensa: por qué los wrappers anti-inyección no pueden ser completos

Una prueba verificada en Lean 4 (abril de 2026) demuestra que ningún wrapper de entrada continuo que preserve la utilidad puede bloquear toda inyección de prompts. Continuidad, utilidad y completitud no coexisten.

2026-06-12//7 min

Dentro de GitHub Agentic Workflows: una arquitectura de seguridad para agentes de CI/CD

GitHub Agentic Workflows llegó a versión preliminar pública el 11 de junio de 2026 con un diseño centrado en la seguridad: agentes sin secretos en una jaula chroot, un cortafuegos de workflow, escrituras en cola y verificadas, y un trabajo de detección de amenazas. La respuesta defensiva a la inyección de prompts en CI/CD.

2026-06-12//8 min

La Recuse Signal: un robots.txt para agentes que poseen credenciales reales

Un artículo de junio de 2026 propone una señal de «denegación» in-band — emitida por un banner SSH o un NOTICE de PostgreSQL — que pide cortésmente a un agente autónomo que se retire. En un piloto indujo un 100 % de recusación, pero un encuadre de autorización hizo volver al modelo más capaz.

2026-06-12//6 min

Inyección por flujo de herramientas: por qué fallan las defensas estáticas de agentes y qué corrige el verify-before-commit

Un artículo de enero de 2026, VIGIL, replantea la inyección indirecta en torno al flujo de herramientas — descripciones falsificadas y mensajes de error falsos — y muestra que cuanto mejor alineado está un agente, más les obedece.

2026-06-12//7 min

TRUSTDESC: derivar las descripciones de herramientas del código para desactivar el tool poisoning

Un artículo de abril de 2026 ataca el tool poisoning de raíz: generar la descripción de una herramienta a partir de su implementación en lugar de confiar en el texto del autor, neutralizando el envenenamiento implícito que los detectores no ven.

2026-06-12//6 min

CASA: control de acceso basado en tareas que contrasta cada llamada a una herramienta con la intención real del usuario

Un artículo de arXiv del 4 de mayo de 2026 propone Continuous Agent Semantic Authorization: una capa zero-trust que extrae la tarea del usuario de una conversación multironda y deniega las llamadas a herramientas que no encajan.

2026-06-11//6 min

La supervisión tiene una capacidad: cuando más aprobaciones hacen al agente menos seguro

Un artículo de arXiv del 8 de junio de 2026 modela al revisor humano detrás de la puerta de aprobación de un agente como un recurso finito que se fatiga, y muestra que escalar más acciones puede reducir la seguridad real y abrir un ataque por saturación.

2026-06-11//8 min

ADR: detección y respuesta para agentes MCP, probado a escala de Uber

Un artículo de mayo de 2026 de Uber describe un sistema tipo EDR para agentes MCP: telemetría causal completa, detección en dos niveles y red teaming offline, desplegado en más de 7.200 hosts durante diez meses.

2026-06-08//7 min

La seguridad de los agentes es un problema de sistema: tratar al modelo como no confiable

Un position paper de mayo de 2026 (Google, UCSD, UW–Madison) sostiene que la seguridad de los agentes debe salir del modelo y trasladarse al sistema: tratar al LLM como un componente no confiable e imponer las invariantes a su alrededor.

2026-06-08//8 min

AgentTrust: revisar las llamadas a herramientas de un agente antes de ejecutarlas

Un preprint del 6 de mayo de 2026 presenta AgentTrust, una capa de ejecución que inspecciona cada llamada a herramienta antes de que se ejecute y devuelve permitir / advertir / bloquear / revisar, incluso sobre cargas de shell ofuscadas.

2026-06-08//6 min

Detectar la extracción de modelos observando la ventana de tráfico, no las consultas aisladas

Un artículo de junio de 2026 muestra que una simple prueba de distribución (MMD sobre embeddings de consultas, calibrada solo con tráfico legítimo) detecta campañas de extracción ocultas en tráfico de API mixto — 0,3 % de falsos positivos, 100 % en tráfico puramente atacante.

2026-06-08//6 min

ePCA: sustituir las barreras semánticas de agentes por verificación formal

Un artículo de mayo de 2026 propone ePCA, una barrera que compila cada acción del agente en lógica de primer orden y ejecuta una verificación SMT antes de actuar, bloqueando los pasos peligrosos como bloqueos lógicos.

2026-06-08//7 min

Taxonomía v2.0 de modos de fallo agénticos de Microsoft: la evasión zero-click del humano en el bucle

La taxonomía v2.0 del AI Red Team de Microsoft (4 de junio de 2026) añade siete modos de fallo agénticos y señala la evasión del humano en el bucle como la más explotada — incluidas cadenas zero-click a partir de una sola entrada externa.

2026-06-07//8 min

AgentVisor: un patrón tipo hipervisor de SO que audita cada llamada a herramienta

Un artículo de arXiv del 27 de abril de 2026 toma la idea del hipervisor de SO para defender agentes LLM con herramientas: un «visor» de confianza audita cada llamada y es arquitectónicamente ciego al contenido no confiable.

2026-06-07//8 min

Need to Know: reescritura de consultas por integridad contextual

Un artículo de arXiv del 2 de junio de 2026 replantea la reescritura de consultas respetuosa con la privacidad como un problema de integridad contextual: enviar un dato al LLM en la nube solo si la tarea lo necesita, no porque se haya reconocido un tipo de PII.

Dos trampas metodológicas que inflan las puntuaciones de los detectores de inyección de prompts

Un preprint de arXiv del 1 de junio de 2026 muestra que la mayoría de los benchmarks de detectores de inyección de prompts y jailbreak se apoyan en el ajuste de umbral por conjunto de datos y en puntos de operación no divulgados — dos hábitos que inflan discretamente la precisión anunciada.

Membrane: una memoria de seguridad contrastiva que adapta las barreras sin reentrenar

Un artículo de arXiv del 4 de junio de 2026 propone Membrane, una barrera autoevolutiva que asocia cada ataque bloqueado con una petición benigna casi idéntica, reduciendo el rechazo excesivo al 7-14 % y liderando el F1 en seis jailbreaks.

Lockdown Mode de OpenAI: cortar la vía de exfiltración del prompt injection

El 6 de junio de 2026 OpenAI amplió Lockdown Mode a las cuentas personales y Business de autoservicio de ChatGPT: un ajuste determinista que desactiva los canales de salida usados para exfiltrar datos mediante prompt injection.

THRD: una defensa temporal sin reentrenamiento contra jailbreaks multironda

Un artículo de junio de 2026 sostiene que un jailbreak multironda debe evaluarse sobre toda la conversación, no turno a turno. THRD agrega el riesgo en el tiempo y reduce la tasa de éxito de los ataques al 0,2–4 %, sin reentrenamiento.

2026-06-07//7 min

El agente que escribe sus propios registros: por qué no se puede confiar en los audit trails autoinformados

Si un agente comprometido genera su propio registro de actividad, puede omitir, alterar o fabricar lo que hizo. Tres trabajos de junio de 2026 — Notarized Agents (arXiv), un borrador del IETF sobre audit trail de agentes y SCITT — convergen en la misma solución: mover la frontera de confianza fuera del agente.

2026-06-05//6 min

Cuando fallan las defensas por embedding en sistemas multiagente LLM

Un artículo de arXiv del 1 de mayo de 2026 demuestra que los detectores que descartan un agente malicioso por el embedding de sus mensajes se desploman ante un texto vuelto casi benigno — y propone las señales de confianza por token como reemplazo más robusto.

2026-06-05//6 min

Detectar la exfiltración de credenciales en agentes LLM antes del token de salida

Publicado el 2 de junio de 2026, un artículo de arXiv detecta las fugas de credenciales de un agente antes de cualquier token de salida, combinando sondas de activación, honeytokens calibrados y contabilidad de fuga multironda.

2026-06-04//7 min

AgentShield: detectar agentes comprometidos con honeytokens y herramientas señuelo

Un artículo de mayo de 2026 aplica la ingeniería del engaño a los agentes LLM con herramientas: herramientas falsas, credenciales falsas y listas blancas de parámetros con las que tropieza un agente secuestrado. Reporta una detección del 90,7 al 100 % de los ataques exitosos, sin falsas alarmas.

2026-06-04//6 min

La recuperación híbrida BM25 + vectores redujo el envenenamiento RAG del 38 % al 0 %

Un preprint de arXiv del 10 de marzo de 2026 muestra que añadir BM25 disperso a la recuperación densa bloquea toda una clase de envenenamiento de corpus RAG optimizado por gradiente, sin tocar el LLM.

2026-06-04//7 min

OWASP Agent Memory Guard: una capa en tiempo de ejecución contra el envenenamiento de memoria de agentes

Cubierto por Help Net Security el 1 de junio de 2026, Agent Memory Guard es la primera implementación de referencia de OWASP para ASI06: una capa lista para usar que filtra cada lectura y escritura de la memoria de un agente según una política YAML.

2026-06-04//7 min

PISmith: el red teaming con RL adaptativo sigue rompiendo las defensas anti-inyección

Un artículo de marzo de 2026 entrena un modelo atacante con aprendizaje por refuerzo para poner a prueba las defensas anti-inyección en caja negra — y 8 defensas de última generación caen, incluso en AgentDojo e InjecAgent.

2026-06-04//6 min

Agent Threat Rules: un «Sigma para agentes de IA» — y lo que confiesan sus cifras de recall

ATR ofrece reglas de detección YAML abiertas para ataques a agentes, ya en producción en Microsoft, Cisco y Gen Digital. Sus propios benchmarks muestran por qué la detección por regex es una capa, no un perímetro.

2026-06-03//6 min

DataShield: cuando un fine-tuning inocuo erosiona la seguridad de un modelo

Un artículo de arXiv del 29 de mayo de 2026 muestra que ajustar un LLM alineado con datos inofensivos degrada igualmente su seguridad, y propone DataShield para detectar las muestras responsables antes del entrenamiento.

2026-06-03//6 min

SnapGuard: detectar la inyección en lo que el agente ve, no en lo que parsea

Un artículo de abril de 2026 propone un detector ligero para agentes web basados en capturas de pantalla, donde las defensas textuales son ciegas. Lee los píxeles renderizados — estabilidad de gradientes y texto con polaridad invertida — en 1,81 s por página.

2026-06-03//6 min

Separadores dinámicos: reforzar Polymorphic Prompt Assembling frente a la inyección

Un artículo de arXiv del 28 de mayo de 2026 corrige un fallo de «radio de impacto» en Polymorphic Prompt Assembling generando un separador SHA-256 único por petición, bajando la tasa de éxito de un payload de 0,88 a 0,38.

2026-06-02//6 min

Deje de evaluar las defensas anti-jailbreak solo por la tasa de éxito

Un artículo de IEEE S&P de mayo de 2026 sostiene que la tasa de éxito de ataque —la métrica por defecto del campo— oculta cómo se comportan realmente las defensas anti-jailbreak. Su Security Cube las evalúa en varios ejes a la vez.

2026-06-02//6 min

Atribución causal: una defensa emergente contra la inyección indirecta

Un grupo de papers de inicios de 2026 — CausalArmor y AttriGuard — defiende a los agentes con herramientas preguntando qué acciones están causadas por contenido no confiable y no por el usuario. Repaso de la defensa por atribución causal.

2026-06-01//7 min

El triángulo de compromisos: defensas contra inyección de prompts en tutores LLM

Un benchmark de mayo de 2026 sobre defensas anti-inyección para tutores educativos LLM cuantifica una verdad incómoda: ningún guardarraíl gana a la vez en robustez, usabilidad y latencia.

2026-06-01//7 min

Los jailbreaks dejan rastro: detectarlos en las activaciones internas del LLM

Un artículo de febrero de 2026 y su continuación de marzo de 2026 muestran que un prompt de jailbreak graba una firma distintiva en las activaciones ocultas del modelo, lo que permite detectarlo en inferencia sin fine-tuning ni un modelo juez auxiliar.

2026-06-01//6 min

MCP necesita un apretón de manos de confianza: admisión atestiguada de servidores de herramientas

Un paper de arXiv del 22 de mayo de 2026 propone mcp-attested — una extensión retrocompatible de MCP que condiciona todo despacho de herramientas a una aserción firmada, una allowlist deny-by-default y un registro de auditoría a prueba de manipulaciones.

2026-05-29//7 min

Un millón de servicios de IA expuestos: lo que el escaneo de Intruder encontró realmente

El 5 de mayo de 2026, Intruder publicó los resultados de un escaneo de internet que mapeó un millón de servicios de IA expuestos en dos millones de hosts. El fallo recurrente no es exótico: son las configuraciones por defecto permisivas.

2026-05-29//8 min

WARD: un modelo guardián co-evolucionado que resiste inyecciones de prompt adaptativas en agentes web

Un artículo de la NUS del 14 de mayo de 2026 propone WARD —un modelo guardián entrenado contra un atacante adversarial con memoria— y reporta recall casi perfecto fuera de distribución frente a inyecciones de prompt en agentes web.

2026-05-29//8 min

Project Glasswing: Claude Mythos halla más de 10 000 bugs críticos en un mes

La actualización publicada por Anthropic el 26 de mayo de 2026 indica que cerca de 50 socios de Project Glasswing han usado Claude Mythos Preview para identificar más de 10 000 vulnerabilidades de severidad alta o crítica, incluidas 271 fallas latentes parcheadas en Firefox 150.

2026-05-26//8 min

Agents Rule of Two: la respuesta pragmática de Meta al prompt injection

Publicada el 31 de octubre de 2025 por Meta y retomada en la guía de Databricks de mayo de 2026, la Agents Rule of Two limita cada sesión de agente a dos de tres propiedades de riesgo — el marco más accionable mientras el prompt injection siga sin solución.

2026-05-25//7 min

ARGUS: una defensa por grafo de procedencia contra la inyección de prompts contextual

Publicado el 5 de mayo de 2026, el paper ARGUS introduce la auditoría por grafo de influencia para agentes LLM — la tasa de éxito de ataque cae del 28,8 % al 3,8 % en un nuevo benchmark.

2026-05-22//8 min

Jerarquía de instrucciones: entrenar a los LLM para priorizar órdenes privilegiadas

El artículo de OpenAI de 2024 propone una defensa estructural frente a la inyección de prompt: enseñar al modelo que sistema > usuario > salida de herramienta. La idea ya es central en el entrenamiento de GPT-4o-mini y la serie o.

2026-05-22//8 min