sistema: OPERATIVO
← volver a categorías

DEFENSE

(8)

8 hack(s).

DEFENSE MEDIUM NEW

Un millón de servicios de IA expuestos: lo que el escaneo de Intruder encontró realmente

El 5 de mayo de 2026, Intruder publicó los resultados de un escaneo de internet que mapeó un millón de servicios de IA expuestos en dos millones de hosts. El fallo recurrente no es exótico: son las configuraciones por defecto permisivas.

2026-05-29//8 min
DEFENSE MEDIUM NEW

MCP necesita un apretón de manos de confianza: admisión atestiguada de servidores de herramientas

Un paper de arXiv del 22 de mayo de 2026 propone mcp-attested — una extensión retrocompatible de MCP que condiciona todo despacho de herramientas a una aserción firmada, una allowlist deny-by-default y un registro de auditoría a prueba de manipulaciones.

2026-05-29//7 min
DEFENSE MEDIUM NEW

WARD: un modelo guardián co-evolucionado que resiste inyecciones de prompt adaptativas en agentes web

Un artículo de la NUS del 14 de mayo de 2026 propone WARD —un modelo guardián entrenado contra un atacante adversarial con memoria— y reporta recall casi perfecto fuera de distribución frente a inyecciones de prompt en agentes web.

2026-05-29//8 min
DEFENSE MEDIUM

Project Glasswing: Claude Mythos halla más de 10 000 bugs críticos en un mes

La actualización publicada por Anthropic el 26 de mayo de 2026 indica que cerca de 50 socios de Project Glasswing han usado Claude Mythos Preview para identificar más de 10 000 vulnerabilidades de severidad alta o crítica, incluidas 271 fallas latentes parcheadas en Firefox 150.

2026-05-26//8 min
DEFENSE MEDIUM

Agents Rule of Two: la respuesta pragmática de Meta al prompt injection

Publicada el 31 de octubre de 2025 por Meta y retomada en la guía de Databricks de mayo de 2026, la Agents Rule of Two limita cada sesión de agente a dos de tres propiedades de riesgo — el marco más accionable mientras el prompt injection siga sin solución.

2026-05-25//7 min
DEFENSE MEDIUM

ARGUS: una defensa por grafo de procedencia contra la inyección de prompts contextual

Publicado el 5 de mayo de 2026, el paper ARGUS introduce la auditoría por grafo de influencia para agentes LLM — la tasa de éxito de ataque cae del 28,8 % al 3,8 % en un nuevo benchmark.

2026-05-22//8 min
DEFENSE MEDIUM

Jerarquía de instrucciones: entrenar a los LLM para priorizar órdenes privilegiadas

El artículo de OpenAI de 2024 propone una defensa estructural frente a la inyección de prompt: enseñar al modelo que sistema > usuario > salida de herramienta. La idea ya es central en el entrenamiento de GPT-4o-mini y la serie o.

2026-05-22//8 min
DEFENSE MEDIUM

El filtrado de salida vence a la autodefensa del modelo: 20 000 ataques adaptativos, un solo superviviente

Publicado el 26 de abril y revisado el 12 de mayo de 2026, un artículo de Swept AI / Michigan enfrentó nueve defensas contra inyección de prompts a un atacante adaptativo. Todas las defensas del lado del modelo terminaron cediendo. El filtrado de salida en la aplicación resistió — cero fugas en 15 000 ataques.

2026-05-22//7 min