SUPPLY CHAIN MEDIUM NEW

Semantic Compliance Hijacking: skills de agente sin payload, invisibles a los escáneres

Un artículo de arXiv del 14 de mayo de 2026 muestra que un archivo de skill sin código ni intención maliciosa explícita puede llevar a un agente de código a escribir su propio malware en tiempo de ejecución — con una tasa de detección del 0,00 %.

2026-06-17 // 6 min affects: coding-agents, agent-skill-marketplaces, llm-agents

¿Qué es esto?

El 14 de mayo de 2026, los investigadores Xinyu Liu, Yukai Zhao, Xing Hu y Xin Xia publicaron Exploiting LLM Agent Supply Chains via Payload-less Skills en arXiv (cs.CR/cs.SE). El artículo describe el Semantic Compliance Hijacking (SCH) — un ataque a la cadena de suministro contra agentes de código autónomos que no contiene ningún código malicioso.

Hasta ahora, la mayor parte del trabajo sobre seguridad de skills de agente buscaba contenido: instrucciones ocultas, payloads ofuscados, importaciones sospechosas dentro de un skill descargado (el modelo detrás de las defensas estáticas y de registro que tratamos en skills de agente maliciosos y cadena de suministro de registros skill.md). SCH lo esquiva todo. El skill malicioso solo transporta texto en lenguaje natural disfrazado de «reglas de cumplimiento», y deja que la capacidad generativa del propio agente escriba y ejecute el código dañino en tiempo de ejecución. Frente a las herramientas de escaneo probadas por los autores, los archivos de skill manipulados mantuvieron una tasa de detección del 0,00 %.

Cómo funciona

Los agentes obtienen skills de terceros en marketplaces abiertos para ampliar sus capacidades. Un skill suele ser un pequeño paquete de instrucciones, con código opcional. SCH solo envenena la capa de instrucciones.

En lugar de incrustar un exploit, el atacante reformula un objetivo malicioso como requisitos de apariencia inofensiva — presentados como convenciones del proyecto, pasos de «endurecimiento de seguridad» o controles de cumplimiento obligatorios que el agente debe satisfacer mientras completa la tarea legítima del usuario. Como el texto no lleva payload ejecutable ni intención dañina manifiesta, supera la revisión. El modelo alineado se encarga entonces de la parte peligrosa: al leer esas «reglas», sintetiza y ejecuta código que cumple el objetivo del atacante — por ejemplo, exfiltrar credenciales o abrir una vía de ejecución remota de código.

# Conceptual only — no working ruleset.
poisoned skill (natural language "compliance rules")  # 0 code, 0 AST signature
        --> agent reads rules as task requirements
        --> agent GENERATES code to "comply"
        --> agent EXECUTES it                          # confidentiality breach / RCE

Los autores construyeron una canalización automatizada y probaron SCH en tres frameworks de agentes y tres modelos de fundación. El éxito alcanza un pico del 77,67 % en brechas de confidencialidad y del 67,33 % en ejecución remota de código (RCE) en las configuraciones más vulnerables. Un segundo componente, Multi-Skill Automated Optimization (MS-AO), reparte la manipulación entre varios skills para elevar aún más la tasa de éxito. La propiedad clave de evasión: al omitir las firmas reconocibles del árbol de sintaxis abstracta (AST) y las cadenas explícitamente dañinas, los archivos de skill burlan por completo el escaneo por firmas. Es el primo de «síntesis en ejecución» del envenenamiento estático de ecosistemas de skills estudiado en trabajos relacionados de abril de 2026.

Por qué importa

Los agentes de código son hoy el rincón más activo del ecosistema agéntico, y los marketplaces de skills son su registro de paquetes. El reflejo defensivo — escanear el artefacto antes de confiar en él — supone que la maldad reside en el artefacto. SCH rompe esa suposición: el artefacto está limpio, y el arma es el agente. Es el mismo problema arquitectónico que hace difícil la prompt injection, aplicado a la cadena de suministro — no existe una frontera fiable entre «instrucciones que el agente debe seguir» y «datos que solo debe procesar».

También eleva el listón para los defensores de forma muy concreta. Una tasa de detección del 0,00 % frente al utillaje actual significa que las listas de verificación, los escáneres de AST y las bases de firmas aportan aquí muy poca garantía. Y como el código dañino se genera de nuevo en cada ejecución, dos ejecuciones del mismo skill pueden no producir el mismo payload, lo que dificulta el análisis forense posterior.

Una precisión de alcance: se trata de investigación de laboratorio sobre una matriz de prueba definida, no de una campaña confirmada en el mundo real, y los autores no publicaron conjuntos de reglas funcionales. Trátese como un punto ciego validado que cerrar, no como un exploit activo que temer.

Defensas

Pasar de la detección por firmas a la validación de intención. Es la propia conclusión del artículo: escanear código conocido como malicioso no puede atrapar un comportamiento que el agente inventa en ejecución. Evalúe los skills (y las salidas de herramientas/skills) por lo que harían hacer al agente, no solo por las cadenas que contienen.
No trate el texto de un skill como instrucciones de confianza. Las descripciones y «reglas» de skill son entradas no confiables. Manténgalas, en lo posible, fuera del canal de instrucciones privilegiado del agente, y aplique controles de integridad contextual y de jerarquía de instrucciones.
Bloquee las primitivas peligrosas, no el documento. Como la compromisión llega en forma de código generado y luego ejecutado, ponga la aprobación y el sandboxing sobre la ejecución de código, el egress de archivos/red y el acceso a credenciales — la lógica de la Agents Rule of Two. Un agente que no puede ejecutar código arbitrario ni alcanzar la red sin supervisión no puede completar el último paso de SCH.
Mínimo privilegio para los skills. Acote explícitamente el acceso de cada skill al sistema de archivos, a los secretos y a la red; denegar por defecto.
Registre y revise las acciones sintetizadas. Capture el código que el agente genera y las llamadas a herramientas que hace, para que un payload sintetizado en ejecución deje un rastro revisable aun cuando el skill de origen pareciera limpio.
Prefiera skills verificados y fijados. Obtenga sus skills de fuentes con procedencia verificable y versión fijada en lugar de marketplaces abiertos, y revíselos en cada actualización.

Estado

Elemento	Detalle
Técnica	Semantic Compliance Hijacking (SCH) — ataque a la cadena de suministro por skill sin payload
Fuente	arXiv:2605.14460 (cs.CR/cs.SE), enviado el 14 de mayo de 2026
Éxito máximo	77,67 % brecha de confidencialidad · 67,33 % RCE (config más vulnerable)
Detección	0,00 % frente a los escáneres por firma/AST probados
Alcance de la prueba	3 frameworks de agentes × 3 modelos de fundación (no nombrados en el resumen)
Estado real	Resultado de investigación; sin uso confirmado en el mundo real; sin conjunto de reglas publicado