RESEARCH LOW NEW

Inyección neuro-prompt: cuando la señal cerebral se vuelve el canal de autorización de un agente

Un artículo de arXiv del 8 de junio de 2026 nombra una nueva superficie de ataque: las tuberías BCI-a-agente que convierten el EEG decodificado en canal de autorización. Tres vectores invierten la acción enrutada mientras los monitores de EEG y de texto siguen ciegos.

2026-06-13 // 6 min affects: bci-llm-agents, eeg-command-control, tool-use-agents

¿De qué se trata?

El 8 de junio de 2026, Jianwei Tai publicó en arXiv Brain-Prompt Injection: A Route-Safety Audit for BCI-LLM Agents (2606.09315, cs.CR). El artículo examina una tubería que empieza a aparecer en las demostraciones de investigación: una interfaz cerebro-computadora (BCI) decodifica la actividad neuronal —aquí señales EEG de imaginería motora— y entrega el comando decodificado a un agente LLM con herramientas, que entonces enruta una acción. En ese diseño, la señal cerebral decodificada se convierte en un canal de autorización: es lo que le dice al agente qué herramienta disparar.

El aporte de Tai es nombrar y auditar la superficie de ataque resultante, que el artículo llama brain-prompt injection (inyección neuro-prompt). El trabajo tiene una postura defensiva. No es un exploit contra un producto desplegado —las pilas BCI-a-agente están en fase de investigación— sino un estudio formal de lo que un registro de auditoría debe capturar antes de que alguien pueda afirmar que esa tubería enruta acciones de forma segura.

Cómo funciona

El artículo identifica tres maneras en que un atacante puede cambiar la acción que enruta el agente sin que los monitores evidentes vean nada: perturbaciones del lado de la señal (manipulación en el lado EEG), inyecciones solo de contexto (manipular el texto/contexto que lee el agente, sin tocar la señal neuronal) y ataques adaptativos de doble decodificador que enfrentan la ruta de la señal contra la ruta del texto. La observación unificadora: un monitor del lado EEG y un monitor del lado texto pueden parecer ambos limpios mientras la acción enrutada ha sido invertida; ninguna de las dos vistas, por sí sola, ve la manipulación conjunta.

El argumento central es que la seguridad del enrutamiento depende de lo que el registro de auditoría pueda observar, no de la precisión del decodificador ni del solo acuerdo señal/texto. Tai lo formaliza con un Route-Safety Audit Contract —un esquema de registro mínimo, una jerarquía de denominadores y una especificación de endpoint— y prueba dos resultados: un teorema de separación de esquema de auditoría y una descomposición de la «dependencia atacada» para la clase de rutas que el artículo etiqueta como C3. La lección matemática es incómoda: el acuerdo limpio entre canales y la robustez marginal ordinaria no identifican el término conjunto que en realidad controla el enrutamiento C3. En otras palabras, que dos canales coincidan no es prueba de que la ruta sea segura.

La instanciación empírica corre sobre el conjunto de datos público de imaginería motora EEGMMI (control nativo izquierda/derecha, 5.400 eventos), con stubs de herramientas inofensivos en lugar de acciones reales. Los resultados de enrutamiento son contundentes: la procedencia por sí sola bloquea las rutas C2 más simples (tasa de inversión 0,000); el acuerdo-más-procedencia aún deja pasar las inversiones C3 (1,000); y solo la confirmación-más-procedencia las cierra (0,000). Una capa de calibración —calibración conforme por división (split-conformal) sobre un canal de confirmación EEG no-oráculo— reporta una frontera de falsos aceptados bajo una matriz explícita de arquetipos de amenaza: FAR 0,000 con utilidad limpia 0,150 (α=.005) y FAR 0,119 con utilidad limpia 0,452 (α=.10) bajo aislamiento de adquisición. La salvedad crucial: si el canal de confirmación es a su vez controlable por el atacante, ese límite colapsa a aproximadamente 1 —la defensa se evapora—. Un bootstrap por conglomerados de sujetos sobre 60 sujetos y dos arquitecturas de decodificador (TinyEEGNet, EEGNetV4) respaldan los intervalos.

Por qué importa

La pila concreta —EEG a agente— es de nicho hoy, pero la lección se generaliza a cualquier diseño de autorización sensor-a-agente, donde se confía en una entrada decodificada (voz, mirada, gesto, biometría o neuronal) para elegir una acción. El encuadre del artículo se aplica directamente: si autorizas llamadas a herramientas a partir de una señal decodificada, vigilar la señal y vigilar el texto de forma independiente puede pasar mientras la acción enrutada es errónea. La seguridad es una propiedad de la auditoría conjunta, y de la procedencia con un paso de confirmación independiente, no de la precisión de uno u otro canal.

También deja una nota sobria para quien construye agentes «guiados por la intención». El artículo es explícito: la mediación y la confirmación reducen el riesgo pero no son certificados de intención; no prueban que la acción enrutada coincida con la intención real del usuario. Y toda la defensa descansa sobre un canal de confirmación fuera del alcance del atacante: en cuanto esa suposición falla, el límite de falsos aceptados se dispara hacia ~1.

Defensas

La estructura del artículo se lee como una lista de verificación para tuberías sensor-a-agente:

Audita la ruta conjunta, no cada canal. Un monitor EEG limpio y un monitor de texto limpio no son prueba de una ruta segura. Registra y evalúa la ruta como un objeto único, con la jerarquía de denominadores que especifica el artículo, para que el término de dependencia conjunta sea realmente observable.
Haz que la procedencia sea portante. La procedencia por sí sola bloqueó de entrada la clase de rutas más simple (C2). Registra de dónde viene cada señal autorizadora y vincúlala a la acción que justifica.
Añade un paso de confirmación independiente — y protégelo. La confirmación-más-procedencia fue lo que cerró las inversiones difíciles (C3). Pero su valor está totalmente condicionado a que el canal de confirmación quede fuera del control del atacante; si puede influir en él, la garantía colapsa a ~1. Aísla la adquisición y trata la ruta de confirmación como el objetivo más valioso.
Calibra explícitamente la tasa de falsos aceptados. Usa una matriz de arquetipos de amenaza declarada y un método de calibración (aquí split-conformal) para poder nombrar tu punto de operación en la frontera utilidad/falsos aceptados, en lugar de suponer que «el decodificador es preciso» significa «la ruta es segura».
No vendas la mediación como intención. Confirmación y mediación bajan el riesgo; no certifican que la acción enrutada sea lo que el humano quería. Mantén alcances de herramientas de mínimo privilegio y acciones reversibles detrás del agente, pase lo que pase.

Estado

Elemento	Referencia	Fecha	Notas
Artículo publicado	arXiv 2606.09315 (cs.CR)	2026-06-08	Autor único, Jianwei Tai
Superficie de ataque	«Brain-prompt injection»	—	Lado señal, solo contexto, doble decodificador adaptativo
Conjunto de datos	EEGMMI imaginería motora	—	Control izquierda/derecha, 5.400 eventos, stubs de herramientas inofensivos
Resultado clave	Acuerdo ≠ seguridad	—	Procedencia bloquea C2 (0,000); acuerdo+procedencia aún invierte C3 (1,000); confirmación+procedencia cierra (0,000)
Límite duro	Confirmación controlable por el atacante	—	El límite de falsos aceptados colapsa a ≈1

El titular no es «los hackers pueden leerte la mente». Es más estrecho y más útil: en cuanto una señal decodificada autoriza las acciones de un agente, la seguridad vive en el registro de auditoría conjunto, la procedencia hace un trabajo real, un canal de confirmación independiente es el punto de apoyo —y nada de eso certifica la intención.