El impuesto de autonomía: cómo el entrenamiento defensivo rompe a los agentes LLM
Un artículo de USC del 19 de marzo de 2026 mide el coste del entrenamiento anti-inyección sobre la competencia de los agentes — los modelos defendidos expiran en el 99 % de las tareas, frente al 13 % de la línea base.
¿De qué se trata?
El 19 de marzo de 2026, Shawn Li y Yue Zhao, de la University of Southern California, publicaron en arXiv The Autonomy Tax: Defense Training Breaks LLM Agents (arXiv:2603.19423). El artículo no propone un ataque nuevo ni una defensa nueva. Mide los efectos secundarios de las defensas que ya se están desplegando. En 97 tareas de agente y 1 000 prompts adversariales, los modelos entrenados para rechazar intentos de inyección de prompts colapsan como agentes. Donde una línea base no defendida expira en el 13 % de las tareas, su versión defendida expira en el 99 %. Los autores llaman a esta brecha el impuesto de autonomía y la atribuyen al aprendizaje de atajos durante el fine-tuning defensivo.
El artículo extiende un resultado de enero de 2026 del mismo grupo — Defenses Against Prompt Attacks Learn Surface Heuristics (arXiv:2601.07185) — que ya mostraba que los modelos de chat afinados defensivamente adquieren heurísticas superficiales en lugar de una comprensión real de la intención maliciosa. El impuesto de autonomía repite ese experimento en el escenario agéntico, donde el coste de esas heurísticas se acumula en cada paso.
Cómo funciona
Un fine-tuning defensivo típico entrena al modelo con pares (petición benigna, cumplir) y (inyección maliciosa, rechazar). En un chat de un solo turno funciona razonablemente bien. En un bucle de agente, el mismo modelo ve ahora observaciones largas y dinámicas: salidas de herramientas, documentos recuperados, borradores de razonamiento. El artículo documenta tres sesgos sistemáticos que aparecen en ese contexto.
- Sesgo de incompetencia del agente. Los modelos defendidos rechazan o emiten llamadas a herramientas malformadas en tareas perfectamente benignas, antes incluso de haber leído una sola observación externa. El rechazo se dispara por rasgos superficiales de la descripción de la tarea, no por nada que un atacante haya colocado en el contexto.
- Sesgo de amplificación en cascada. Los arneses de agentes reintentan las llamadas a herramientas que fallan. Un modelo defendido que rechaza una vez tiende a rechazar de nuevo en el reintento, y el arnés acaba expirando. Así es como se llega al ratio 13 % → 99 % de timeouts: una tasa de rechazo por paso pequeña se convierte en un fallo casi seguro a lo largo de trayectorias multietapa.
- Sesgo de disparador. Los modelos defendidos rinden peor que las líneas base no defendidas en varias categorías de ataque. Los disparadores superficiales que el modelo aprendió durante el entrenamiento defensivo (tokens específicos, patrones de sufijo, etiquetas de rol) pueden ser invertidos por atacantes adaptativos, mientras que los ataques que no encajan con esos disparadores pasan sin alteración.
El análisis de causa raíz vincula los tres sesgos al mismo fenómeno: aprendizaje de atajos. Los modelos defendidos sobre-aprenden patrones a nivel de token y posicionales en la distribución de entrenamiento, en lugar de una comprensión semántica de la amenaza. El preprint de enero (Li et al., 2601.07185) caracterizaba el mismo fenómeno en modelos de chat con tres sesgos medibles distintos — sesgo de posición, donde un contenido benigno situado tras las instrucciones es rechazado a tasas que alcanzan el 90 %; sesgo de token disparador, donde un único token aumenta los falsos rechazos hasta un 50 %; y sesgo de generalización de tema, con caídas del 40 % en precisión sobre tareas benignas fuera de distribución. El impuesto de autonomía muestra cómo esas patologías a nivel de chat cascadean hasta un colapso agéntico.
Por qué importa
El resultado tiene tres implicaciones para quien despliega agentes a mediados de 2026.
Primero, los pesos defensivos no son un reemplazo neutro de un modelo base en un arnés de agente. Quienes hayan sustituido un modelo base por una variante defendida para “mejorar la seguridad” pueden haber roto silenciosamente la capacidad del agente para completar tareas, sin que aparezca ninguna señal en sus evaluaciones offline — los benchmarks de un turno pasan por alto la cascada.
Segundo, la ganancia en seguridad es menor de lo anunciado. Ambos artículos reportan que los ataques adaptativos superan a los modelos defendidos a tasas de éxito del 95-100 %. Cambiar 87 puntos de completitud de tarea por unos cuantos puntos porcentuales contra las categorías de ataque más sencillas es un mal trato, y hoy es invisible en la mayoría de benchmarks de los proveedores.
Tercero, la metodología de evaluación dominante — benchmarks estáticos de jailbreak de un solo turno — no predice el comportamiento en tiempo de ejecución agéntico. El impuesto de autonomía se suma a una serie de resultados de 2026 (Cisco sobre evaluación multi-turno, UCLA sobre la auditoría de interacción agente-humano) que demuestran que las métricas de un turno sobreestiman la seguridad real. Las evaluaciones de agentes tienen que ser multietapa, con reintentos y con los timeouts como señal medida.
Defensas
El artículo es descriptivo, pero las implicaciones para los equipos defensivos son claras.
- No despliegue pesos defensivos en un arnés de agente sin reevaluar el éxito de tarea de extremo a extremo. Mida tasa de timeout, tasa de reintento y tasa de rechazo sobre un benchmark multietapa, no solo el éxito de ataque sobre jailbreaks de un turno.
- Prefiera defensas arquitectónicas a defensas a nivel de pesos para los agentes. Acotación de permisos, aprobación humana sobre acciones irreversibles, filtrado de salida y trazabilidad de procedencia (grafos de influencia estilo ARGUS) se componen con un modelo base competente en lugar de degradarlo.
- Si debe ajustar para el rechazo, audite el sesgo de disparador. Reserve tareas benignas que compartan rasgos superficiales con su set de entrenamiento defensivo (mismos tokens, mismas etiquetas de rol) y confirme que el modelo aún las completa.
- Registre ratios de timeout sobre completitud en producción. Un agente defendido cuya tasa de timeout sube tras una actualización de pesos vive el modo de fallo del artículo; desde un monitor de uptime es indistinguible de una caída.
- Trate el fine-tuning defensivo como un cambio de capacidad, no como un parche de seguridad. Debe pasar por la misma cadena de evaluación que cualquier otro cambio de modelo.
Estado
| Elemento | Fecha | Estado |
|---|---|---|
| The Autonomy Tax (arXiv:2603.19423) | 19 de marzo de 2026 | Preprint público |
| Defenses Against Prompt Attacks Learn Surface Heuristics (arXiv:2601.07185) | Enero de 2026 | Preprint público |
| Tareas auditadas | — | 97 tareas de agente, 1 000 prompts adversariales |
| Tasa de timeout de modelos defendidos | — | 99 % (frente a 13 % no defendidos) |
| Éxito de ataque adaptativo sobre modelos defendidos | — | 95-100 % en ambos artículos |
| Adopción industrial | En curso | Discutida en trabajos de evaluación multietapa (Cisco, UCLA, 2026) |
Ambos artículos son preprints y no han sido revisados por pares en el momento de redactar este texto. El núcleo empírico — la brecha de tasa de timeout y los tres sesgos agénticos — es la parte más directamente útil para los defensores hoy.