AGENTS MEDIUM NEW

Selección de herramientas con privilegios excesivos: los agentes eligen más potente de lo necesario

Un artículo de junio de 2026 y su benchmark ToolPrivBench muestran que los agentes LLM habituales eligen con frecuencia herramientas más privilegiadas de lo preciso — y que la alineación de seguridad no lo corrige.

2026-06-22 // 6 min affects: llm-agents, tool-using-agents, frontier-llms

¿Qué es esto?

El mínimo privilegio es uno de los principios más antiguos de la seguridad: un componente debe poseer solo la autoridad que necesita para su tarea, ni más. Los agentes LLM con herramientas infringen este principio de forma silenciosa. Cuando un agente dispone de varias herramientas capaces de realizar un paso —por ejemplo, una herramienta de consulta de solo lectura y una herramienta de administración que además puede escribir—, a menudo elige la más potente aunque la más débil bastaría.

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents (arXiv:2606.20023, publicado en junio de 2026) define este comportamiento y lo mide de forma sistemática. La selección de herramientas con privilegios excesivos consiste en que un agente elige —o escala hacia— una herramienta más privilegiada pese a existir una alternativa menos privilegiada y suficiente. Es un estudio defensivo, orientado a la medición: caracteriza un modo de fallo y propone una corrección, no un exploit.

Cómo funciona

Los autores construyeron ToolPrivBench, un benchmark de 544 escenarios repartidos en ocho dominios de aplicación: Negocios, Código, Bases de datos, Educación, Administración pública, Salud, Infraestructura y Medios. Cada escenario ofrece al agente herramientas de distintos niveles de privilegio, donde una opción poco privilegiada basta para completar la tarea. El benchmark mide dos cosas: la elección inicial de la herramienta y el comportamiento tras un fallo transitorio —qué hace el agente cuando la herramienta de bajo privilegio devuelve un error temporal—.

A través de estos escenarios, el artículo agrupa el daño en cinco patrones de riesgo recurrentes:

Escalada de autoridad — el agente invoca una herramienta que otorga más autoridad de la que la tarea requiere.
Sobreexposición de datos — elige una herramienta que lee o devuelve más datos de los necesarios.
Elusión de seguridad — la herramienta potente omite controles que la herramienta restringida habría aplicado.
Expansión de alcance — la acción desborda el objetivo previsto (más filas, más sistemas, consulta más amplia).
Persistencia temporal — el agente realiza una acción más duradera o más difícil de revocar de lo necesario.

Destacan dos hallazgos. Primero, los fallos transitorios amplifican el problema: cuando una herramienta poco privilegiada devuelve un error temporal, los agentes tienden a saltar directamente a una alternativa muy privilegiada en lugar de reintentar o degradarse con gracia, convirtiendo una llamada de red inestable en una escalada de privilegios. Segundo, la alineación de seguridad general no se transfiere a la elección de mínimo privilegio. Un modelo que rechaza solicitudes abiertamente dañinas igualmente tomará, sin reparos, una herramienta sobredimensionada; y las instrucciones a nivel de prompt para «preferir la opción de menor privilegio» solo ayudan de forma marginal.

Esto complementa trabajos previos de 2026 que miden el uso de privilegios por parte de los agentes frente a herramientas reales (arXiv:2603.28166): el panorama es coherente —la disciplina de privilegios no es una propiedad emergente de los agentes capaces—.

Por qué importa

No es una historia de inyección de prompts —no se requiere atacante—. Es una debilidad de diseño latente en cómo se conectan los agentes a sus herramientas. Pero amplía el radio de impacto de cualquier otro ataque. Si un agente se ve comprometido mediante una inyección indirecta o un documento envenenado, el daño que puede causar está acotado por el privilegio de las herramientas que tiende a invocar. Un agente que selecciona habitualmente herramientas de nivel administrador entrega gratis al atacante un alcance de nivel administrador.

También derriba una suposición común: que dotar a un agente de una caja de herramientas rica es inofensivo porque «usará solo lo que necesite». En la práctica, el agente se excede, y el fallo es invisible —la tarea se completa igual, solo que con más autoridad gastada de la que el registro de auditoría sugeriría necesaria—. Para los dominios regulados del benchmark (Administración, Salud, Infraestructura), una lectura sobreexpuesta o una escritura demasiado amplia es un problema de cumplimiento, incluso sin malicia alguna.

Defensas

Recomendaciones concretas para los equipos que despliegan agentes con herramientas:

Imponga el mínimo privilegio en la capa de herramientas, no en el prompt. El artículo muestra que los controles a nivel de prompt son débiles. Limite la autoridad en el arnés: acote cada herramienta al mínimo que necesite y exija una elevación explícita.
Separe lectura y escritura, estrecho y amplio. Ofrezca herramientas distintas en niveles de privilegio distintos en lugar de una única herramienta sobrecapaz, de modo que una elección poco privilegiada sea siquiera posible.
Gestione los fallos transitorios de forma explícita. Reintente o aplique espera ante el error temporal de una herramienta poco privilegiada, en vez de dejar que el modelo recaiga en una más potente. Haga de la escalada un paso deliberado y registrado.
Aplique un postentrenamiento consciente del privilegio. Los autores reportan una defensa por postentrenamiento que enseña a los agentes a preferir herramientas suficientemente poco privilegiadas y a escalar solo cuando es necesario, reduciendo notablemente el uso innecesario de herramientas muy privilegiadas y preservando las capacidades generales.
Audite el privilegio gastado, no solo los resultados. Registre qué herramienta se eligió y si una de menor privilegio habría bastado. La selección con privilegios excesivos permanece silenciosa mientras no se mida.
Limite el radio de impacto. Combine el mínimo privilegio a nivel de herramienta con puntos de aprobación sobre las acciones irreversibles o de alta autoridad, para que un solo exceso no pueda causar daño duradero.

Estado

Elemento	Detalle
Artículo	«When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents»
ID arXiv	2606.20023
Publicado	Junio de 2026
Tipo	Benchmark + análisis empírico + defensa — sin payloads explotables
Benchmark	ToolPrivBench — 544 escenarios en 8 dominios
Patrones de riesgo	Escalada de autoridad, Sobreexposición de datos, Elusión de seguridad, Expansión de alcance, Persistencia temporal
Hallazgo clave	La selección con privilegios excesivos es común en agentes habituales, amplificada por fallos transitorios; la alineación de seguridad no se transfiere
Defensa	Postentrenamiento consciente del privilegio; el mínimo privilegio a nivel de herramienta supera a los controles a nivel de prompt