PISmith: el red teaming con RL adaptativo sigue rompiendo las defensas anti-inyección
Un artículo de marzo de 2026 entrena un modelo atacante con aprendizaje por refuerzo para poner a prueba las defensas anti-inyección en caja negra — y 8 defensas de última generación caen, incluso en AgentDojo e InjecAgent.
¿Qué es esto?
PISmith es un marco de red teaming basado en aprendizaje por refuerzo, publicado en arXiv (2603.13026) en marzo de 2026 por investigadores de The Pennsylvania State University. Su propósito es defensivo: medir cuán robustas son realmente las defensas anti-inyección actuales cuando se permite que el atacante se adapte en lugar de repetir una lista fija de cargas.
El resultado es contundente. A lo largo de 13 conjuntos de evaluación y 8 defensas publicadas — tanto detectores por filtrado como modelos endurecidos en el entrenamiento — PISmith determina que «las defensas anti-inyección de última generación siguen siendo vulnerables a los ataques adaptativos». El trabajo extiende la conclusión central del artículo de octubre de 2025 The Attacker Moves Second (Nasr, Carlini, Tramèr et al., arXiv:2510.09023), que evadió 12 defensas con tasas de éxito superiores al 90 % pese a que la mayoría reportaba inicialmente tasas casi nulas. PISmith convierte esa demostración puntual en un bucle de entrenamiento automatizado y reutilizable.
Cómo funciona
PISmith plantea la inyección de prompts como un problema de aprendizaje de políticas. Un LLM atacante se entrena con aprendizaje por refuerzo on-policy para generar prompts inyectados, disponiendo únicamente de acceso en caja negra al sistema defendido: puede consultar al objetivo y observar las salidas, nada más. Esto refleja a un adversario realista que no ve los pesos del modelo ni el funcionamiento interno de la defensa.
La aportación del artículo es lograr que ese entrenamiento converja de verdad. Aplicar GRPO estándar (la optimización de políticas por grupo popularizada por DeepSeek) fracasa frente a defensas fuertes por la escasez de recompensas: casi todos los prompts generados quedan bloqueados, los pocos éxitos se diluyen y la entropía de la política colapsa — deja de explorar antes de hallar una estrategia eficaz. PISmith añade dos mecanismos para contrarrestarlo:
- Regularización de entropía adaptativa — un bono de entropía que solo se activa cuando la entropía cae por debajo de un umbral, sosteniendo la exploración sin degenerar en texto aleatorio e incoherente.
- Ponderación dinámica de la ventaja — amplificar la contribución al gradiente de los escasos despliegues exitosos en proporción a su rareza, para que esos aciertos no se diluyan entre la masa de fracasos.
Aquí no se reproduce ninguna cadena de explotación, y no hace falta para entender la lección: el método es una receta de optimización general, no una carga específica — y por eso precisamente las defensas estáticas no resisten ante él.
Por qué importa
El artículo expone una tensión estructural más que un fallo aislado: las defensas «no logran mantener una buena utilidad en escenarios benignos y, al mismo tiempo, resistir ataques adaptativos». Si se ajusta el filtro, las tareas legítimas se rompen; si se afloja, el atacante adaptativo pasa.
Esto importa sobre todo para los agentes. PISmith también se evaluó en entornos agénticos sobre InjecAgent y AgentDojo, con éxito contra modelos de código abierto y propietarios (el artículo nombra a GPT-4o-mini y GPT-5-nano como objetivos). Son exactamente las configuraciones con herramientas y lectura de documentos que despliegan hoy los agentes en producción. Una defensa con buena nota en un benchmark fijo todavía puede caer ante un atacante entrenado específicamente contra ella — de modo que el argumento comercial de una «tasa de éxito casi nula» no vale nada si no se midió de forma adaptativa.
La lección práctica coincide con el consenso de 2026: la inyección de prompts aún no tiene una corrección fiable del lado del modelo, así que toda afirmación de robustez debe ganarse frente a una evaluación fuerte y adaptativa — no frente a conjuntos de prueba estáticos.
Defensas
PISmith es en sí mismo una herramienta defensiva — la respuesta correcta es emplear este tipo de evaluación y luego restringir la arquitectura en lugar de confiar en el filtro.
- Evalúe de forma adaptativa. Considere no verificada cualquier «tasa de éxito casi nula» medida solo contra cargas estáticas. Vuelva a probar las defensas con atacantes adaptativos guiados por optimización (RL, búsqueda arbórea o humanos) antes de confiar en ellas.
- No dependa de un único filtro. Tanto los detectores por filtrado como los modelos endurecidos fueron quebrados en el estudio. Úselos como una capa, nunca como la única.
- Aplique la Regla de Dos. Mantenga toda sesión de agente por debajo de dos de las tres propiedades entre {entrada no confiable, datos/sistemas sensibles, cambio de estado o comunicación externa}. Esto acota el radio de impacto incluso cuando la inyección tiene éxito.
- Ponga en cuarentena el contenido no confiable. Entregue páginas web, correos y salidas de herramientas al modelo como datos, no como instrucciones con autoridad; depure o etiquete el texto recuperado en los flujos RAG.
- Vincule las capacidades al solicitante, con tokens de corta vida, para que un agente secuestrado no pueda actuar más allá del alcance de su usuario.
- Mantenga a una persona en el bucle para cualquier acción irreversible o visible externamente cuando las tres propiedades de riesgo sean inevitables.
Estado
| Elemento | Fecha | Estado |
|---|---|---|
| The Attacker Moves Second (arXiv:2510.09023) | 10 oct. 2025 | Público |
| PISmith (arXiv:2603.13026) | Marzo 2026 | Público, código liberado |
| Defensas probadas (8) | — | Vulnerables a ataques adaptativos |
| Benchmarks agénticos (InjecAgent, AgentDojo) | — | Evadidos en modelos abiertos y propietarios |
PISmith no introduce una nueva clase de ataque — operacionaliza el red teaming adaptativo como un benchmark reproducible. El mensaje accionable para los defensores es el mismo de The Attacker Moves Second, ahora más difícil de ignorar: una defensa vale lo que vale el atacante más fuerte frente al que fue probada.