

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Reiniciar los nodos de cómputo con Slurm en PCS AWS
<a name="slurm-reboot"></a>

AWS PCS admite el comando nativo de Slurm. `scontrol reboot` Utilice este comando para reiniciar los nodos de procesamiento sin reemplazar la instancia EC2. Otros métodos de reinicio (consola Amazon EC2 AWS CLI, parches automatizados o mantenimiento del sistema) hacen que el AWS PCS considere que la instancia EC2 está en mal estado y la sustituya.

## Ventajas del reinicio de Slurm
<a name="slurm-reboot-benefits"></a>

El reinicio de Slurm ofrece varias ventajas para el mantenimiento del clúster:
+ **Conserve la capacidad**: evite perder instancias EC2 con capacidad limitada a manos de otros clientes.
+ **Reduzca los costos**: elimine los ciclos innecesarios de reemplazo de instancias y la facturación continua de los nodos inactivos.
+ **Recuperación más rápida**: sin demoras en el aprovisionamiento en comparación con la sustitución de instancias.
+ **Flexibilidad operativa**: elimine las pérdidas de memoria, elimine los archivos temporales y recupere los nodos de estados degradados.

## Cuándo usar el reinicio de Slurm
<a name="slurm-reboot-use-cases"></a>

Utilice el reinicio de Slurm para los escenarios comunes de mantenimiento operativo:
+ **Solución de problemas**: resuelva los problemas de rendimiento o los procesos que no responden, especialmente en los nodos de la GPU.
+ **Limpieza de recursos**: elimine las pérdidas de memoria, los archivos temporales o los `/tmp` procesos atascados que afectan al rendimiento laboral.
+ **Recuperación**: recupere los nodos de estados bloqueados o degradados antes de tener que reemplazarlos por completo.

## Limitaciones
<a name="slurm-reboot-limitations"></a>
+ Solo los usuarios de Slurm Admin (usuarios root) pueden ejecutar comandos de reinicio.
+ El soporte de reinicio está limitado a solo. `scontrol reboot`
+ RebootProgram no se admite la configuración.
+ Sin interfaz de consola, solo desde la línea de comandos.

**Topics**
+ [Ventajas del reinicio de Slurm](#slurm-reboot-benefits)
+ [Cuándo usar el reinicio de Slurm](#slurm-reboot-use-cases)
+ [Limitaciones](#slurm-reboot-limitations)
+ [Reinicie un nodo de cómputo mediante Slurm en PCS AWS](slurm-reboot-procedure.md)
+ [Cancele un reinicio pendiente en el AWS PCS](slurm-reboot-cancel.md)
+ [Preguntas frecuentes sobre el reinicio de Slurm en PCS AWS](slurm-reboot-faq.md)
+ [Solución de problemas de reinicio de Slurm en PCS AWS](slurm-reboot-troubleshooting.md)