

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Visualización de errores en las inicializaciones de los nodos de computación
<a name="troubleshooting-fc-v3-compute-node-initialization-v3"></a>

En las siguientes secciones, se proporcionan consejos para solucionar problemas cuando se detectan errores en las inicializaciones de los nodos de computación. Esto incluye los errores de arranque, la detección de errores en los registros y el lugar al que acudir si ninguno de los escenarios se aplica a su situación concreta.

**Topics**
+ [Visualización de `Node bootstrap error` en `clustermgtd.log`](compute-node-initialization-bootstrap-error-v3.md)
+ [He configurado reservas de capacidad bajo demanda (ODCRs) o instancias reservadas zonales](compute-node-initialization-odcr-v3.md)
+ [Visualización de `An error occurred (VcpuLimitExceeded)` en `slurm_resume.log` cuando no puedo ejecutar un trabajo o en `clustermgtd.log` cuando no puedo crear un clúster](compute-node-initialization-vpc-limit-v3.md)
+ [Visualización de `An error occurred (InsufficientInstanceCapacity)` en `slurm_resume.log` cuando no puedo ejecutar un trabajo o en `clustermgtd.log` cuando no puedo crear un clúster](compute-node-initialization-ice-failure-v3.md)
+ [Visualización de los nodos que están en estado `DOWN` con `Reason (Code:InsufficientInstanceCapacity)...`](compute-node-initialization-down-nodes-v3.md)
+ [Visualización de `cannot change locale (en_US.utf-8) because it has an invalid name` en `slurm_resume.log`](compute-node-initialization-locale-v3.md)
+ [Ninguno de los escenarios anteriores se aplica a mi situación](compute-node-initialization-not-found-v3.md)

# Visualización de `Node bootstrap error` en `clustermgtd.log`
<a name="compute-node-initialization-bootstrap-error-v3"></a>

El problema está relacionado con la falla del arranque de los nodos de cómputo. Para obtener información sobre cómo depurar un problema relacionado con el modo protegido de un clúster, consulte. [Cómo depurar el modo protegido](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3)

# He configurado reservas de capacidad bajo demanda (ODCRs) o instancias reservadas zonales
<a name="compute-node-initialization-odcr-v3"></a>

## ODCRs que incluyen instancias que tienen varias interfaces de red, como P4d, P4de y AWS Trainium (Trn)
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

En el archivo de configuración del clúster, compruebe que `HeadNode` se encuentre en una subred pública y que los nodos de procesamiento estén en una subred privada.

## ODCRs están dirigidos a los ODCRS
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### Visualización de `Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.` a pesar de que ya he implementado `/opt/slurm/etc/pcluster/run_instances_overrides.json` siguiendo las instrucciones que dadas en [Inicio de instancias con reservas de capacidad bajo demanda (ODCR)](launch-instances-odcr-v3.md)
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

Si utilizas AWS ParallelCluster las versiones 3.1.1 a 3.2.1 con target ODCRs y también utilizas el archivo JSON de [anulación de instancias de ejecución, es posible que el archivo JSON](launch-instances-odcr-v3.md) no tenga el formato correcto. Es posible que aparezca un error en`clustermgtd.log`, por ejemplo, el siguiente:

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

Compruebe que el formato del archivo JSON es correcto ejecutando lo siguiente:

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### Visualización de `Found RunInstances parameters override.` en `clustermgtd.log` cuando falló la creación del clúster o en `slurm_resume.log` cuando falló la tarea de ejecución
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

Si utiliza [instancias de ejecución que anulan el archivo JSON](launch-instances-odcr-v3.md), compruebe que ha establecido correctamente el nombre de la cola y el nombre de los recursos de cómputo en el archivo `/opt/slurm/etc/pcluster/run_instances_overrides.json`.

### Visualización de `An error occurred (InsufficientInstanceCapacity)` en `slurm_resume.log` cuando no puedo ejecutar un trabajo o en `clustermgtd.log` cuándo no puedo crear un clúster
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### Uso de PG-ODCR (grupo de ubicación ODCR)
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

Al crear un ODCR con un grupo de ubicación asociado, se debe utilizar el mismo nombre de grupo de ubicación en el archivo de configuración. Establezca el [nombre del grupo de ubicación](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup) correspondiente en la configuración del clúster.

#### Uso de instancias reservadas
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

Si utiliza instancias reservadas zonales con`PlacementGroup`/`Enabled`to `true` en la configuración del clúster, es posible que aparezca un error como el siguiente:

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

Es posible que esto se deba a que las instancias reservadas zonales no están ubicadas en la misma UC (o columna vertebral), lo que puede provocar errores de capacidad insuficiente (ICEs) al utilizar grupos de ubicación. Para comprobar este caso, inhabilite la configuración de `PlacementGroup` grupo en la configuración del clúster para determinar si el clúster puede asignar las instancias.

# Visualización de `An error occurred (VcpuLimitExceeded)` en `slurm_resume.log` cuando no puedo ejecutar un trabajo o en `clustermgtd.log` cuando no puedo crear un clúster
<a name="compute-node-initialization-vpc-limit-v3"></a>

Compruebe los límites de vCPU de su cuenta para el tipo de instancia de Amazon EC2 específico que esté utilizando. Si ve cero o CPUs menos v de lo que solicita, solicite un aumento de sus límites. Para obtener información acerca de cómo consultar los límites actuales y solicitar nuevos límites, consulte las [cuotas de servicio de Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html) en la *Guía del usuario de Amazon EC2*.

# Visualización de `An error occurred (InsufficientInstanceCapacity)` en `slurm_resume.log` cuando no puedo ejecutar un trabajo o en `clustermgtd.log` cuando no puedo crear un clúster
<a name="compute-node-initialization-ice-failure-v3"></a>

Tiene un problema de capacidad insuficiente. Siga [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)para solucionar el problema.

# Visualización de los nodos que están en estado `DOWN` con `Reason (Code:InsufficientInstanceCapacity)...`
<a name="compute-node-initialization-down-nodes-v3"></a>

Tiene un problema de capacidad insuficiente. Siga [https://aws.amazon.com/premiumsupport/knowledge-center/ec2](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) -/para solucionar el problema. insufficient-capacity-errors Para obtener más información sobre AWS ParallelCluster el modo de conmutación por error rápida y con capacidad insuficiente, consulte. [Conmutación por error rápida de capacidad insuficiente en el clúster de Slurm](slurm-short-capacity-fail-mode-v3.md)

# Visualización de `cannot change locale (en_US.utf-8) because it has an invalid name` en `slurm_resume.log`
<a name="compute-node-initialization-locale-v3"></a>

Esto puede ocurrir si el proceso de `yum` instalación no se ha realizado correctamente y ha dejado la configuración regional en un estado incoherente. Por ejemplo, esto puede producirse cuando un usuario finaliza el proceso de instalación.

**Para verificar la causa, realice las siguientes acciones:**
+ Ejecute `su - pcluster-admin`.

  El intérprete de comandos muestra un error, como `cannot change locale...no such file or directory`.
+ Ejecute `localedef --list`.

  Devuelve una lista vacía o no contiene la configuración regional predeterminada.
+ Marque el último `yum` comando con `yum history` y. `yum history info #ID` ¿La última identificación tiene`Return-Code: Success`?

  Si el último identificador no lo tiene `Return-Code: Success`, es posible que los scripts posteriores a la instalación no se hayan ejecutado correctamente.

Para solucionar el problema, intenta volver a crear la configuración regional con. `yum reinstall glibc-all-langpacks` Tras la reconstrucción, `su - pcluster-admin` no muestra ningún error o advertencia si el problema se ha solucionado.

# Ninguno de los escenarios anteriores se aplica a mi situación
<a name="compute-node-initialization-not-found-v3"></a>

Para solucionar problemas de inicialización de los nodos de procesamiento, consulte. [Solución de problemas de inicialización de nodos](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init)

Comprueba si tu situación está incluida en la sección [Problemas GitHub conocidos](https://github.com/aws/aws-parallelcluster/wiki), en la sección AWS ParallelCluster correspondiente GitHub.