

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Vendo erros nas inicializações dos nós de computação
<a name="troubleshooting-fc-v3-compute-node-initialization-v3"></a>

As seções a seguir fornecem dicas de solução de problemas para quando erros nas inicializações de nós de computação. Isso inclui erros de bootstrap, visualização de erros em logs e onde ir se nenhum dos cenários se aplicar à sua situação específica.

**Topics**
+ [Vendo `Node bootstrap error` em `clustermgtd.log`](compute-node-initialization-bootstrap-error-v3.md)
+ [Eu configurei reservas de capacidade sob demanda (ODCRs) ou instâncias reservadas zonais](compute-node-initialization-odcr-v3.md)
+ [Ver `An error occurred (VcpuLimitExceeded)` no `slurm_resume.log` quando não consegui executar um trabalho ou em `clustermgtd.log` quando eu não consigo criar um cluster](compute-node-initialization-vpc-limit-v3.md)
+ [Ver `An error occurred (InsufficientInstanceCapacity)` no `slurm_resume.log` quando não consegui executar um trabalho ou em `clustermgtd.log` quando eu não consigo criar um cluster](compute-node-initialization-ice-failure-v3.md)
+ [Vendo que os nós estão em estado `DOWN` com `Reason (Code:InsufficientInstanceCapacity)...`](compute-node-initialization-down-nodes-v3.md)
+ [Vendo `cannot change locale (en_US.utf-8) because it has an invalid name` em `slurm_resume.log`](compute-node-initialization-locale-v3.md)
+ [Nenhum dos cenários anteriores se aplica à minha situação](compute-node-initialization-not-found-v3.md)

# Vendo `Node bootstrap error` em `clustermgtd.log`
<a name="compute-node-initialization-bootstrap-error-v3"></a>

O problema está relacionado à falha na inicialização dos nós de computação. Para obter informações sobre como depurar um problema no modo protegido por cluster, consulte [Como depurar o modo protegido](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3).

# Eu configurei reservas de capacidade sob demanda (ODCRs) ou instâncias reservadas zonais
<a name="compute-node-initialization-odcr-v3"></a>

## ODCRs que incluem instâncias que têm várias interfaces de rede, como P4d, P4de e AWS Trainium (Trn)
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

No arquivo de configuração do cluster, verifique se o `HeadNode` está em uma sub-rede pública e se os nós de computação estão em uma sub-rede privada.

## ODCRs são ODCRS direcionados
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### Vendo, `Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.` embora eu já tenha `/opt/slurm/etc/pcluster/run_instances_overrides.json` instalado, seguindo as instruções dadas em [Iniciar instâncias com Reservas de Capacidade Sob Demanda (ODCR)](launch-instances-odcr-v3.md)
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

Se você estiver usando AWS ParallelCluster as versões 3.1.1 a 3.2.1 com targeted ODCRs e também estiver usando o arquivo [JSON run instances override, é possível que você não tenha o arquivo](launch-instances-odcr-v3.md) JSON formatado corretamente. Você pode ver um erro em `clustermgtd.log`, como o seguinte:

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

Valide se o formato de arquivo JSON está correto executando o seguinte:

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### Ver `Found RunInstances parameters override.` em `clustermgtd.log` quando a criação do cluster falhou ou em `slurm_resume.log` quando o trabalho de execução falhou
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

Se você estiver usando o [arquivo JSON de substituição de instâncias de execução](launch-instances-odcr-v3.md), verifique se definiu corretamente o nome da fila e o nome dos recursos de computação no arquivo `/opt/slurm/etc/pcluster/run_instances_overrides.json`.

### Ver `An error occurred (InsufficientInstanceCapacity)` no `slurm_resume.log` quando não consegui executar um trabalho ou em `clustermgtd.log` quando eu não consigo criar um cluster
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### Usando PG-ODCR (grupo de posicionamento ODCR)
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

Ao criar um ODCR com um grupo de posicionamento associado, o mesmo nome do grupo de posicionamento deve ser usado no arquivo de configuração. Defina o [nome do grupo de posicionamento](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup) correspondente na configuração do cluster.

#### Usar instâncias reservadas zonais
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

Se você estiver usando instâncias reservadas zonais com `PlacementGroup` / `Enabled` para `true` na configuração do cluster, poderá ver um erro, como o seguinte:

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

Você pode ver isso porque as instâncias reservadas zonais não são colocadas na mesma UC (ou coluna vertebral), o que pode causar erros de capacidade insuficientes (ICEs) ao usar grupos de posicionamento. Você pode verificar esse caso desativando a configuração de Grupo`PlacementGroup` na configuração do cluster para determinar se o cluster pode alocar as instâncias.

# Ver `An error occurred (VcpuLimitExceeded)` no `slurm_resume.log` quando não consegui executar um trabalho ou em `clustermgtd.log` quando eu não consigo criar um cluster
<a name="compute-node-initialization-vpc-limit-v3"></a>

Verifique os limites de vCPU na sua conta para o tipo específico de instância do Amazon EC2 que você está usando. Se você ver zero ou CPUs menos v do que está solicitando, solicite um aumento para seus limites. Para ter informações sobre como visualizar limites atuais e solicitar novos limites, consulte [Service Quotas do Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html) no *Guia do usuário do Amazon EC2*.

# Ver `An error occurred (InsufficientInstanceCapacity)` no `slurm_resume.log` quando não consegui executar um trabalho ou em `clustermgtd.log` quando eu não consigo criar um cluster
<a name="compute-node-initialization-ice-failure-v3"></a>

Você está enfrentando um problema de capacidade insuficiente. Siga [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)para solucionar o problema. insufficient-capacity-errors

# Vendo que os nós estão em estado `DOWN` com `Reason (Code:InsufficientInstanceCapacity)...`
<a name="compute-node-initialization-down-nodes-v3"></a>

Você está enfrentando um problema de capacidade insuficiente. Siga [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)para solucionar o problema. insufficient-capacity-errors Para obter mais informações sobre o modo AWS ParallelCluster de failover rápido de capacidade insuficiente, consulte. [Failover rápido de capacidade insuficiente do cluster Slurm](slurm-short-capacity-fail-mode-v3.md)

# Vendo `cannot change locale (en_US.utf-8) because it has an invalid name` em `slurm_resume.log`
<a name="compute-node-initialization-locale-v3"></a>

Isso pode ocorrer se você tiver um processo de instalação do `yum` malsucedido que deixou as configurações de localidade em um estado inconsistente. Por exemplo, isso pode ser causado quando um usuário encerra o processo de instalação.

**Para verificar a causa, realize as seguintes ações:**
+ Executar `su - pcluster-admin`.

  O shell mostra um erro, como `cannot change locale...no such file or directory`.
+ Executar `localedef --list`.

  Retorna uma lista vazia ou não contém a localidade padrão.
+ Verifique o último comando `yum` com `yum history` e `yum history info #ID`. O último ID tem `Return-Code: Success`?

  Se a última ID não tiver `Return-Code: Success`, os scripts de pós-instalação podem não ter sido executados com êxito.

Para corrigir o problema, tente reconstruir a localidade com `yum reinstall glibc-all-langpacks`. Após a reconstrução, `su - pcluster-admin` não mostra um erro ou aviso se o problema foi corrigido.

# Nenhum dos cenários anteriores se aplica à minha situação
<a name="compute-node-initialization-not-found-v3"></a>

Para solucionar problemas de inicialização do nó de computação, consulte [Solução de problemas de inicialização do nó](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init).

Verifique se seu cenário está abordado em [Problemas GitHub conhecidos](https://github.com/aws/aws-parallelcluster/wiki) em AWS ParallelCluster on GitHub.