

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Solução de problemas em clusters com AWS Batch integração
<a name="troubleshooting-v3-batch"></a>

Esta seção fornece possíveis dicas de solução de problemas para clusters com integração de AWS Batch agendador, especificamente com problemas de nó principal, problemas de computação, falhas de trabalho e erros de tempo limite.

**Topics**
+ [Problemas no nó principal](#troubleshooting-v3-batch-head-node)
+ [Problemas de computação](#troubleshooting-v3-batch-compute-nodes)
+ [Falhas de trabalhos](#troubleshooting-v3-batch-job-fail)
+ [Erro de tempo limite de conexão no URL do endpoint](#troubleshooting-v3-batch-connect-timeout)

## Problemas no nó principal
<a name="troubleshooting-v3-batch-head-node"></a>

Você pode solucionar problemas de configuração do nó principal da mesma forma que um cluster Slurm (exceto para logs Slurm específicos). Para obter mais informações sobre esses problemas, consulte [Nó principal](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init.head-node).

## Problemas de computação
<a name="troubleshooting-v3-batch-compute-nodes"></a>

AWS Batch gerencia os aspectos de escalabilidade e computação de seus serviços. Se você encontrar problemas relacionados à computação, consulte a documentação de AWS Batch [solução de problemas](https://docs.aws.amazon.com/batch/latest/userguide/troubleshooting.html) para obter ajuda.

## Falhas de trabalhos
<a name="troubleshooting-v3-batch-job-fail"></a>

Se um trabalho falhar, você poderá executar o comando [`awsbout`](awsbatchcli.awsbout-v3.md) para recuperar a saída do trabalho. Você também pode executar o [`awsbstat`](awsbatchcli.awsbstat-v3.md) comando para obter um link para os registros de trabalhos armazenados pela Amazon CloudWatch.

## Erro de tempo limite de conexão no URL do endpoint
<a name="troubleshooting-v3-batch-connect-timeout"></a>

Se trabalhos paralelos de vários nós falharem com um erro: `Connect timeout on endpoint URL`:
+ No log `awsbout` de saída, verifique se o trabalho tem vários nós paralelos à saída: `Detected 3/3 compute nodes. Waiting for all compute nodes to start.`
+ Verifique se a sub-rede dos nós de computação é pública.

Os trabalhos paralelos de vários nós não suportam o uso de sub-redes públicas ao serem usados em. AWS Batch AWS ParallelCluster Use uma sub-rede privada para seus nós e trabalhos de computação. Para obter mais informações, consulte [Considerações sobre o ambiente de computação](https://docs.aws.amazon.com/batch/latest/userguide/multi-node-parallel-jobs.html#mnp-ce) no *Guia do usuário do AWS Batch *. Para configurar uma sub-rede privada para seus nós de computação, consulte [AWS ParallelCluster com AWS Batch agendador](network-configuration-v3-batch.md).