

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Solução de problemas
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot"></a>

A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.

**Topics**
+ [Guia do Painel](#hp-eks-troubleshoot-dashboard)
+ [Guia Tarefas](#hp-eks-troubleshoot-tasks)
+ [Políticas](#hp-eks-troubleshoot-policies)
+ [Excluir clusters](#hp-eks-troubleshoot-delete-policies)
+ [Compartilhamento de recursos não alocados](#hp-eks-troubleshoot-unallocated-resource-sharing)

## Guia do Painel
<a name="hp-eks-troubleshoot-dashboard"></a>

**Não é possível instalar o complemento do EKS**

Para que a instalação do complemento do EKS tenha êxito, você precisará ter uma versão do Kubernetes >= 1.30. Para atualizar, consulte [Atualizar um cluster existente para a nova versão do Kubernetes](https://docs.aws.amazon.com/eks/latest/userguide/update-cluster.html).

Para que a instalação do complemento do EKS tenha êxito, todos os nós precisam estar no status **Pronto** e todos os pods precisam estar no status **Executando**. 

Para verificar o status dos seus nós, use o [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-cluster-nodes.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-cluster-nodes.html) AWS CLI comando ou navegue até seu cluster EKS no [console EKS](https://console.aws.amazon.com/eks/home#/clusters) e visualize o status dos seus nós. Resolva o problema de cada nó ou entre em contato com seu administrador. Se o status do nó for **Desconhecido**, exclua o nó. Quando todos os status dos nós estiverem **prontos**, tente instalar novamente o complemento EKS a partir HyperPod do console [Amazon SageMaker ](https://console.aws.amazon.com/sagemaker/) AI.

Para verificar o status dos pods, use o comando `kubectl get pods -n cloudwatch-agent` da [CLI do Kubernetes](https://kubernetes.io/docs/reference/kubectl/) ou navegue até o cluster dos EKS no [console do EKS](https://console.aws.amazon.com/eks/home#/clusters) e visualize o status dos pods com o namespace `cloudwatch-agent`. Resolva o problema dos pods ou entre em contato com seu administrador para resolvê-lo. Quando todos os status do pod estiverem **em execução**, tente instalar novamente o complemento EKS HyperPod no console [Amazon SageMaker ](https://console.aws.amazon.com/sagemaker/) AI.

Para obter mais informações sobre a solução de problemas, consulte [Solução de problemas do complemento Amazon CloudWatch Observability EKS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html#Container-Insights-setup-EKS-addon-troubleshoot).

## Guia Tarefas
<a name="hp-eks-troubleshoot-tasks"></a>

Se você vir a mensagem de erro sobre como a **definição de recursos personalizados (CRD) não está configurada no cluster**, conceda as políticas `EKSAdminViewPolicy` e `ClusterAccessRole` ao perfil de execução do domínio. 
+ Para obter informações sobre como obter sua função de execução, consulte[Obtenha um perfil de execução](sagemaker-roles.md#sagemaker-roles-get-execution-role).
+ Para saber como anexar políticas a um grupo ou usuário do IAM, consulte [Adicionar e remover permissões de identidade do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html).

## Políticas
<a name="hp-eks-troubleshoot-policies"></a>

A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.
+ Se a política estiver no status `CreateFailed` ou `CreateRollbackFailed`, você precisará excluir a política com falha e criar outra.
+ Se a política estiver no status `UpdateFailed`, tente atualizar novamente usando o mesmo ARN da política.
+ Se a política estiver no status `UpdateRollbackFailed`, você precisará excluir a política com falha e criar outra.
+ Se a política estiver no status `DeleteFailed` ou `DeleteRollbackFailed`, tente excluir novamente usando o mesmo ARN da política.
  + Se você encontrou um erro ao tentar excluir a **priorização de computação** ou a política de cluster usando o HyperPod console, tente excluí-la `cluster-scheduler-config` usando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação de computação.

Para ver mais detalhes sobre a falha, use a API describe.

## Excluir clusters
<a name="hp-eks-troubleshoot-delete-policies"></a>

A seguir, listamos soluções conhecidas para erros relacionados à exclusão de clusters.
+ Quando a exclusão do cluster falhar devido às políticas de governança de SageMaker HyperPod tarefas anexadas, você precisará[Excluir políticas](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete.md).
+ Quando a exclusão de um cluster falhar devido à falta das permissões a seguir, você precisará atualizar o conjunto mínimo de permissões do administrador do cluster. Consulte a guia **Amazon EKS** na seção [Usuários do IAM para administração de cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin).
  + `sagemaker:ListComputeQuotas`
  + `sagemaker:ListClusterSchedulerConfig`
  + `sagemaker:DeleteComputeQuota`
  + `sagemaker:DeleteClusterSchedulerConfig`

## Compartilhamento de recursos não alocados
<a name="hp-eks-troubleshoot-unallocated-resource-sharing"></a>

Se a capacidade não alocada do pool de recursos for menor do que a esperada:

1. **Verifique o status do nó pronto**

   ```
   kubectl get nodes
   ```

   Verifique se todos os nós mostram o `Ready` status na coluna STATUS.

1. **Verifique o status agendável do nó**

   ```
   kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulable
   ```

   Verifique se os nós são exibidos `<none>` ou `false` não`true`.

1. **Listar o compartilhamento de recursos não alocados: ClusterQueues**

   ```
   kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing
   ```

   Isso mostra todos os compartilhamentos de recursos não alocados. ClusterQueues Se ClusterQueues eles não estiverem aparecendo, verifique a ClusterSchedulerConfig política `FailureReason` abaixo para ver se há alguma mensagem de falha para continuar a depuração.

1. **Verifique a cota de compartilhamento de recursos não alocada:**

   ```
   kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>
   ```

   Consulte a `spec.resourceGroups[].flavors[].resources` seção para ver a cota alocada para cada tipo de recurso.

    ClusterQueues Podem existir vários compartilhamentos de recursos não alocados, dependendo do número de variações de recursos em seu cluster. 

1. **Verifique o status da configuração do MIG (nós da GPU):**

   ```
   kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'
   ```

   Verifique se os nós habilitados para MIG mostram `success` o estado.