Guia do Painel Guia Tarefas Políticas Excluir clusters Compartilhamento de recursos não alocados

Solução de problemas

A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.

Tópicos

Guia do Painel
Guia Tarefas
Políticas
Excluir clusters
Compartilhamento de recursos não alocados

Guia do Painel

Não é possível instalar o complemento do EKS

Para que a instalação do complemento do EKS tenha êxito, você precisará ter uma versão do Kubernetes >= 1.30. Para atualizar, consulte Atualizar um cluster existente para a nova versão do Kubernetes.

Para que a instalação do complemento do EKS tenha êxito, todos os nós precisam estar no status Pronto e todos os pods precisam estar no status Executando.

Para verificar o status dos seus nós, use o list-cluster-nodes AWS CLI comando ou navegue até seu cluster EKS no console EKS e visualize o status dos seus nós. Resolva o problema de cada nó ou entre em contato com seu administrador. Se o status do nó for Desconhecido, exclua o nó. Quando todos os status dos nós estiverem prontos, tente instalar novamente o complemento EKS a partir HyperPod do console Amazon SageMaker AI.

Para verificar o status dos pods, use o comando kubectl get pods -n cloudwatch-agent da CLI do Kubernetes ou navegue até o cluster dos EKS no console do EKS e visualize o status dos pods com o namespace cloudwatch-agent. Resolva o problema dos pods ou entre em contato com seu administrador para resolvê-lo. Quando todos os status do pod estiverem em execução, tente instalar novamente o complemento EKS HyperPod no console Amazon SageMaker AI.

Para obter mais informações sobre a solução de problemas, consulte Solução de problemas do complemento Amazon CloudWatch Observability EKS.

Guia Tarefas

Se você vir a mensagem de erro sobre como a definição de recursos personalizados (CRD) não está configurada no cluster, conceda as políticas EKSAdminViewPolicy e ClusterAccessRole ao perfil de execução do domínio.

Para obter informações sobre como obter sua função de execução, consulteObtenha um perfil de execução.
Para saber como anexar políticas a um grupo ou usuário do IAM, consulte Adicionar e remover permissões de identidade do IAM.

Políticas

A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.

Se a política estiver no status CreateFailed ou CreateRollbackFailed, você precisará excluir a política com falha e criar outra.
Se a política estiver no status UpdateFailed, tente atualizar novamente usando o mesmo ARN da política.
Se a política estiver no status UpdateRollbackFailed, você precisará excluir a política com falha e criar outra.
Se a política estiver no status DeleteFailed ou DeleteRollbackFailed, tente excluir novamente usando o mesmo ARN da política.
- Se você encontrou um erro ao tentar excluir a priorização de computação ou a política de cluster usando o HyperPod console, tente excluí-la cluster-scheduler-config usando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação de computação.

Para ver mais detalhes sobre a falha, use a API describe.

Excluir clusters

A seguir, listamos soluções conhecidas para erros relacionados à exclusão de clusters.

Quando a exclusão do cluster falhar devido às políticas de governança de SageMaker HyperPod tarefas anexadas, você precisaráExcluir políticas.
Quando a exclusão de um cluster falhar devido à falta das permissões a seguir, você precisará atualizar o conjunto mínimo de permissões do administrador do cluster. Consulte a guia Amazon EKS na seção Usuários do IAM para administração de cluster.
- sagemaker:ListComputeQuotas
- sagemaker:ListClusterSchedulerConfig
- sagemaker:DeleteComputeQuota
- sagemaker:DeleteClusterSchedulerConfig

Se a capacidade não alocada do pool de recursos for menor do que a esperada:

Verifique o status do nó pronto
```
kubectl get nodes
```
Verifique se todos os nós mostram o Ready status na coluna STATUS.
Verifique o status agendável do nó
```
kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulable
```
Verifique se os nós são exibidos <none> ou false nãotrue.
Listar o compartilhamento de recursos não alocados: ClusterQueues
```
kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing
```
Isso mostra todos os compartilhamentos de recursos não alocados. ClusterQueues Se ClusterQueues eles não estiverem aparecendo, verifique a ClusterSchedulerConfig política FailureReason abaixo para ver se há alguma mensagem de falha para continuar a depuração.
Verifique a cota de compartilhamento de recursos não alocada:
```
kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>
```
Consulte a spec.resourceGroups[].flavors[].resources seção para ver a cota alocada para cada tipo de recurso.

ClusterQueues Podem existir vários compartilhamentos de recursos não alocados, dependendo do número de variações de recursos em seu cluster.

Verifique o status da configuração do MIG (nós da GPU):


kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'

Verifique se os nós habilitados para MIG mostram success o estado.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Exemplos de comando

Atribuição