As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Solução de problemas
A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.
Guia do Painel
Não é possível instalar o complemento do EKS
Para que a instalação do complemento do EKS tenha êxito, você precisará ter uma versão do Kubernetes >= 1.30. Para atualizar, consulte Atualizar um cluster existente para a nova versão do Kubernetes.
Para que a instalação do complemento do EKS tenha êxito, todos os nós precisam estar no status Pronto e todos os pods precisam estar no status Executando.
Para verificar o status dos seus nós, use o list-cluster-nodes AWS CLI comando ou navegue até seu cluster EKS no console EKS
Para verificar o status dos pods, use o comando kubectl get pods -n cloudwatch-agent da CLI do Kubernetescloudwatch-agent. Resolva o problema dos pods ou entre em contato com seu administrador para resolvê-lo. Quando todos os status do pod estiverem em execução, tente instalar novamente o complemento EKS HyperPod no console Amazon SageMaker
Para obter mais informações sobre a solução de problemas, consulte Solução de problemas do complemento Amazon CloudWatch Observability EKS.
Guia Tarefas
Se você vir a mensagem de erro sobre como a definição de recursos personalizados (CRD) não está configurada no cluster, conceda as políticas EKSAdminViewPolicy e ClusterAccessRole ao perfil de execução do domínio.
-
Para obter informações sobre como obter sua função de execução, consulteObtenha um perfil de execução.
-
Para saber como anexar políticas a um grupo ou usuário do IAM, consulte Adicionar e remover permissões de identidade do IAM.
Políticas
A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.
-
Se a política estiver no status
CreateFailedouCreateRollbackFailed, você precisará excluir a política com falha e criar outra. -
Se a política estiver no status
UpdateFailed, tente atualizar novamente usando o mesmo ARN da política. -
Se a política estiver no status
UpdateRollbackFailed, você precisará excluir a política com falha e criar outra. -
Se a política estiver no status
DeleteFailedouDeleteRollbackFailed, tente excluir novamente usando o mesmo ARN da política.-
Se você encontrou um erro ao tentar excluir a priorização de computação ou a política de cluster usando o HyperPod console, tente excluí-la
cluster-scheduler-configusando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação de computação.
-
Para ver mais detalhes sobre a falha, use a API describe.
Excluir clusters
A seguir, listamos soluções conhecidas para erros relacionados à exclusão de clusters.
-
Quando a exclusão do cluster falhar devido às políticas de governança de SageMaker HyperPod tarefas anexadas, você precisaráExcluir políticas.
-
Quando a exclusão de um cluster falhar devido à falta das permissões a seguir, você precisará atualizar o conjunto mínimo de permissões do administrador do cluster. Consulte a guia Amazon EKS na seção Usuários do IAM para administração de cluster.
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-
Compartilhamento de recursos não alocados
Se a capacidade não alocada do pool de recursos for menor do que a esperada:
-
Verifique o status do nó pronto
kubectl get nodesVerifique se todos os nós mostram o
Readystatus na coluna STATUS. -
Verifique o status agendável do nó
kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulableVerifique se os nós são exibidos
<none>oufalsenãotrue. -
Listar o compartilhamento de recursos não alocados: ClusterQueues
kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharingIsso mostra todos os compartilhamentos de recursos não alocados. ClusterQueues Se ClusterQueues eles não estiverem aparecendo, verifique a ClusterSchedulerConfig política
FailureReasonabaixo para ver se há alguma mensagem de falha para continuar a depuração. -
Verifique a cota de compartilhamento de recursos não alocada:
kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>Consulte a
spec.resourceGroups[].flavors[].resourcesseção para ver a cota alocada para cada tipo de recurso.ClusterQueues Podem existir vários compartilhamentos de recursos não alocados, dependendo do número de variações de recursos em seu cluster.
-
Verifique o status da configuração do MIG (nós da GPU):
kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'Verifique se os nós habilitados para MIG mostram
successo estado.