View a markdown version of this page

Solução de problemas - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas

A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.

Guia do Painel

Não é possível instalar o complemento do EKS

Para que a instalação do complemento do EKS tenha êxito, você precisará ter uma versão do Kubernetes >= 1.30. Para atualizar, consulte Atualizar um cluster existente para a nova versão do Kubernetes.

Para que a instalação do complemento do EKS tenha êxito, todos os nós precisam estar no status Pronto e todos os pods precisam estar no status Executando.

Para verificar o status dos seus nós, use o list-cluster-nodes AWS CLI comando ou navegue até seu cluster EKS no console EKS e visualize o status dos seus nós. Resolva o problema de cada nó ou entre em contato com seu administrador. Se o status do nó for Desconhecido, exclua o nó. Quando todos os status dos nós estiverem prontos, tente instalar novamente o complemento EKS a partir HyperPod do console Amazon SageMaker AI.

Para verificar o status dos pods, use o comando kubectl get pods -n cloudwatch-agent da CLI do Kubernetes ou navegue até o cluster dos EKS no console do EKS e visualize o status dos pods com o namespace cloudwatch-agent. Resolva o problema dos pods ou entre em contato com seu administrador para resolvê-lo. Quando todos os status do pod estiverem em execução, tente instalar novamente o complemento EKS HyperPod no console Amazon SageMaker AI.

Para obter mais informações sobre a solução de problemas, consulte Solução de problemas do complemento Amazon CloudWatch Observability EKS.

Guia Tarefas

Se você vir a mensagem de erro sobre como a definição de recursos personalizados (CRD) não está configurada no cluster, conceda as políticas EKSAdminViewPolicy e ClusterAccessRole ao perfil de execução do domínio.

Políticas

A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.

  • Se a política estiver no status CreateFailed ou CreateRollbackFailed, você precisará excluir a política com falha e criar outra.

  • Se a política estiver no status UpdateFailed, tente atualizar novamente usando o mesmo ARN da política.

  • Se a política estiver no status UpdateRollbackFailed, você precisará excluir a política com falha e criar outra.

  • Se a política estiver no status DeleteFailed ou DeleteRollbackFailed, tente excluir novamente usando o mesmo ARN da política.

    • Se você encontrou um erro ao tentar excluir a priorização de computação ou a política de cluster usando o HyperPod console, tente excluí-la cluster-scheduler-config usando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação de computação.

Para ver mais detalhes sobre a falha, use a API describe.

Excluir clusters

A seguir, listamos soluções conhecidas para erros relacionados à exclusão de clusters.

  • Quando a exclusão do cluster falhar devido às políticas de governança de SageMaker HyperPod tarefas anexadas, você precisaráExcluir políticas.

  • Quando a exclusão de um cluster falhar devido à falta das permissões a seguir, você precisará atualizar o conjunto mínimo de permissões do administrador do cluster. Consulte a guia Amazon EKS na seção Usuários do IAM para administração de cluster.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig

Compartilhamento de recursos não alocados

Se a capacidade não alocada do pool de recursos for menor do que a esperada:

  1. Verifique o status do nó pronto

    kubectl get nodes

    Verifique se todos os nós mostram o Ready status na coluna STATUS.

  2. Verifique o status agendável do nó

    kubectl get nodes -o custom-columns=NAME:.metadata.name,UNSCHEDULABLE:.spec.unschedulable

    Verifique se os nós são exibidos <none> ou false nãotrue.

  3. Listar o compartilhamento de recursos não alocados: ClusterQueues

    kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing

    Isso mostra todos os compartilhamentos de recursos não alocados. ClusterQueues Se ClusterQueues eles não estiverem aparecendo, verifique a ClusterSchedulerConfig política FailureReason abaixo para ver se há alguma mensagem de falha para continuar a depuração.

  4. Verifique a cota de compartilhamento de recursos não alocada:

    kubectl describe clusterqueue hyperpod-ns-idle-resource-sharing-<index>

    Consulte a spec.resourceGroups[].flavors[].resources seção para ver a cota alocada para cada tipo de recurso.

    ClusterQueues Podem existir vários compartilhamentos de recursos não alocados, dependendo do número de variações de recursos em seu cluster.

  5. Verifique o status da configuração do MIG (nós da GPU):

    kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.metadata.labels.nvidia\.com/mig\.config\.state}{"\n"}{end}'

    Verifique se os nós habilitados para MIG mostram success o estado.