View a markdown version of this page

SageMaker HyperPod gerenciamento de clusters - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker HyperPod gerenciamento de clusters

Os tópicos a seguir abordam o registro e o gerenciamento de SageMaker HyperPod clusters.

Registrando SageMaker HyperPod eventos

Todos os eventos e registros de SageMaker HyperPod são salvos na Amazon CloudWatch com o nome do grupo de registros/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Cada chamada para a API CreateCluster cria um novo grupo de logs. A lista a seguir contém todos os fluxos de logs disponíveis coletados em cada grupo de logs.

Nome do grupo de logs Nome do fluxo de logs
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] LifecycleConfig/[instance-group-name]/[instance-id]

Registro SageMaker HyperPod em nível de instância

Você pode acessar os LifecycleScript registros publicados CloudWatch durante a configuração da instância do cluster. Cada instância dentro do cluster criado gera um fluxo de log separado, que pode ser distinguido pelo formato LifecycleConfig/[instance-group-name]/[instance-id].

Todos os registros gravados /var/log/provision/provisioning.log são enviados para o CloudWatch stream anterior. Amostra LifecycleScripts ao 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configredirecionar suas stdout e stderr para este local. Se você estiver usando seus scripts personalizados, grave seus registros no /var/log/provision/provisioning.log local em que eles estejam disponíveis CloudWatch.

Marcadores de registro de script de ciclo de vida

CloudWatch os registros de scripts de ciclo de vida incluem marcadores específicos para ajudar você a acompanhar o progresso da execução e identificar problemas:

Marker Descrição
START Indicates the beginning of lifecycle script logs for the instance
[SageMaker] Lifecycle scripts were provided, with S3 uri: [s3://bucket-name/] and entrypoint script: [script-name.sh] Indicates the S3 location and entrypoint script that will be used
[SageMaker] Downloading lifecycle scripts Indicates scripts are being downloaded from the specified S3 location
[SageMaker] Lifecycle scripts have been downloaded Indicates scripts have been successfully downloaded from S3
[SageMaker] The lifecycle scripts succeeded Indicates successful completion of all lifecycle scripts
[SageMaker] The lifecycle scripts failed Indicates failed execution of lifecycle scripts

Esses marcadores ajudam você a identificar rapidamente em que ponto do processo de execução do script do ciclo de vida ocorreu um problema. Ao solucionar falhas, revise as entradas de registro para identificar onde o processo parou ou falhou.

Mensagens de falha do script de ciclo de vida

Se o script do ciclo de vida existir, mas falhar durante a execução, você receberá uma mensagem de erro que inclui o nome do grupo de CloudWatch registros e o nome do fluxo de registros. Caso haja falhas no script de ciclo de vida em várias instâncias, a mensagem de erro indicará somente uma instância com falha, mas o grupo de registros deverá conter fluxos para todas as instâncias.

Você pode ver a mensagem de erro executando a DescribeClusterAPI ou visualizando a página de detalhes do cluster no SageMaker console. No console, é fornecido um botão Exibir registros do script de ciclo de vida que navega diretamente até o CloudWatch fluxo de registros. A mensagem de erro tem o seguinte formato:

Instance [instance-id] failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs, visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’. If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.

Marcar recursos

AWS O sistema de marcação ajuda a gerenciar, identificar, organizar, pesquisar e filtrar recursos. SageMaker HyperPod oferece suporte à marcação, para que você possa gerenciar os clusters como um AWS recurso. Durante a criação do cluster ou a edição de um cluster existente, você pode adicionar ou editar marcações para o cluster. Para saber mais sobre a marcação em geral, consulte Como marcar seus AWS recursos.

Usando a interface do usuário SageMaker HyperPod do console

Quando você está criando um novo cluster ou editando um cluster, pode adicionar, remover ou editar marcações.

Usando o SageMaker HyperPod APIs

Ao escrever um arquivo de solicitação de UpdateClusterAPI CreateClusterou de uma API no formato JSON, edite a Tags seção.

Usando os comandos de AWS CLI marcação para IA SageMaker

Para marcar um cluster

Use aws sagemaker add-tags da seguinte forma:

aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string

Para desmarcar um cluster

Use aws sagemaker delete-tags da seguinte forma:

aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"

Para listar as marcações para um recurso

Use aws sagemaker list-tags da seguinte forma:

aws sagemaker list-tags --resource-arn cluster_ARN