As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Começando a SageMaker HyperPod usar o console de SageMaker IA
O tutorial a seguir demonstra como criar um novo SageMaker HyperPod cluster e configurá-lo com o Slurm por meio da interface de usuário do console de SageMaker IA. Após o tutorial, você criará um HyperPod cluster com três nós do Slurm, my-controller-groupmy-login-group, e. worker-group-1
nota
HyperPod agora oferece suporte à criação de clusters do Slurm sem scripts de ciclo de vida. Você pode criar um cluster totalmente funcional usando a AMI-based configuração, estendê-lo com um script de extensão ou continuar usando scripts de ciclo de vida personalizados para controle total.
Criação de cluster
Para navegar até a página SageMaker HyperPod Clusters e escolher a orquestração do Slurm, siga estas etapas.
Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/
. -
Escolha HyperPod Clusters no painel de navegação esquerdo e, em seguida, Gerenciamento de Clusters.
-
Na página SageMaker HyperPod Clusters, escolha Criar HyperPod cluster.
-
No menu suspenso Criar HyperPod cluster, escolha Orchestrated by Slurm.
-
Na página de criação do clusters do Slurm, você verá duas opções. Escolha a opção mais adequada para as suas necessidades.
-
Configuração rápida: para começar imediatamente com as configurações padrão, escolha Configuração rápida. Com essa opção, a SageMaker IA criará novos recursos, como VPC, sub-redes, grupos de segurança, bucket do Amazon S3, função do IAM e FSx for Lustre no processo de criação do seu cluster.
-
Configuração personalizada: para se integrar aos recursos existentes da AWS ou se tiver requisitos específicos de rede, segurança ou armazenamento, escolha Configuração personalizada. Com essa opção, você pode optar por usar os recursos existentes ou criar outros, além de personalizar a configuração que melhor atenda às suas necessidades.
-
Na seção Configuração rápida, siga estas etapas para criar seu HyperPod cluster com a orquestração do Slurm.
Configurações gerais
Especifique um nome para o novo cluster. Não é possível alterar o nome após a criação do cluster.
Grupos de instâncias
Para adicionar um grupo de instâncias, escolha Adicionar grupo. Cada grupo de instâncias pode ser configurado de forma diferente e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para implantar um cluster, você deve adicionar ao menos um grupo de instâncias para os tipos de grupo Controlador e Computação.
Importante
É possível adicionar um grupo de instâncias por vez. Para criar vários grupos de instâncias, repita o processo para cada grupo de instâncias.
Siga as etapas abaixo para adicionar um grupo de instâncias.
-
Em Tipo de grupos de instâncias escolha um tipo de grupo de instâncias. Para este tutorial, escolha Controlador (cabeça) para
my-controller-group, Login paramy-login-groupe Computação (processamento) paraworker-group-1. -
Em Nome, especifique um nome para o grupo de instâncias. Para este tutorial, crie três grupos de instâncias chamados
my-controller-group,my-login-group, eworker-group-1. -
Em Capacidade da instância, escolha a capacidade sob demanda ou um plano de treinamento para reservar seus recursos de computação.
-
Em Selecionar tipo de instância, escolha a instância para o grupo de instâncias. Para este tutorial, selecione
ml.c5.xlargeparamy-controller-group,ml.m5.4xlargeparamy-login-group, eml.trn1.32xlargeparaworker-group-1.Importante
Escolha um tipo de instância com cotas suficientes e endereços IP não atribuídos suficientes para sua conta. Para visualizar ou solicitar cotas adicionais, consulte SageMaker HyperPod cotas.
-
Em Quantidade de instâncias, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.
-
Na lista Zona de disponibilidade de destino, selecione a zona de disponibilidade onde suas instâncias serão provisionadas. A zona de disponibilidade deve corresponder ao local da sua capacidade de computação acelerada.
-
Em Outros volumes de armazenamento por instância (GB), especifique um número inteiro entre 1 e 16.384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é
/opt/sagemaker. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comandodf -h. A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store. -
Escolha Adicionar grupo de instâncias.
Padrões de configuração rápida
Esta seção lista todas as configurações padrão para a criação do cluster, incluindo todos os novos AWS recursos que serão criados durante o processo de criação do cluster. Reveja as configurações padrão.
nota
A configuração rápida usa scripts de ciclo de vida padrão automaticamente. A nova opção AMI-based de configuração (sem scripts de ciclo de vida) está disponível somente por meio da configuração personalizada. Se você quiser criar um cluster sem scripts de ciclo de vida, escolha Configuração personalizada e escolha Nenhum em Scripts de ciclo de vida.
Na seção Configuração personalizada, siga estas etapas para criar seu HyperPod cluster com a orquestração do Slurm.
Configurações gerais
Especifique um nome para o novo cluster. Não é possível alterar o nome após a criação do cluster.
Em Recuperação de instâncias, escolha Automático: recomendado ou Nenhum.
Redes
Defina suas configurações de rede para criar o cluster. Não é possível alterar essas configurações após a criação do cluster.
-
Para VPC, escolha sua própria VPC se você já tiver uma que dê acesso de SageMaker IA à sua VPC. Para criar uma VPC, siga as instruções em Criar uma VPC no Manual do usuário da Amazon Virtual Private Cloud. Você pode deixá-lo como Nenhum para usar o SageMaker AI VPC padrão.
-
Em Bloco CIDR IPv4 da VPC, insira o IP inicial da sua VPC.
-
Em Zonas de disponibilidade, escolha as Zonas de Disponibilidade (AZ) onde HyperPod criará sub-redes para seu cluster. Escolha AZs que correspondam ao local de sua capacidade de computação acelerada.
-
Em Grupos de segurança, crie um grupo de segurança ou escolha até cinco grupos de segurança configurados com regras para permitir a comunicação entre recursos dentro da VPC.
Grupos de instâncias
Para adicionar um grupo de instâncias, escolha Adicionar grupo. Cada grupo de instâncias pode ser configurado de forma diferente e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para implantar um cluster, você deve adicionar ao menos um grupo de instâncias.
Importante
É possível adicionar um grupo de instâncias por vez. Para criar vários grupos de instâncias, repita o processo para cada grupo de instâncias.
Siga as etapas abaixo para adicionar um grupo de instâncias.
-
Em Tipo de grupos de instâncias escolha um tipo de grupo de instâncias. Para este tutorial, escolha Controlador (cabeça) para
my-controller-group, Login paramy-login-groupe Computação (processamento) paraworker-group-1. -
Em Nome, especifique um nome para o grupo de instâncias. Para este tutorial, crie três grupos de instâncias chamados
my-controller-group,my-login-group, eworker-group-1. -
Em Capacidade da instância, escolha a capacidade sob demanda ou um plano de treinamento para reservar seus recursos de computação.
-
Em Selecionar tipo de instância, escolha a instância para o grupo de instâncias. Para este tutorial, selecione
ml.c5.xlargeparamy-controller-group,ml.m5.4xlargeparamy-login-group, eml.trn1.32xlargeparaworker-group-1.Importante
Escolha um tipo de instância com cotas suficientes e endereços IP não atribuídos suficientes para sua conta. Para visualizar ou solicitar cotas adicionais, consulte SageMaker HyperPod cotas.
-
Em Quantidade de instâncias, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.
-
Na lista Zona de disponibilidade de destino, selecione a zona de disponibilidade onde suas instâncias serão provisionadas. A zona de disponibilidade deve corresponder ao local da sua capacidade de computação acelerada.
-
Em Outros volumes de armazenamento por instância (GB), especifique um número inteiro entre 1 e 16.384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é
/opt/sagemaker. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comandodf -h. A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store. -
Em Nome da partição Slurm (somente grupos de computação), insira o nome da partição Slurm desse grupo de instâncias de computação. As partições atuam como filas lógicas que organizam como os trabalhos são agendados em diferentes conjuntos de nós.
-
Escolha Adicionar grupo de instâncias.
Configuração do ciclo de vida - opcional
Configure como os nós do seu cluster são provisionados. Sua escolha afeta os requisitos de bucket do Amazon S3, as necessidades de acesso à Internet e a complexidade do provisionamento. HyperPod oferece suporte a três opções de configuração do ciclo de vida de nós, cada uma oferecendo um nível diferente de controle sobre o processo de provisionamento.
-
Para scripts de ciclo de vida, escolha uma das seguintes opções para controlar como os nós são provisionados em seu cluster:
-
Nenhum — HyperPod configura os nós automaticamente usando a AMI-based configuração. Os daemons do Slurm, Docker, Enroot, Pyxis, contabilidade do Slurm com MariaDB, geração e propagação de chaves SSH, rotação de logs e configuração do diretório inicial são todos configurados sem nenhum script ou bucket do Amazon S3. Todo o software é pré-empacotado na AMI, portanto, nenhum acesso à Internet é necessário durante o provisionamento. Esse é o caminho mais simples para novos clusters.
-
Use scripts de ciclo de vida padrão — Os scripts de ciclo de vida padrão são carregados no bucket Amazon S3 escolhido e usados para provisionar nós. Essa opção usa os scripts do repositório Awsome Distributed Training
(ADTR). -
Use scripts de ciclo de vida personalizados — Escolha scripts de ciclo de vida de um bucket do Amazon S3. Isso corresponde ao
OnCreatecaminho na API, em que seus scripts controlam toda a sequência de provisionamento, inclusive quando o Slurm é iniciado. HyperPod não executa a AMI-based configuração quando essa opção é selecionada.
A tabela a seguir resume as três opções:
Opção O que HyperPod faz É necessário um bucket Amazon S3? É necessário acesso à Internet? Nenhuma (AMI-basedconfiguração) Configura nós automaticamente com o Slurm e pacotes essenciais Não Não Use scripts de ciclo de vida padrão Carrega e executa scripts ADTR do Amazon S3 Sim Sim Use scripts de ciclo de vida personalizados Executa seus scripts a partir do Amazon S3; você possui a sequência completa de provisionamento Sim Depende de seus scripts -
-
Para Arquivo de script de extensão no S3 - opcional (aparece quando você escolhe Nenhum em Scripts de ciclo de vida), insira o URI do Amazon S3 do seu script de extensão. O script de extensão permite que você provisione recursos opcionais adicionais, como observabilidade, System Security Services Daemon (SSSD) e montagem de buckets do Amazon S3, além das configurações padrão, sem gerenciar todo o conjunto de scripts de ciclo de vida.
Insira o URI completo do Amazon S3 no script do ponto de entrada, por exemplo:
s3://DOC-EXAMPLE-BUCKET/extensions/run_extensions.shHyperPod baixa a pasta inteira em que o script do ponto de entrada reside. Estruture sua pasta do Amazon S3 para que todos os arquivos de suporte estejam no mesmo diretório do script do ponto de entrada.
nota
Na API, isso corresponde à especificação
OnInitCompleteemLifeCycleConfigcomSourceS3Uri. O console os combina em um único campo URI do Amazon S3 apontando diretamente para o script do ponto de entrada.dica
Para scripts de extensão prontos para uso, consulte a pasta Extensões no repositório
do Awsome Distributed Training. O run_extensions.shscript orquestra vários recursos com botões booleanos simples para ativar ou desativar cada um. -
Para scripts de ciclo de vida do S3 (aparece quando você escolhe Usar scripts de ciclo de vida padrão ou Usar scripts de ciclo de vida personalizados), escolha criar um novo bucket ou usar um bucket existente para armazenar os scripts de ciclo de vida.
nota
A configuração opcional do ciclo de vida do nó é suportada somente para Slurm-orchestrated clusters. EKS-orchestrated Os clusters Amazon e os clusters Slurm que usam NodeProvisioningMode Continuous continuam exigindo scripts de ciclo de vida em cada grupo de instâncias.
nota
A opção Nenhum com um script de extensão e a opção Usar scripts de ciclo de vida personalizados são mutuamente exclusivas. Você não pode combinar AMI-based configuração com script de extensão e scripts de ciclo de vida personalizados no mesmo grupo de instâncias. Na API, isso significa OnCreate e OnInitComplete não pode ser especificado em conjunto.
Permissões
Escolha ou crie uma função do IAM que permita HyperPod executar e acessar AWS os recursos necessários em seu nome.
Armazenamento
Configure o sistema de arquivos FSx for Lustre a ser HyperPod provisionado no cluster. A configuração do FSx é opcional para a criação de clusters, mas recomendada para cargas de trabalho de ML de produção.
-
Em Sistema de arquivos, escolha um sistema de arquivos existente do FSx para Lustre para criar um sistema de arquivos do FSx para Lustre, ou não provisione um sistema de arquivos do FSx para Lustre.
-
Em Throughput por unidade de armazenamento, escolha o throughput que estará disponível por TiB de armazenamento provisionado.
-
Em Capacidade de armazenamento, insira um valor de capacidade em TB.
-
Em Tipo de compactação de dados, escolha LZ4 para habilitar a compactação de dados.
-
Em Versão do Lustre, veja o valor recomendado para os novos sistemas de arquivos.
nota
Ao usar a AMI-based configuração (escolhendo Nenhuma em Scripts de ciclo de vida) ou um script de extensão, HyperPod manipula a montagem automática do FSx for Lustre. Ao usar scripts de ciclo de vida personalizados, seus scripts são responsáveis pela montagem do sistema de arquivos.
Tags: opcional
Para Tags - opcional, adicione pares de chaves e valores ao novo cluster e gerencie o cluster como um AWS recurso. Para saber mais, consulte Marcação de AWS recursos.
Implantar recursos.
Depois de concluir as configurações do cluster usando a Configuração rápida ou a Configuração personalizada, escolha a opção a seguir para iniciar o provisionamento de recursos e a criação do cluster.
-
Enviar — a SageMaker IA começará a provisionar os recursos de configuração padrão e a criar o cluster.
-
Baixar parâmetros CloudFormation do modelo - Você fará o download do arquivo JSON do parâmetro de configuração e executará o AWS CLI comando para implantar a CloudFormation pilha para provisionar os recursos de configuração e criar o cluster. Você pode editar o arquivo JSON do parâmetro baixado, se necessário. Se você escolher essa opção, consulte mais instruções em Criação de SageMaker HyperPod clusters usando CloudFormation modelos do.
Exclua o cluster e limpe os recursos.
Depois de testar com êxito a criação de um SageMaker HyperPod cluster, ele continua sendo executado no InService estado até que você exclua o cluster. Recomendamos que você exclua todos os clusters criados usando instâncias de SageMaker IA sob demanda quando não estiverem em uso para evitar cobranças de serviço contínuas com base nos preços sob demanda. Neste tutorial, você criou um cluster que consiste em dois grupos de instâncias. Um deles usa uma instância C5, portanto, exclua o cluster seguindo as instruções em Excluir um SageMaker HyperPod cluster.
No entanto, se você tiver criado um cluster com capacidade computacional reservada, o status dos clusters não afetará o faturamento do serviço.
Se você usou Usar scripts de ciclo de vida padrão ou Usar scripts de ciclo de vida personalizados, acesse o bucket do Amazon S3 que você usou durante a criação do cluster e remova os arquivos de script de ciclo de vida.
Se você usou Nenhum (somente AMI-based configuração) sem um script de extensão, nenhuma limpeza do Amazon S3 será necessária para scripts de ciclo de vida.
Se você usou None com um script de extensão, limpe os arquivos de script de extensão do bucket do Amazon S3 que você especificou.
Se você testou a execução de qualquer workload no cluster, verifique se você carregou algum dado ou se seu trabalho salvou algum artefato em diferentes buckets do S3 ou serviços do sistema de arquivos, como Amazon FSx para Lustre e Amazon Elastic File System. Para evitar cobranças, exclua todos os artefatos e dados do armazenamento ou do sistema de arquivos.