As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Instalar pacotes no cluster do Amazon EKS usando o Helm
Antes de criar um SageMaker HyperPod cluster e anexá-lo a um cluster Amazon EKS, você deve instalar pacotes usando o Helm
A equipe SageMaker HyperPod de serviço fornece um pacote de gráficos do Helm, que agrupa as principais dependências, como device/EFA plug-ins, plug-ins, Kubeflow Training
Importante
Essa etapa de instalação do Helm é obrigatória. Se você configurar o cluster do Amazon EKS usando o Console de gerenciamento da AWSou o CloudFormation, pode ignorar essa etapa porque a instalação é feita automaticamente durante o processo de configuração. Se você configurar o cluster diretamente usando as APIs, use o chart do Helm fornecido para configurar o cluster do Amazon EKS. A falha na configuração do seu cluster Amazon EKS usando o gráfico Helm fornecido pode fazer com que o SageMaker HyperPod cluster não funcione corretamente ou que o processo de criação falhe totalmente. O nome do namespace da aws-hyperpod não pode ser modificado.
-
Instale o Helm
na máquina local. -
Faça o download dos gráficos do Helm fornecidos por SageMaker HyperPod localizados
helm_chart/HyperPodHelmChartno repositório SageMaker HyperPod CLI. git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart -
Atualize as dependências do chart do helm, visualize as alterações que serão feitas no seu cluster Kubernetes e instale o chart do helm.
helm dependencies update HyperPodHelmCharthelm install hyperpod-dependencies HyperPodHelmChart --namespace kube-system --dry-runhelm install hyperpod-dependencies HyperPodHelmChart --namespace kube-system
Em resumo, a instalação do Helm configura vários componentes para seu cluster Amazon EKS, incluindo agendamento e enfileiramento de trabalhos (Kueue), gerenciamento de armazenamento, integração com MLflow e Kubeflow. Além disso, os gráficos instalam os seguintes componentes para integração com os recursos de resiliência do SageMaker HyperPod cluster, que são componentes necessários.
-
Agente de monitoramento de saúde — Isso instala o agente de monitoramento de saúde fornecido por. SageMaker HyperPod Isso é necessário se você quiser que seu HyperPod cluster seja monitorado. Health-monitoring os agentes são fornecidos como imagens do Docker da seguinte forma. Conforme fornecido
values.yamlnos charts do helm, a imagem é predefinida. O agente suporta GPU-based instâncias e Trainium-accelerator-based instâncias (trn1,trn1n,inf2). Ele é instalado no namespaceaws-hyperpod. Para encontrar seu URI compatível, consulte Regiões suportadas e seus URIs ECR no repositório sagemaker-hyperpod-cli em. GitHub -
Verificação profunda de integridade — Isso configura a
ClusterRole, a ServiceAccount (deep-health-check-service-account) noaws-hyperpodnamespace e aClusterRoleBindingpara ativar o recurso de verificação SageMaker HyperPod profunda de integridade. Para obter mais informações sobre o arquivo RBAC do Kubernetes para verificação profunda da integridade, consulte o arquivo de configuração nodeep-health-check-rbac.yamlrepositório da CLI. SageMaker HyperPod GitHub -
job-auto-restart- Isso configura aClusterRole, a ServiceAccount (job-auto-restart) noaws-hyperpodnamespace e aClusterRoleBinding, para ativar o recurso de reinicialização automática para trabalhos de PyTorch treinamento em. SageMaker HyperPod Para obter mais informações sobre o arquivo RBAC do Kubernetes parajob-auto-restart, consulte o arquivo de configuração nojob-auto-restart-rbac.yamlrepositório CLI. SageMaker HyperPod GitHub -
Operador Kubeflow MPI — O Operador MPI é um operador
Kubernetes que simplifica a execução de cargas de trabalho distribuídas de Machine Learning (ML) e High-Performance Computação (HPC) usando a Message Passing Interface (MPI) em clusters Kubernetes. Ele instala o MPI Operator v0.5. Ele é instalado no namespace mpi-operator. -
nvidia-device-plugin: Este é um plug-in de dispositivo Kubernetes que permite que você exponha automaticamente GPUs NVIDIA para consumo por contêineres em seu cluster Amazon EKS. Ele permite que o Kubernetes aloque e forneça acesso às GPUs solicitadas para esse contêiner. Obrigatório ao usar um tipo de instância com GPU. -
neuron-device-plugin: Este é um plug-in de dispositivo Kubernetes que permite que você exponha automaticamente chips Inferentia da AWS para consumo por contêineres em seu cluster Amazon EKS. Ele permite que o Kubernetes acesse e utilize os chips AWS Inferentia nos nós do cluster. Obrigatório ao usar um tipo de instância Neuron. -
aws-efa-k8s-device-plugin— Esse é um plug-in de dispositivo Kubernetes que permite o uso do AWS Elastic Fabric Adapter (EFA) em clusters Amazon EKS. O EFA é um dispositivo de rede que fornece comunicação de baixa latência e alta throughput entre instâncias em um cluster. Obrigatório ao usar um tipo de instância compatível com o EFA.
Para obter mais informações sobre o procedimento de instalação usando os gráficos Helm fornecidos, consulte o arquivo README no repositório CLI SageMaker HyperPod