As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configuração da governança de tarefas
Esta seção inclui informações sobre como configurar o complemento EKS de governança de SageMaker HyperPod tarefas da Amazon. Isso inclui a concessão de permissões que possibilitam definir a priorização de tarefas, a alocação de computação a equipes, como a computação ociosa é compartilhada e a preempção de tarefas para equipes.
Se estiver encontrando problemas na configuração, consulte Solução de problemas para ver soluções de problemas conhecidas.
Tópicos
Configurações do Kueue
HyperPod O complemento EKS de governança de tarefas instala o Kueue para seus clusters EKS
| Versão complementar de governança de HyperPod tarefas do EKS | Versão do Kueue que é instalada como parte do complemento |
|---|---|
|
v1.1.3 |
v0.12.0 |
nota
O Kueue v.012.0 e posterior não incluem o kueue-rbac-proxy como parte da instalação. É possível que as versões anteriores tenham o kueue-rbac-proxy instalado. Por exemplo, se você estiver usando o Kueue v0.8.1, talvez tenha o kueue-rbac-proxy v0.18.1.
HyperPod a governança de tarefas aproveita o Kueue para enfileiramento de Kubernetes-native trabalhos, agendamento e gerenciamento de cotas e é instalada com o complemento EKS de governança de tarefas. HyperPod Quando instalado, HyperPod cria e modifica recursos do SageMaker AI-managed KubernetesKueueManagerConfig, como,,, ClusterQueuesLocalQueues, e. WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Embora os administradores do Kubernetes tenham a flexibilidade de modificar o estado desses recursos, é possível que qualquer alteração feita em um SageMaker AI-managed recurso seja atualizada e substituída pelo serviço.
As informações a seguir descrevem as configurações utilizadas pelo complemento de governança de HyperPod tarefas para configurar o Kueue.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
Para ter mais informações sobre cada entrada da configuração, consulte Configuration
HyperPod Pré-requisitos de governança de tarefas
-
Certifique-se de ter a política de permissão mínima para administradores de HyperPod cluster, emUsuários do IAM para administração de cluster. Isso inclui permissões para executar as APIs SageMaker HyperPod principais, gerenciar SageMaker HyperPod clusters dentro do seu Conta da AWS e realizar as tarefas emGerenciamento de SageMaker HyperPod clusters orquestrados pelo Amazon EKS.
-
Você precisará ter uma versão do Kubernetes >= 1.30. Para obter instruções, consulte Atualizar um cluster existente para a nova versão do Kubernetes.
-
Se você já tem o Kueue instalado em seus clusters, desinstale-o antes de instalar o complemento do EKS.
-
Um HyperPod nó já deve existir no cluster EKS antes de instalar o complemento de governança de HyperPod tarefas.
HyperPod configuração de governança de tarefas
Veja a seguir informações sobre como configurar a governança de HyperPod tarefas.
Você pode ver a guia Políticas no console de HyperPod SageMaker IA se a instalação for bem-sucedida. Você também pode usar o seguinte exemplo de AWS CLI comando describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance