

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Configuração para governança de SageMaker HyperPod tarefas
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-setup"></a>

A seção a seguir fornece informações sobre como configurar o Amazon CloudWatch Observability EKS e os complementos de governança de SageMaker HyperPod tarefas.

Certifique-se de ter a política de permissão mínima para administradores de HyperPod cluster com o Amazon EKS, em[Usuários do IAM para administração de cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin). Isso inclui permissões para executar o SageMaker HyperPod núcleo APIs e gerenciar SageMaker HyperPod clusters dentro do seu Conta da AWS, executando as tarefas em[Gerenciamento de SageMaker HyperPod clusters orquestrados pelo Amazon EKS](sagemaker-hyperpod-eks-operate.md). 

**Topics**
+ [Configuração do painel](sagemaker-hyperpod-eks-operate-console-ui-governance-setup-dashboard.md)
+ [Configuração da governança de tarefas](sagemaker-hyperpod-eks-operate-console-ui-governance-setup-task-governance.md)

# Configuração do painel
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-setup-dashboard"></a>

Use as informações a seguir para configurar o complemento Amazon SageMaker HyperPod Amazon CloudWatch Observability EKS. Com isso, você tem acesso a um painel visual detalhado que oferece uma visão das métricas de hardware, alocação de equipe e tarefas do cluster do EKS.

Se estiver encontrando problemas na configuração, consulte [Solução de problemas](sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot.md) para ver soluções de problemas conhecidas.

**Topics**
+ [HyperPod Pré-requisitos do complemento Amazon CloudWatch Observability EKS](#hp-eks-dashboard-prerequisites)
+ [HyperPod Configuração do complemento Amazon CloudWatch Observability EKS](#hp-eks-dashboard-setup)

## HyperPod Pré-requisitos do complemento Amazon CloudWatch Observability EKS
<a name="hp-eks-dashboard-prerequisites"></a>

A seção a seguir apresenta os pré-requisitos que devem ser atendidos antes de instalar o complemento de observabilidade do Amazon EKS.
+ Certifique-se de ter a política de permissão mínima para administradores de HyperPod cluster, em[Usuários do IAM para administração de cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin).
+ Anexe a política do IAM `CloudWatchAgentServerPolicy` aos nós de processamento. Para fazer isso, insira o comando a seguir. Substitua `my-worker-node-role` pelo perfil do IAM usado pelos nós de processamento do Kubernetes.

  ```
  aws iam attach-role-policy \
  --role-name my-worker-node-role \
  --policy-arn arn:aws:iam::aws:policy/CloudWatchAgentServerPolicy
  ```

## HyperPod Configuração do complemento Amazon CloudWatch Observability EKS
<a name="hp-eks-dashboard-setup"></a>

Use as seguintes opções para configurar o complemento Amazon SageMaker HyperPod Amazon CloudWatch Observability EKS.

------
#### [ Setup using the SageMaker AI console ]

As permissões a seguir são necessárias para configurar e visualizar o painel de controle de HyperPod tarefas. Esta seção expande as permissões listadas em [Usuários do IAM para administração de cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin). 

Para gerenciar a governança de tarefas, use o exemplo de política:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "sagemaker:ListClusters",
                "sagemaker:DescribeCluster",
                "sagemaker:ListComputeQuotas",
                "sagemaker:CreateComputeQuota",
                "sagemaker:UpdateComputeQuota",
                "sagemaker:DescribeComputeQuota",
                "sagemaker:DeleteComputeQuota",
                "sagemaker:ListClusterSchedulerConfigs",
                "sagemaker:DescribeClusterSchedulerConfig",
                "sagemaker:CreateClusterSchedulerConfig",
                "sagemaker:UpdateClusterSchedulerConfig",
                "sagemaker:DeleteClusterSchedulerConfig",
                "eks:ListAddons",
                "eks:CreateAddon",
                "eks:DescribeAddon",
                "eks:DescribeCluster",
                "eks:DescribeAccessEntry",
                "eks:ListAssociatedAccessPolicies",
                "eks:AssociateAccessPolicy",
                "eks:DisassociateAccessPolicy"
            ],
            "Resource": "*"
        }
    ]
}
```

------

Para conceder permissões para gerenciar o Amazon CloudWatch Observability (Amazon EKS) e visualizar o painel do HyperPod cluster por meio do console de SageMaker IA, use o exemplo de política abaixo:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "eks:ListAddons",
                "eks:CreateAddon",
                "eks:UpdateAddon",
                "eks:DescribeAddon",
                "eks:DescribeAddonVersions",
                "sagemaker:DescribeCluster",
                "sagemaker:DescribeClusterNode",
                "sagemaker:ListClusterNodes",
                "sagemaker:ListClusters",
                "sagemaker:ListComputeQuotas",
                "sagemaker:DescribeComputeQuota",
                "sagemaker:ListClusterSchedulerConfigs",
                "sagemaker:DescribeClusterSchedulerConfig",
                "eks:DescribeCluster",
                "cloudwatch:GetMetricData",
                "eks:AccessKubernetesApi"
            ],
            "Resource": "*"
        }
    ]
}
```

------

Navegue até a guia **Painel** no SageMaker HyperPod console para instalar o Amazon CloudWatch Observability EKS. Para garantir que as métricas relacionadas à governança de tarefas sejam incluídas no **Painel**, marque a caixa de seleção de métricas do Kueue. Ativar as métricas do Kueue ativa os custos CloudWatch **das métricas**, após o limite do nível gratuito ser atingido. Para obter mais informações, consulte **Métricas** nos [ CloudWatchpreços da Amazon](https://aws.amazon.com/cloudwatch/pricing/).

------
#### [ Setup using the EKS AWS CLI ]

Use o seguinte AWS CLI comando EKS para instalar o complemento:

```
aws eks create-addon --cluster-name cluster-name 
--addon-name amazon-cloudwatch-observability 
--configuration-values "configuration json"
```

Abaixo é apresentado um exemplo de JSON dos valores de configuração:

```
{
    "agent": {
        "config": {
            "logs": {
                "metrics_collected": {
                    "kubernetes": {
                        "kueue_container_insights": true,
                        "enhanced_container_insights": true
                    },
                    "application_signals": { }
                }
            },
            "traces": {
                "traces_collected": {
                    "application_signals": { }
                }
            }
        },
    },
}
```

------
#### [ Setup using the EKS Console UI ]

1. Navegue até o [console do EKS](https://console.aws.amazon.com/eks/home#/clusters).

1. Escolha seu cluster.

1. Escolha **Complementos**.

1. Encontre o complemento **Amazon CloudWatch Observability** e instale. Instale a versão >= 2.4.0 do complemento. 

1. Inclua os seguintes valores de configuração JSON:

   ```
   {
       "agent": {
           "config": {
               "logs": {
                   "metrics_collected": {
                       "kubernetes": {
                           "kueue_container_insights": true,
                           "enhanced_container_insights": true
                       },
                       "application_signals": { }
                   },
               },
               "traces": {
                   "traces_collected": {
                       "application_signals": { }
                   }
               }
           },
       },
   }
   ```

------

Depois que o complemento EKS Observability for instalado com sucesso, você poderá visualizar as métricas do cluster EKS na guia **Painel** do HyperPod console.

# Configuração da governança de tarefas
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-setup-task-governance"></a>

Esta seção inclui informações sobre como configurar o complemento EKS de governança de SageMaker HyperPod tarefas da Amazon. Isso inclui a concessão de permissões que possibilitam definir a priorização de tarefas, a alocação de computação a equipes, como a computação ociosa é compartilhada e a preempção de tarefas para equipes.

Se estiver encontrando problemas na configuração, consulte [Solução de problemas](sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot.md) para ver soluções de problemas conhecidas.

**Topics**
+ [Configurações do Kueue](#hp-eks-task-governance-kueue-settings)
+ [HyperPod Pré-requisitos de governança de tarefas](#hp-eks-task-governance-prerequisites)
+ [HyperPod configuração de governança de tarefas](#hp-eks-task-governance-setup)

## Configurações do Kueue
<a name="hp-eks-task-governance-kueue-settings"></a>

HyperPod O complemento EKS de governança de tarefas instala o [Kueue para seus clusters EKS](https://github.com/kubernetes-sigs/kueue/tree/main/apis/kueue). HyperPod O Kueue é um sistema nativo do Kubernetes que gerencia cotas e de que forma os trabalhos as consomem. 


| Versão complementar de governança de HyperPod tarefas do EKS | Versão do Kueue que é instalada como parte do complemento | 
| --- | --- | 
|  v1.1.3  |  v0.12.0  | 

**nota**  
O Kueue v.012.0 e superior não são incluídos kueue-rbac-proxy como parte da instalação. Versões anteriores podem ter sido kueue-rbac-proxy instaladas. Por exemplo, se você estiver usando o Kueue v0.8.1, talvez tenha o v0.18.1. kueue-rbac-proxy

HyperPod a governança de tarefas aproveita o Kueue para enfileiramento, agendamento e gerenciamento de cotas de trabalhos nativos do Kubernetes e é instalada com o complemento EKS de governança de tarefas. HyperPod Quando instalado, HyperPod cria e modifica recursos Kubernetes SageMaker gerenciados por IA`KueueManagerConfig`, como,,, e. `ClusterQueues` `LocalQueues` `WorkloadPriorityClasses` `ResourceFlavors` `ValidatingAdmissionPolicies` Embora os administradores do Kubernetes tenham a flexibilidade de modificar o estado desses recursos, é possível que qualquer alteração feita em um recurso SageMaker gerenciado por IA seja atualizada e substituída pelo serviço.

As informações a seguir descrevem as configurações utilizadas pelo complemento de governança de HyperPod tarefas para configurar o Kueue.

```
  apiVersion: config.kueue.x-k8s.io/v1beta1
    kind: Configuration
    health:
      healthProbeBindAddress: :8081
    metrics:
      bindAddress: :8443
      enableClusterQueueResources: true
    webhook:
      port: 9443
    manageJobsWithoutQueueName: false
    leaderElection:
      leaderElect: true
      resourceName: c1f6bfd2.kueue.x-k8s.io
    controller:
      groupKindConcurrency:
        Job.batch: 5
        Pod: 5
        Workload.kueue.x-k8s.io: 5
        LocalQueue.kueue.x-k8s.io: 1
        ClusterQueue.kueue.x-k8s.io: 1
        ResourceFlavor.kueue.x-k8s.io: 1
    clientConnection:
      qps: 50
      burst: 100
    integrations:
      frameworks:
      - "batch/job"
      - "kubeflow.org/mpijob"
      - "ray.io/rayjob"
      - "ray.io/raycluster"
      - "jobset.x-k8s.io/jobset"
      - "kubeflow.org/mxjob"
      - "kubeflow.org/paddlejob"
      - "kubeflow.org/pytorchjob"
      - "kubeflow.org/tfjob"
      - "kubeflow.org/xgboostjob"
      - "pod"
      - "deployment"
      - "statefulset"
      - "leaderworkerset.x-k8s.io/leaderworkerset"
      podOptions:
        namespaceSelector:
          matchExpressions:
            - key: kubernetes.io/metadata.name
              operator: NotIn
              values: [ kube-system, kueue-system ]
    fairSharing:
      enable: true
      preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare]
    resources:
      excludeResourcePrefixes: []
```

Para ter mais informações sobre cada entrada da configuração, consulte [Configuration](https://kueue.sigs.k8s.io/docs/reference/kueue-config.v1beta1/#Configuration) na documentação do Kueue.

## HyperPod Pré-requisitos de governança de tarefas
<a name="hp-eks-task-governance-prerequisites"></a>
+ Certifique-se de ter a política de permissão mínima para administradores de HyperPod cluster, em[Usuários do IAM para administração de cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin). Isso inclui permissões para executar o SageMaker HyperPod núcleo APIs, gerenciar SageMaker HyperPod clusters dentro do seu Conta da AWS e realizar as tarefas em[Gerenciamento de SageMaker HyperPod clusters orquestrados pelo Amazon EKS](sagemaker-hyperpod-eks-operate.md). 
+ Você precisará ter uma versão do Kubernetes >= 1.30. Para obter instruções, consulte [Atualizar um cluster existente para a nova versão do Kubernetes](https://docs.aws.amazon.com/eks/latest/userguide/update-cluster.html).
+ Se você já tem o Kueue instalado em seus clusters, desinstale-o antes de instalar o complemento do EKS.
+ Um HyperPod nó já deve existir no cluster EKS antes de instalar o complemento de governança de HyperPod tarefas. 

## HyperPod configuração de governança de tarefas
<a name="hp-eks-task-governance-setup"></a>

A seguir, são apresentadas informações sobre como configurar a governança de HyperPod tarefas.

------
#### [ Setup using the SageMaker AI console ]

Veja a seguir informações sobre como configurar a governança de HyperPod tarefas usando o SageMaker HyperPod console.

Você já tem todas as permissões a seguir anexadas se já tiver concedido permissões para gerenciar o Amazon CloudWatch Observability EKS e visualizar o painel do HyperPod cluster por meio do console de SageMaker IA no[HyperPod Configuração do complemento Amazon CloudWatch Observability EKS](sagemaker-hyperpod-eks-operate-console-ui-governance-setup-dashboard.md#hp-eks-dashboard-setup). Se você não configurou isso, use o exemplo de política abaixo para conceder permissões para gerenciar o complemento de governança de HyperPod tarefas e visualizar o painel do HyperPod cluster por meio do console de SageMaker IA.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "eks:ListAddons",
                "eks:CreateAddon",
                "eks:UpdateAddon",
                "eks:DescribeAddon",
                "eks:DescribeAddonVersions",
                "sagemaker:DescribeCluster",
                "sagemaker:DescribeClusterNode",
                "sagemaker:ListClusterNodes",
                "sagemaker:ListClusters",
                "eks:DescribeCluster",
                "eks:AccessKubernetesApi"
            ],
            "Resource": "*"
        }
    ]
}
```

------

Navegue até a guia **Painel** no SageMaker HyperPod console para instalar o complemento de governança de SageMaker HyperPod tarefas da Amazon. 

------
#### [ Setup using the Amazon EKS AWS CLI ]

Use o AWS CLI comando [https://awscli.amazonaws.com/v2/documentation/api/latest/reference/eks/create-addon.html](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/eks/create-addon.html)EKS de exemplo para configurar a governança de HyperPod tarefas, a API Amazon EKS e a interface do console do Amazon EKS usando AWS CLI:

```
aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance
```

------

Você pode ver a guia **Políticas** no console de HyperPod SageMaker IA se a instalação for bem-sucedida. Você também pode usar o seguinte exemplo de AWS CLI comando [https://awscli.amazonaws.com/v2/documentation/api/latest/reference/eks/describe-addon.html](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/eks/describe-addon.html)EKS para verificar o status. 

```
aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance
```