

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pengaturan untuk tata kelola SageMaker HyperPod tugas
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-setup"></a>

Bagian berikut memberikan informasi tentang cara mengatur dengan Amazon CloudWatch Observability EKS dan add-on tata kelola SageMaker HyperPod tugas.

Pastikan Anda memiliki kebijakan izin minimum untuk administrator HyperPod klaster dengan Amazon EKS, di[Pengguna IAM untuk admin cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin). Ini termasuk izin untuk menjalankan SageMaker HyperPod inti APIs dan mengelola SageMaker HyperPod cluster di dalam Anda Akun AWS, melakukan tugas di. [Mengelola SageMaker HyperPod cluster yang diatur oleh Amazon EKS](sagemaker-hyperpod-eks-operate.md) 

**Topics**
+ [Pengaturan dasbor](sagemaker-hyperpod-eks-operate-console-ui-governance-setup-dashboard.md)
+ [Pengaturan tata kelola tugas](sagemaker-hyperpod-eks-operate-console-ui-governance-setup-task-governance.md)

# Pengaturan dasbor
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-setup-dashboard"></a>

Gunakan informasi berikut untuk menyiapkan add-on Amazon SageMaker HyperPod Amazon CloudWatch Observability EKS. Ini membuat Anda siap dengan dasbor visual terperinci yang menyediakan tampilan metrik untuk perangkat keras kluster EKS, alokasi tim, dan tugas Anda.

Jika Anda mengalami masalah saat menyiapkan, silakan lihat [Pemecahan Masalah](sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot.md) untuk solusi pemecahan masalah yang diketahui.

**Topics**
+ [HyperPod Prasyarat add-on Amazon CloudWatch Observability EKS](#hp-eks-dashboard-prerequisites)
+ [HyperPod Penyiapan add-on Amazon CloudWatch Observability EKS](#hp-eks-dashboard-setup)

## HyperPod Prasyarat add-on Amazon CloudWatch Observability EKS
<a name="hp-eks-dashboard-prerequisites"></a>

Bagian berikut mencakup prasyarat yang diperlukan sebelum menginstal add-on Amazon EKS Observability.
+ Pastikan Anda memiliki kebijakan izin minimum untuk administrator HyperPod klaster, di[Pengguna IAM untuk admin cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin).
+ Lampirkan kebijakan `CloudWatchAgentServerPolicy` IAM ke node pekerja Anda. Untuk melakukan hal itu, masukkan perintah berikut. Ganti `my-worker-node-role` dengan peran IAM yang digunakan oleh node pekerja Kubernetes Anda.

  ```
  aws iam attach-role-policy \
  --role-name my-worker-node-role \
  --policy-arn arn:aws:iam::aws:policy/CloudWatchAgentServerPolicy
  ```

## HyperPod Penyiapan add-on Amazon CloudWatch Observability EKS
<a name="hp-eks-dashboard-setup"></a>

Gunakan opsi berikut untuk menyiapkan add-on Amazon SageMaker HyperPod Amazon CloudWatch Observability EKS.

------
#### [ Setup using the SageMaker AI console ]

Izin berikut diperlukan untuk penyiapan dan visualisasi dasbor tata kelola HyperPod tugas. Bagian ini memperluas izin yang tercantum di. [Pengguna IAM untuk admin cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin) 

Untuk mengelola tata kelola tugas, gunakan kebijakan sampel:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "sagemaker:ListClusters",
                "sagemaker:DescribeCluster",
                "sagemaker:ListComputeQuotas",
                "sagemaker:CreateComputeQuota",
                "sagemaker:UpdateComputeQuota",
                "sagemaker:DescribeComputeQuota",
                "sagemaker:DeleteComputeQuota",
                "sagemaker:ListClusterSchedulerConfigs",
                "sagemaker:DescribeClusterSchedulerConfig",
                "sagemaker:CreateClusterSchedulerConfig",
                "sagemaker:UpdateClusterSchedulerConfig",
                "sagemaker:DeleteClusterSchedulerConfig",
                "eks:ListAddons",
                "eks:CreateAddon",
                "eks:DescribeAddon",
                "eks:DescribeCluster",
                "eks:DescribeAccessEntry",
                "eks:ListAssociatedAccessPolicies",
                "eks:AssociateAccessPolicy",
                "eks:DisassociateAccessPolicy"
            ],
            "Resource": "*"
        }
    ]
}
```

------

Untuk memberikan izin mengelola Amazon CloudWatch Observability Amazon EKS dan melihat dasbor HyperPod cluster melalui konsol SageMaker AI, gunakan kebijakan contoh di bawah ini:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "eks:ListAddons",
                "eks:CreateAddon",
                "eks:UpdateAddon",
                "eks:DescribeAddon",
                "eks:DescribeAddonVersions",
                "sagemaker:DescribeCluster",
                "sagemaker:DescribeClusterNode",
                "sagemaker:ListClusterNodes",
                "sagemaker:ListClusters",
                "sagemaker:ListComputeQuotas",
                "sagemaker:DescribeComputeQuota",
                "sagemaker:ListClusterSchedulerConfigs",
                "sagemaker:DescribeClusterSchedulerConfig",
                "eks:DescribeCluster",
                "cloudwatch:GetMetricData",
                "eks:AccessKubernetesApi"
            ],
            "Resource": "*"
        }
    ]
}
```

------

Arahkan ke tab **Dasbor** di SageMaker HyperPod konsol untuk menginstal Amazon CloudWatch Observability EKS. Untuk memastikan metrik terkait tata kelola tugas disertakan dalam **Dasbor**, aktifkan kotak centang metrik Kueue. Mengaktifkan metrik Kueue memungkinkan biaya Metrik, setelah CloudWatch **batas tingkat** bebas tercapai. Untuk informasi selengkapnya, lihat **Metrik** di [ CloudWatchHarga Amazon](https://aws.amazon.com/cloudwatch/pricing/).

------
#### [ Setup using the EKS AWS CLI ]

Gunakan AWS CLI perintah EKS berikut untuk menginstal add-on:

```
aws eks create-addon --cluster-name cluster-name 
--addon-name amazon-cloudwatch-observability 
--configuration-values "configuration json"
```

Di bawah ini adalah contoh JSON dari nilai konfigurasi:

```
{
    "agent": {
        "config": {
            "logs": {
                "metrics_collected": {
                    "kubernetes": {
                        "kueue_container_insights": true,
                        "enhanced_container_insights": true
                    },
                    "application_signals": { }
                }
            },
            "traces": {
                "traces_collected": {
                    "application_signals": { }
                }
            }
        },
    },
}
```

------
#### [ Setup using the EKS Console UI ]

1. Arahkan ke [konsol EKS](https://console.aws.amazon.com/eks/home#/clusters).

1. Pilih cluster Anda.

1. Pilih **Add-on.**

1. Temukan add-on **Amazon CloudWatch Observability** dan instal. Instal versi >= 2.4.0 untuk add-on. 

1. Sertakan JSON berikut, nilai Konfigurasi:

   ```
   {
       "agent": {
           "config": {
               "logs": {
                   "metrics_collected": {
                       "kubernetes": {
                           "kueue_container_insights": true,
                           "enhanced_container_insights": true
                       },
                       "application_signals": { }
                   },
               },
               "traces": {
                   "traces_collected": {
                       "application_signals": { }
                   }
               }
           },
       },
   }
   ```

------

**Setelah add-on EKS Observability berhasil diinstal, Anda dapat melihat metrik kluster EKS Anda di bawah tab Dasbor HyperPod konsol.**

# Pengaturan tata kelola tugas
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-setup-task-governance"></a>

Bagian ini mencakup informasi tentang cara mengatur add-on EKS tata kelola SageMaker HyperPod tugas Amazon. Ini termasuk pemberian izin yang memungkinkan Anda mengatur prioritas tugas, menghitung alokasi untuk tim, cara komputasi idle dibagikan, dan preemption tugas untuk tim.

Jika Anda mengalami masalah saat menyiapkan, silakan lihat [Pemecahan Masalah](sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot.md) untuk solusi pemecahan masalah yang diketahui.

**Topics**
+ [Pengaturan Kueue](#hp-eks-task-governance-kueue-settings)
+ [HyperPod Prasyarat tata kelola tugas](#hp-eks-task-governance-prerequisites)
+ [HyperPod pengaturan tata kelola tugas](#hp-eks-task-governance-setup)

## Pengaturan Kueue
<a name="hp-eks-task-governance-kueue-settings"></a>

HyperPod tata kelola tugas EKS add-on menginstal [Kueue](https://github.com/kubernetes-sigs/kueue/tree/main/apis/kueue) untuk kluster EKS Anda. HyperPod Kueue adalah sistem kubernetes-native yang mengelola kuota dan bagaimana pekerjaan mengkonsumsinya. 


| Versi pengaya tata kelola HyperPod tugas EKS | Versi Kueue yang diinstal sebagai bagian dari add-on | 
| --- | --- | 
|  v1.1.3  |  v0.12.0  | 

**catatan**  
Kueue v.012.0 dan yang lebih tinggi tidak termasuk kueue-rbac-proxy sebagai bagian dari instalasi. Versi sebelumnya mungkin telah kueue-rbac-proxy diinstal. Misalnya, jika Anda menggunakan Kueue v0.8.1, Anda mungkin memiliki v0.18.1. kueue-rbac-proxy

HyperPod Task governance memanfaatkan Kueue untuk antrian pekerjaan asli Kubernetes, penjadwalan, dan manajemen kuota, dan diinstal dengan add-on EKS tata kelola tugas. HyperPod Saat diinstal, HyperPod membuat dan memodifikasi sumber daya Kubernetes yang SageMaker dikelola AI seperti`KueueManagerConfig`,,,,`ClusterQueues`, `LocalQueues` dan. `WorkloadPriorityClasses` `ResourceFlavors` `ValidatingAdmissionPolicies` Meskipun administrator Kubernetes memiliki fleksibilitas untuk memodifikasi status sumber daya ini, ada kemungkinan bahwa setiap perubahan yang dibuat pada sumber daya yang SageMaker dikelola AI dapat diperbarui dan ditimpa oleh layanan.

Informasi berikut menguraikan pengaturan konfigurasi yang digunakan oleh add-on tata kelola HyperPod tugas untuk menyiapkan Kueue.

```
  apiVersion: config.kueue.x-k8s.io/v1beta1
    kind: Configuration
    health:
      healthProbeBindAddress: :8081
    metrics:
      bindAddress: :8443
      enableClusterQueueResources: true
    webhook:
      port: 9443
    manageJobsWithoutQueueName: false
    leaderElection:
      leaderElect: true
      resourceName: c1f6bfd2.kueue.x-k8s.io
    controller:
      groupKindConcurrency:
        Job.batch: 5
        Pod: 5
        Workload.kueue.x-k8s.io: 5
        LocalQueue.kueue.x-k8s.io: 1
        ClusterQueue.kueue.x-k8s.io: 1
        ResourceFlavor.kueue.x-k8s.io: 1
    clientConnection:
      qps: 50
      burst: 100
    integrations:
      frameworks:
      - "batch/job"
      - "kubeflow.org/mpijob"
      - "ray.io/rayjob"
      - "ray.io/raycluster"
      - "jobset.x-k8s.io/jobset"
      - "kubeflow.org/mxjob"
      - "kubeflow.org/paddlejob"
      - "kubeflow.org/pytorchjob"
      - "kubeflow.org/tfjob"
      - "kubeflow.org/xgboostjob"
      - "pod"
      - "deployment"
      - "statefulset"
      - "leaderworkerset.x-k8s.io/leaderworkerset"
      podOptions:
        namespaceSelector:
          matchExpressions:
            - key: kubernetes.io/metadata.name
              operator: NotIn
              values: [ kube-system, kueue-system ]
    fairSharing:
      enable: true
      preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare]
    resources:
      excludeResourcePrefixes: []
```

Untuk informasi selengkapnya tentang setiap entri konfigurasi, lihat [Konfigurasi](https://kueue.sigs.k8s.io/docs/reference/kueue-config.v1beta1/#Configuration) dalam dokumentasi Kueue.

## HyperPod Prasyarat tata kelola tugas
<a name="hp-eks-task-governance-prerequisites"></a>
+ Pastikan Anda memiliki kebijakan izin minimum untuk administrator HyperPod klaster, di[Pengguna IAM untuk admin cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin). Ini termasuk izin untuk menjalankan SageMaker HyperPod inti APIs, mengelola SageMaker HyperPod kluster di dalam Anda Akun AWS, dan melakukan tugas di. [Mengelola SageMaker HyperPod cluster yang diatur oleh Amazon EKS](sagemaker-hyperpod-eks-operate.md) 
+ Anda harus memiliki versi Kubernetes >= 1.30. Untuk petunjuknya, lihat [Memperbarui klaster yang ada ke versi Kubernetes yang baru](https://docs.aws.amazon.com/eks/latest/userguide/update-cluster.html).
+ Jika Anda sudah menginstal Kueue di cluster mereka, hapus instalan Kueue sebelum menginstal add-on EKS.
+ Sebuah HyperPod node harus sudah ada di cluster EKS sebelum menginstal add-on tata kelola HyperPod tugas. 

## HyperPod pengaturan tata kelola tugas
<a name="hp-eks-task-governance-setup"></a>

Berikut ini memberikan informasi tentang cara mengatur tata kelola HyperPod tugas.

------
#### [ Setup using the SageMaker AI console ]

Berikut ini memberikan informasi tentang cara mengatur tata kelola HyperPod tugas menggunakan SageMaker HyperPod konsol.

Anda sudah memiliki semua izin berikut yang dilampirkan jika Anda telah memberikan izin untuk mengelola Amazon CloudWatch Observability EKS dan melihat dasbor HyperPod cluster melalui konsol SageMaker AI di. [HyperPod Penyiapan add-on Amazon CloudWatch Observability EKS](sagemaker-hyperpod-eks-operate-console-ui-governance-setup-dashboard.md#hp-eks-dashboard-setup) Jika Anda belum menyiapkan ini, gunakan kebijakan contoh di bawah ini untuk memberikan izin mengelola add-on tata kelola HyperPod tugas dan melihat dasbor HyperPod cluster melalui konsol AI. SageMaker 

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "eks:ListAddons",
                "eks:CreateAddon",
                "eks:UpdateAddon",
                "eks:DescribeAddon",
                "eks:DescribeAddonVersions",
                "sagemaker:DescribeCluster",
                "sagemaker:DescribeClusterNode",
                "sagemaker:ListClusterNodes",
                "sagemaker:ListClusters",
                "eks:DescribeCluster",
                "eks:AccessKubernetesApi"
            ],
            "Resource": "*"
        }
    ]
}
```

------

Arahkan ke tab **Dasbor** di SageMaker HyperPod konsol untuk menginstal Add-on tata kelola SageMaker HyperPod tugas Amazon. 

------
#### [ Setup using the Amazon EKS AWS CLI ]

Gunakan contoh AWS CLI perintah [https://awscli.amazonaws.com/v2/documentation/api/latest/reference/eks/create-addon.html](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/eks/create-addon.html)EKS untuk mengatur tata kelola HyperPod tugas Amazon EKS API dan UI konsol menggunakan: AWS CLI

```
aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance
```

------

Anda dapat melihat tab **Kebijakan** di konsol HyperPod SageMaker AI jika penginstalan berhasil. Anda juga dapat menggunakan contoh AWS CLI perintah [https://awscli.amazonaws.com/v2/documentation/api/latest/reference/eks/describe-addon.html](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/eks/describe-addon.html)EKS berikut untuk memeriksa status. 

```
aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance
```