

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Kebijakan
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies"></a>

 SageMaker HyperPod Tata kelola tugas Amazon menyederhanakan cara sumber daya klaster Amazon EKS dialokasikan dan bagaimana tugas diprioritaskan. Berikut ini memberikan informasi tentang kebijakan klaster HyperPod EKS. Untuk informasi tentang cara mengatur tata kelola tugas, lihat[Pengaturan tata kelola tugas](sagemaker-hyperpod-eks-operate-console-ui-governance-setup-task-governance.md).

**Kebijakan dibagi menjadi **prioritas Komputasi dan alokasi Komputasi**.** Konsep kebijakan di bawah ini akan diatur dalam konteks kebijakan ini.

**Prioritas komputasi**, atau kebijakan klaster, menentukan bagaimana komputasi idle dipinjam dan bagaimana tugas diprioritaskan oleh tim.
+ **Alokasi komputasi idle menentukan bagaimana komputasi idle dialokasikan** di seluruh tim. Artinya, bagaimana komputasi yang tidak terpakai dapat dipinjam dari tim. Saat memilih **alokasi komputasi Idle**, Anda dapat memilih antara:
  + **First-come first-serve**: Ketika diterapkan, tim tidak diprioritaskan satu sama lain dan setiap tugas yang masuk memiliki kemungkinan yang sama untuk mendapatkan sumber daya yang berlebihan. Tugas diprioritaskan berdasarkan urutan pengajuan. Ini berarti pengguna mungkin dapat menggunakan 100% dari komputasi idle jika mereka memintanya terlebih dahulu.
  + **Fair-share****: Saat diterapkan, tim meminjam komputasi idle berdasarkan bobot Fair-share yang ditetapkan.** Bobot ini didefinisikan dalam alokasi **Komputasi**. Untuk informasi lebih lanjut tentang bagaimana ini dapat digunakan, lihat[Berbagi contoh sumber daya komputasi idle](#hp-eks-task-governance-policies-examples).
+ **Prioritas tugas** mendefinisikan bagaimana tugas diantrian saat komputasi tersedia. Saat memilih **prioritas Tugas**, Anda dapat memilih antara:
  + **First-come first-serve**: Saat diterapkan, tugas diantrian sesuai urutan yang diminta.
  + **Peringkat tugas**: Ketika diterapkan, tugas diantrian dalam urutan yang ditentukan oleh prioritas mereka. Jika opsi ini dipilih, Anda harus menambahkan kelas prioritas bersama dengan bobot di mana mereka harus diprioritaskan. Tugas dari kelas prioritas yang sama akan dieksekusi berdasarkan first-come first-serve. Saat diaktifkan dalam alokasi Komputasi, tugas didahului dari tugas prioritas rendah oleh tugas prioritas yang lebih tinggi dalam tim.

    Ketika ilmuwan data mengirimkan pekerjaan ke cluster, mereka menggunakan nama kelas prioritas dalam file YAMM. Kelas prioritas ada dalam format`priority-class-name-priority`. Sebagai contoh, lihat [Kirim pekerjaan ke antrian dan namespace yang SageMaker dikelola AI](sagemaker-hyperpod-eks-operate-console-ui-governance-cli.md#hp-eks-cli-start-job).
  + **Kelas prioritas: Kelas-kelas** ini menetapkan prioritas relatif untuk tugas-tugas ketika meminjam kapasitas. Ketika tugas berjalan menggunakan kuota pinjaman, itu mungkin didahului oleh tugas lain dengan prioritas lebih tinggi daripada itu, jika tidak ada lagi kapasitas yang tersedia untuk tugas yang masuk. Jika **Preemption** diaktifkan dalam **alokasi Komputasi**, tugas prioritas yang lebih tinggi juga dapat mendahului tugas dalam timnya sendiri.
+ **Berbagi sumber daya yang tidak dialokasikan** memungkinkan tim meminjam sumber daya komputasi yang tidak dialokasikan ke tim mana pun melalui kuota komputasi. Saat diaktifkan, kapasitas klaster yang tidak terisi akan tersedia bagi tim untuk meminjam secara otomatis. Untuk informasi selengkapnya, lihat [Cara kerja berbagi sumber daya yang tidak terisi](#sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-how-it-works).

**Alokasi komputasi, atau kuota komputasi, menentukan alokasi** komputasi tim dan berapa bobot (atau tingkat prioritas) yang diberikan tim untuk alokasi komputasi idle share yang adil. 
+ **Nama tim**: Nama tim. **Namespace** yang sesuai akan dibuat, dari jenis. `hyperpod-ns-team-name` 
+ **Anggota**: Anggota namespace tim. Anda perlu menyiapkan kontrol akses berbasis peran Kubernetes (RBAC) untuk pengguna ilmuwan data yang Anda inginkan menjadi bagian dari tim ini, untuk menjalankan tugas pada cluster yang diatur dengan Amazon EKS. HyperPod [Untuk menyiapkan Kubernetes RBAC, gunakan instruksi dalam membuat peran tim.](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart#5-create-team-role)
+ **Bobot pembagian adil****: Ini adalah tingkat prioritas yang diberikan kepada tim saat **Fair-share diterapkan untuk alokasi komputasi** Idle.** Prioritas tertinggi memiliki bobot 100 dan prioritas terendah memiliki bobot 0. Bobot yang lebih tinggi memungkinkan tim untuk mengakses sumber daya yang tidak digunakan dalam kapasitas bersama lebih cepat. Bobot nol menandakan prioritas terendah, menyiratkan tim ini akan selalu berada pada posisi yang kurang menguntungkan dibandingkan dengan tim lain. 

  Bobot pembagian yang adil memberikan keunggulan komparatif bagi tim ini saat bersaing untuk sumber daya yang tersedia melawan yang lain. Penerimaan memprioritaskan tugas penjadwalan dari tim dengan bobot tertinggi dan pinjaman terendah. Misalnya, jika Tim A memiliki bobot 10 dan Tim B memiliki bobot 5, Tim A akan memiliki prioritas dalam mengakses sumber daya yang tidak digunakan karena akan memiliki pekerjaan yang dijadwalkan lebih awal dari Tim B.
+ **Pendahuluan tugas**: Komputasi diambil alih dari tugas berdasarkan prioritas. Secara default, tim yang meminjamkan komputasi idle akan mendahului tugas dari tim lain. 
+ **Meminjamkan dan meminjam**: Bagaimana komputasi idle dipinjamkan oleh tim dan jika tim dapat meminjam dari tim lain.
  + **Batas pinjaman berbasis persentase: Batas** komputasi idle yang diizinkan untuk dipinjam oleh tim, dinyatakan sebagai persentase dari kuota yang dijamin. Sebuah tim dapat meminjam hingga 10.000% dari perhitungan yang dialokasikan. Nilai yang Anda berikan di sini ditafsirkan sebagai persentase. Misalnya, nilai 500 akan ditafsirkan sebagai 500%. Persentase ini berlaku secara seragam di semua jenis sumber daya (CPU, GPU, Memori) dan jenis instans dalam kuota tim.
  + **Batas pinjaman absolut**: Batas komputasi idle yang diizinkan untuk dipinjam oleh tim, didefinisikan sebagai nilai sumber daya absolut per jenis instance. Ini memberikan kontrol terperinci atas perilaku meminjam untuk jenis instance tertentu. Anda perlu menentukan batas absolut menggunakan skema yang sama dengan **kuota Compute, termasuk jumlah instans, akselerator**, vCPU, memori, atau partisi akselerator. Anda dapat menentukan batas absolut untuk satu atau beberapa jenis instans dalam kuota tim Anda.

Untuk informasi tentang bagaimana konsep-konsep ini digunakan, seperti kelas prioritas dan spasi nama, lihat[Contoh perintah tata kelola HyperPod AWS CLI tugas](sagemaker-hyperpod-eks-operate-console-ui-governance-cli.md).

## Berbagi contoh sumber daya komputasi idle
<a name="hp-eks-task-governance-policies-examples"></a>

Total kuota cadangan tidak boleh melebihi kapasitas kluster yang tersedia untuk sumber daya tersebut, untuk memastikan pengelolaan kuota yang tepat. Misalnya, jika klaster terdiri dari 20 `ml.c5.2xlarge` instance, kuota kumulatif yang ditetapkan untuk tim harus tetap di bawah 20. 

Jika kebijakan **alokasi Komputasi** untuk tim mengizinkan Pinjaman **dan Pinjam atau Pinjamkan**, kapasitas idle akan **dibagi** di antara tim-tim ini. Misalnya, Tim A dan Tim B mengaktifkan **Lend and Borrow**. Tim A memiliki kuota 6 tetapi hanya menggunakan 2 untuk pekerjaannya, dan Tim B memiliki kuota 5 dan menggunakan 4 untuk pekerjaannya. Pekerjaan yang diserahkan ke Tim B yang membutuhkan 4 sumber daya. 3 akan dipinjam dari Tim A. 

Jika kebijakan **alokasi Komputasi** tim mana pun disetel ke **Jangan Pinjamkan**, tim tidak akan dapat meminjam kapasitas tambahan apa pun di luar alokasi sendiri.

## Cara kerja berbagi sumber daya yang tidak terisi
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-how-it-works"></a>

Berbagi sumber daya yang tidak teralokasikan secara otomatis mengelola kumpulan sumber daya yang tidak dialokasikan ke kuota komputasi apa pun di klaster Anda. Ini berarti HyperPod terus memantau status cluster Anda dan secara otomatis memperbarui ke konfigurasi yang benar dari waktu ke waktu.

**Pengaturan Awal**
+ Ketika Anda mengatur `IdleResourceSharing` ke `Enabled` dalam ClusterSchedulerConfig (secara default itu`Disabled`), tata kelola HyperPod tugas mulai memantau klaster Anda dan menghitung sumber daya idle yang tersedia dengan mengurangi kuota tim dari total kapasitas node.
+ Berbagi sumber daya yang tidak terisi ClusterQueues dibuat untuk mewakili kumpulan sumber daya yang dapat dipinjam.
+ Saat pertama kali mengaktifkan berbagi sumber daya yang tidak terisi, penyiapan infrastruktur membutuhkan waktu beberapa menit. Anda dapat memantau kemajuan melalui kebijakan `Status` dan `DetailedStatus` dalam ClusterSchedulerConfig.

**Rekonsiliasi yang sedang berlangsung**
+ HyperPod Tata kelola tugas terus memantau perubahan seperti penambahan atau penghapusan node dan pembaruan kuota antrian cluster.
+  Ketika perubahan terjadi, pembagian sumber daya yang tidak teralokasikan menghitung ulang kuota dan pembaruan. ClusterQueues Rekonsiliasi biasanya selesai dalam hitungan detik. 

**Pemantauan**

 Anda dapat memverifikasi bahwa pembagian sumber daya yang tidak teralokasikan sepenuhnya dikonfigurasi dengan memeriksa pembagian sumber daya yang tidak terisi: ClusterQueues 

```
kubectl get clusterqueue | grep hyperpod-ns-idle-resource-sharing
```

Ketika Anda melihat ClusterQueues dengan nama seperti`hyperpod-ns-idle-resource-sharing-cq-1`, berbagi sumber daya yang tidak terisi aktif. Perhatikan bahwa beberapa pembagian sumber daya yang tidak teralokasikan ClusterQueues mungkin ada tergantung pada jumlah ragam sumber daya di klaster Anda. 

## Kelayakan node untuk berbagi sumber daya yang tidak dialokasikan
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-node-eligibility"></a>

Unllocated Resource Sharing hanya mencakup node yang memenuhi persyaratan berikut:

1. **Status Siap Node**
   + Node harus dalam `Ready` status untuk berkontribusi pada kumpulan sumber daya yang tidak terisi.
   + Node dalam `NotReady` atau keadaan tidak siap lainnya dikecualikan dari perhitungan kapasitas.
   + Ketika sebuah node menjadi`Ready`, secara otomatis dimasukkan dalam siklus rekonsiliasi berikutnya.

1. **Status yang Dapat Dijadwalkan Node**
   + Node dengan `spec.unschedulable: true` dikecualikan dari berbagi sumber daya yang tidak terisi.
   + Ketika sebuah node menjadi dijadwalkan lagi, itu secara otomatis dimasukkan dalam siklus rekonsiliasi berikutnya.

1. **Konfigurasi MIG (hanya node GPU)**
   + Untuk node GPU dengan partisi MIG (Multi-Instance GPU), `nvidia.com/mig.config.state` label harus ditampilkan `success` agar node dapat menyumbangkan profil MIG ke pembagian sumber daya yang tidak terisi.
   + Node ini akan dicoba ulang secara otomatis setelah konfigurasi MIG selesai dengan sukses.

1. **Jenis Instance yang Didukung**
   + Instance harus berupa tipe SageMaker HyperPod instance yang didukung.
   + Lihat daftar jenis instans yang didukung di SageMaker HyperPod cluster.

**Topics**
+ [Berbagi contoh sumber daya komputasi idle](#hp-eks-task-governance-policies-examples)
+ [Cara kerja berbagi sumber daya yang tidak terisi](#sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-how-it-works)
+ [Kelayakan node untuk berbagi sumber daya yang tidak dialokasikan](#sagemaker-hyperpod-eks-operate-console-ui-governance-policies-idle-resource-sharing-node-eligibility)
+ [Buat kebijakan](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-create.md)
+ [Edit kebijakan](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-edit.md)
+ [Hapus kebijakan](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete.md)
+ [Mengalokasikan kuota komputasi dalam tata kelola tugas Amazon SageMaker HyperPod](sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation.md)

# Buat kebijakan
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-create"></a>

**Anda dapat membuat **kebijakan Cluster** dan konfigurasi **alokasi komputasi** di tab Kebijakan.** Berikut ini memberikan petunjuk tentang cara membuat konfigurasi berikut.
+ Buat **kebijakan Cluster** Anda untuk memperbarui cara tugas diprioritaskan dan penghitungan idle dialokasikan.
+ Buat **alokasi Komputasi** untuk membuat kebijakan alokasi komputasi baru untuk tim.
**catatan**  
Saat Anda membuat **alokasi Compute**, Anda perlu menyiapkan kontrol akses berbasis peran Kubernetes (RBAC) untuk pengguna data scientist di namespace yang sesuai untuk menjalankan tugas pada cluster yang diatur dengan Amazon EKS. HyperPod Ruang nama memiliki format. `hyperpod-ns-team-name` [Untuk menyiapkan Kubernetes RBAC, gunakan instruksi dalam membuat peran tim.](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart#5-create-team-role)

Untuk informasi tentang tata kelola HyperPod tugas konsep kebijakan klaster EKS, lihat[Kebijakan](sagemaker-hyperpod-eks-operate-console-ui-governance-policies.md).

**Buat kebijakan tata kelola HyperPod tugas**

Prosedur ini mengasumsikan bahwa Anda telah membuat kluster Amazon EKS yang HyperPod disiapkan. Jika Anda belum melakukannya, lihat[Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS](sagemaker-hyperpod-eks-operate-console-ui-create-cluster.md).

1. Arahkan ke [konsol Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/).

1. Di panel navigasi kiri, di bawah **HyperPodClusters**, pilih Manajemen **Cluster**.

1. Pilih klaster Amazon EKS Anda yang terdaftar di bawah **SageMaker HyperPodkluster**.

1. Pilih tab **Kebijakan**.

1. Untuk membuat **kebijakan Cluster** Anda:

   1. Pilih **Edit** yang sesuai untuk memperbarui bagaimana tugas diprioritaskan dan komputasi idle dialokasikan.

   1. Setelah Anda membuat perubahan, pilih **Kirim**.

1. Untuk membuat **alokasi Compute**:

1. 

   1. Pilih **Buat** yang sesuai. Ini membawa Anda ke halaman pembuatan alokasi komputasi.

   1. Setelah Anda membuat perubahan, pilih **Kirim**.

# Edit kebijakan
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-edit"></a>

**Anda dapat mengedit **kebijakan Cluster** dan konfigurasi **alokasi komputasi** di tab Kebijakan.** Berikut ini memberikan petunjuk tentang cara mengedit konfigurasi berikut.
+ Edit **kebijakan Cluster** Anda untuk memperbarui cara tugas diprioritaskan dan penghitungan idle dialokasikan.
+ Edit **Alokasi komputasi** untuk membuat kebijakan alokasi komputasi baru untuk tim.
**catatan**  
Saat Anda membuat **alokasi Compute**, Anda perlu menyiapkan kontrol akses berbasis peran Kubernetes (RBAC) untuk pengguna data scientist di namespace yang sesuai untuk menjalankan tugas pada cluster yang diatur dengan Amazon EKS. HyperPod Ruang nama memiliki format. `hyperpod-ns-team-name` [Untuk menyiapkan Kubernetes RBAC, gunakan instruksi dalam membuat peran tim.](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart#5-create-team-role)

Untuk informasi selengkapnya tentang konsep kebijakan klaster tata kelola HyperPod tugas EKS, lihat[Kebijakan](sagemaker-hyperpod-eks-operate-console-ui-governance-policies.md).

**Edit HyperPod kebijakan tata kelola tugas**

Prosedur ini mengasumsikan bahwa Anda telah membuat kluster Amazon EKS yang HyperPod disiapkan. Jika Anda belum melakukannya, lihat[Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS](sagemaker-hyperpod-eks-operate-console-ui-create-cluster.md).

1. Arahkan ke [konsol Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/).

1. Di panel navigasi kiri, di bawah **HyperPodClusters**, pilih Manajemen **Cluster**.

1. Pilih klaster Amazon EKS Anda yang terdaftar di bawah **SageMaker HyperPodkluster**.

1. Pilih tab **Kebijakan**.

1. Untuk mengedit **kebijakan Cluster** Anda:

   1. Pilih **Edit** yang sesuai untuk memperbarui bagaimana tugas diprioritaskan dan komputasi idle dialokasikan.

   1. Setelah Anda membuat perubahan, pilih **Kirim**.

1. Untuk mengedit **alokasi Komputasi** Anda:

1. 

   1. Pilih konfigurasi yang ingin Anda edit di bawah **Alokasi komputasi**. Ini akan membawa Anda ke halaman detail konfigurasi.

   1. Jika Anda ingin mengedit konfigurasi ini, pilih **Edit**.

   1. Setelah Anda membuat perubahan, pilih **Kirim**.

# Hapus kebijakan
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete"></a>

Anda dapat menghapus **kebijakan Cluster** dan konfigurasi **alokasi Komputasi** menggunakan konsol SageMaker AI atau. AWS CLI Halaman berikut memberikan petunjuk tentang cara menghapus kebijakan dan konfigurasi tata kelola SageMaker HyperPod tugas Anda.

Untuk informasi selengkapnya tentang konsep kebijakan klaster tata kelola HyperPod tugas EKS, lihat[Kebijakan](sagemaker-hyperpod-eks-operate-console-ui-governance-policies.md).

**catatan**  
Jika Anda mengalami masalah dengan mencantumkan atau menghapus kebijakan tata kelola tugas, Anda mungkin perlu memperbarui set izin minimum administrator klaster Anda. Lihat tab **Amazon EKS** di [Pengguna IAM untuk admin cluster](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-cluster-admin) bagian ini. Untuk informasi tambahan, lihat [Menghapus cluster](sagemaker-hyperpod-eks-operate-console-ui-governance-troubleshoot.md#hp-eks-troubleshoot-delete-policies).

## Hapus kebijakan tata kelola HyperPod tugas (konsol)
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete-console"></a>

Berikut ini menggunakan konsol SageMaker AI untuk menghapus kebijakan tata kelola HyperPod tugas Anda.

**catatan**  
Anda tidak dapat menghapus **kebijakan Cluster** (`ClusterSchedulerConfig`) menggunakan konsol SageMaker AI. Untuk mempelajari cara melakukannya menggunakan AWS CLI, lihat[Hapus kebijakan tata kelola HyperPod tugas ()AWS CLI](#sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete-cli).

**Untuk menghapus kebijakan tata kelola tugas (konsol)**

1. Arahkan ke [konsol Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/).

1. Di panel navigasi kiri, di bawah **HyperPodClusters**, pilih Manajemen **Cluster**.

1. Pilih klaster Amazon EKS Anda yang terdaftar di bawah **SageMaker HyperPodkluster**.

1. Pilih tab **Kebijakan**.

1. Untuk menghapus **alokasi Compute** ()`ComputeQuota`:

   1. Di bagian **Alokasi komputasi**, pilih konfigurasi yang ingin Anda hapus.

   1. **Di menu tarik-turun **Tindakan**, pilih Hapus.**

   1. Ikuti petunjuk di UI untuk menyelesaikan tugas.

## Hapus kebijakan tata kelola HyperPod tugas ()AWS CLI
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-delete-cli"></a>

Berikut ini menggunakan AWS CLI untuk menghapus kebijakan tata kelola HyperPod tugas Anda.

**catatan**  
Jika Anda mengalami masalah dalam menggunakan perintah berikut, Anda mungkin perlu memperbarui perintah Anda AWS CLI. Untuk informasi selengkapnya, lihat [Menginstal atau memperbarui ke versi terbaru AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html).

**Untuk menghapus kebijakan tata kelola tugas ()AWS CLI**

Pertama atur variabel Anda untuk AWS CLI perintah yang mengikuti.

```
REGION=aws-region
```

1. Dapatkan yang *cluster-arn* terkait dengan kebijakan yang ingin Anda hapus. Anda dapat menggunakan AWS CLI perintah berikut untuk membuat daftar cluster di Anda Wilayah AWS.

   ```
   aws sagemaker list-clusters \
       --region ${REGION}
   ```

1. Untuk menghapus alokasi komputasi ()`ComputeQuota`:

   1. Daftar semua kuota komputasi yang terkait dengan cluster. HyperPod 

      ```
      aws sagemaker list-compute-quotas \
          --cluster-arn cluster-arn \
          --region ${REGION}
      ```

   1. Untuk setiap yang ingin `compute-quota-id` Anda hapus, jalankan perintah berikut untuk menghapus kuota komputasi.

      ```
      aws sagemaker delete-compute-quota \
          --compute-quota-id compute-quota-id \
          --region ${REGION}
      ```

1. Untuk menghapus kebijakan klaster Anda (`ClusterSchedulerConfig`):

   1. Buat daftar semua kebijakan klaster yang terkait dengan HyperPod cluster.

      ```
      aws sagemaker list-cluster-scheduler-configs \
          --cluster-arn cluster-arn \
          --region ${REGION}
      ```

   1. Untuk setiap yang ingin `cluster-scheduler-config-id` Anda hapus, jalankan perintah berikut untuk menghapus kuota komputasi.

      ```
      aws sagemaker delete-cluster-scheduler-config 
          --cluster-scheduler-config-id scheduler-config-id \
          --region ${REGION}
      ```

# Mengalokasikan kuota komputasi dalam tata kelola tugas Amazon SageMaker HyperPod
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation"></a>

Administrator klaster dapat memutuskan bagaimana organisasi menggunakan komputasi yang dibeli. Melakukannya mengurangi pemborosan dan sumber daya yang menganggur. Anda dapat mengalokasikan kuota komputasi sehingga tim dapat meminjam sumber daya yang tidak digunakan satu sama lain. Menghitung alokasi kuota dalam tata kelola HyperPod tugas memungkinkan administrator mengalokasikan sumber daya pada tingkat instans dan pada tingkat sumber daya yang lebih terperinci. Kemampuan ini menyediakan manajemen sumber daya yang fleksibel dan efisien untuk tim dengan memungkinkan kontrol terperinci atas sumber daya komputasi individu alih-alih memerlukan seluruh alokasi instance. Mengalokasikan pada tingkat granular menghilangkan inefisiensi alokasi tingkat instans tradisional. Melalui pendekatan ini, Anda dapat mengoptimalkan pemanfaatan sumber daya dan mengurangi komputasi idle.

Alokasi kuota komputasi mendukung tiga jenis alokasi sumber daya: akselerator, vCPU, dan memori. Akselerator adalah komponen dalam contoh komputer yang dipercepat yang melakukan fungsi, seperti perhitungan angka floating point, pemrosesan grafis, atau pencocokan pola data. Akselerator termasuk GPUs, akselerator Trainium, dan inti neuron. Untuk berbagi GPU multi-tim, tim yang berbeda dapat menerima alokasi GPU spesifik dari jenis instans yang sama, memaksimalkan pemanfaatan perangkat keras akselerator. Untuk beban kerja intensif memori yang memerlukan RAM tambahan untuk preprocessing data atau skenario caching model, Anda dapat mengalokasikan kuota memori di luar rasio default. GPU-to-memory Untuk tugas preprocessing berat CPU yang membutuhkan sumber daya CPU yang substansif di samping pelatihan GPU, Anda dapat mengalokasikan alokasi sumber daya CPU independen.

Setelah Anda memberikan nilai, tata kelola HyperPod tugas menghitung rasio menggunakan rumus **sumber daya yang dialokasikan dibagi dengan jumlah total sumber daya yang tersedia dalam instance**. HyperPod Tata kelola tugas kemudian menggunakan rasio ini untuk menerapkan alokasi default ke sumber daya lain, tetapi Anda dapat mengganti default ini dan menyesuaikannya berdasarkan kasus penggunaan Anda. Berikut ini adalah contoh skenario bagaimana tata kelola HyperPod tugas mengalokasikan sumber daya berdasarkan nilai Anda:
+ **Hanya akselerator yang ditentukan** - tata kelola HyperPod tugas menerapkan rasio default untuk vCPU dan memori berdasarkan nilai akselerator.
+ **Hanya vCPU yang ditentukan** - tata kelola HyperPod tugas menghitung rasio dan menerapkannya ke memori. Akselerator diatur ke 0.
+ **Hanya memori yang ditentukan** - tata kelola HyperPod tugas menghitung rasio dan menerapkannya ke vCPU karena komputasi diperlukan untuk menjalankan beban kerja yang ditentukan memori. Akselerator diatur ke 0.

Untuk mengontrol alokasi kuota secara terprogram, Anda dapat menggunakan [ ComputeQuotaResourceConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ComputeQuotaResourceConfig.html)objek dan menentukan alokasi Anda dalam bilangan bulat.

```
{
    "ComputeQuotaConfig": {
        "ComputeQuotaResources": [{
            "InstanceType": "ml.g5.24xlarge",
            "Accelerators": "16",
            "vCpu": "200.0",
            "MemoryInGiB": "2.0"
        }]
    }
}
```

Untuk melihat semua alokasi yang dialokasikan, termasuk default, gunakan operasi. [ DescribeComputeQuota](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeComputeQuota.html) Untuk memperbarui alokasi Anda, gunakan [ UpdateComputeQuota](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateComputeQuota.html)operasi.

Anda juga dapat menggunakan HyperPod CLI untuk mengalokasikan kuota komputasi. Untuk informasi lebih lanjut tentang HyperPod CLI, lihat. [Menjalankan pekerjaan di SageMaker HyperPod cluster yang diatur oleh Amazon EKS](sagemaker-hyperpod-eks-run-jobs.md) Contoh berikut menunjukkan bagaimana mengatur kuota komputasi menggunakan CLI. HyperPod 

```
hyp create hyp-pytorch-job --version 1.1 --job-name sample-job \
--image 123456789012.dkr.ecr.us-west-2.amazonaws.com/ptjob:latest \
--pull-policy "Always" \
--tasks-per-node 1 \
--max-retry 1 \
--priority high-priority \
--namespace hyperpod-ns-team-name \
--queue-name hyperpod-ns-team-name-localqueue \
--instance-type sample-instance-type \
--accelerators 1 \
--vcpu 3 \
--memory 1 \
--accelerators-limit 1 \
--vcpu-limit 4 \
--memory-limit 2
```

Untuk mengalokasikan kuota menggunakan AWS konsol, ikuti langkah-langkah ini.

1. Buka konsol Amazon SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Di bawah HyperPod cluster, pilih **Manajemen cluster**.

1. **Di bawah **Alokasi komputasi**, pilih Buat.**

1. Jika Anda belum memiliki instance, pilih **Tambahkan alokasi** untuk menambahkan instance.

1. Di bawah **Alokasi**, pilih untuk mengalokasikan berdasarkan instans atau sumber daya individu. Jika Anda mengalokasikan berdasarkan sumber daya individu, SageMaker AI secara otomatis menetapkan alokasi ke sumber daya lain dengan rasio yang Anda pilih. Untuk mengganti alokasi berbasis rasio ini, gunakan sakelar yang sesuai untuk mengganti komputasi tersebut.

1. Ulangi langkah 4 dan 5 untuk mengonfigurasi instance tambahan.

Setelah mengalokasikan kuota komputasi, Anda kemudian dapat mengirimkan lowongan kerja melalui CLI atau. HyperPod `kubectl` HyperPodmenjadwalkan beban kerja secara efisien berdasarkan kuota yang tersedia. 

# Mengalokasikan kuota partisi GPU
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation-gpu-partitions"></a>

Anda dapat memperpanjang alokasi kuota komputasi untuk mendukung partisi GPU, memungkinkan berbagi sumber daya berbutir halus di tingkat partisi GPU. Saat partisi GPU diaktifkan didukung GPUs di cluster, setiap GPU fisik dapat dipartisi menjadi beberapa terisolasi GPUs dengan alokasi multiprosesor komputasi, memori, dan streaming yang ditentukan. Untuk informasi selengkapnya tentang partisi GPU, lihat. [Menggunakan partisi GPU di Amazon SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md) Anda dapat mengalokasikan partisi GPU tertentu ke tim, memungkinkan beberapa tim untuk berbagi satu GPU sekaligus mempertahankan isolasi tingkat perangkat keras dan kinerja yang dapat diprediksi.

Misalnya, instance ml.p5.48xlarge dengan 8 H100 GPUs dapat dipartisi menjadi partisi GPU, dan Anda dapat mengalokasikan partisi individual ke tim yang berbeda berdasarkan persyaratan tugas mereka. Saat Anda menentukan alokasi partisi GPU, tata kelola HyperPod tugas menghitung vCPU proporsional dan kuota memori berdasarkan partisi GPU, mirip dengan alokasi tingkat GPU. Pendekatan ini memaksimalkan pemanfaatan GPU dengan menghilangkan kapasitas idle dan memungkinkan pembagian sumber daya yang hemat biaya di beberapa tugas bersamaan pada GPU fisik yang sama.

## Membuat Kuota Komputasi
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation-gpu-partitions-creating"></a>

```
aws sagemaker create-compute-quota \
  --name "fractional-gpu-quota" \
  --compute-quota-config '{
    "ComputeQuotaResources": [
      {
        "InstanceType": "ml.p4d.24xlarge",
        "AcceleratorPartition": {
            "Count": 4,
            "Type": "mig-1g.5gb"
        }
      }
    ],
    "ResourceSharingConfig": { 
      "Strategy": "LendAndBorrow", 
      "BorrowLimit": 100 
    }
  }'
```

## Memverifikasi Sumber Daya Kuota
<a name="sagemaker-hyperpod-eks-operate-console-ui-governance-policies-compute-allocation-gpu-partitions-verifying"></a>

```
# Check ClusterQueue
kubectl get clusterqueues
kubectl describe clusterqueue QUEUE_NAME

# Check ResourceFlavors
kubectl get resourceflavor
kubectl describe resourceflavor FLAVOR_NAME
```