

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Membuat SageMaker HyperPod cluster dengan orkestrasi Amazon EKS
<a name="sagemaker-hyperpod-eks-operate-console-ui-create-cluster"></a>

Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan orkestrasi Amazon EKS melalui UI konsol AI. SageMaker 

**Topics**
+ [

## Membuat klaster
](#smcluster-getting-started-eks-console-create-cluster-page)
+ [

## Terapkan sumber daya
](#smcluster-getting-started-eks-console-create-cluster-deploy)

## Membuat klaster
<a name="smcluster-getting-started-eks-console-create-cluster-page"></a>

Untuk menavigasi ke halaman **SageMaker HyperPod Clusters** dan memilih orkestrasi Amazon EKS, ikuti langkah-langkah berikut.

1. Buka konsol Amazon SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Pilih **HyperPod Cluster** di panel navigasi kiri dan kemudian Manajemen **Cluster**.

1. Pada halaman **SageMaker HyperPod Clusters**, pilih **Create HyperPod cluster**. 

1. Pada drop-down **Create HyperPod cluster**, pilih **Orchestrated by** Amazon EKS.

1. Pada halaman pembuatan cluster EKS, Anda akan melihat dua opsi, pilih opsi yang paling sesuai dengan kebutuhan Anda.

   1. **Pengaturan cepat** - Untuk segera memulai dengan pengaturan default, pilih **Pengaturan cepat**. Dengan opsi ini, SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx untuk Lustre dalam proses pembuatan cluster Anda.

   1. **Penyiapan khusus** - Untuk mengintegrasikan dengan AWS sumber daya yang ada atau memiliki persyaratan jaringan, keamanan, atau penyimpanan tertentu, pilih **Penyiapan khusus**. Dengan opsi ini, Anda dapat memilih untuk menggunakan sumber daya yang ada atau membuat yang baru, dan Anda dapat menyesuaikan konfigurasi yang paling sesuai dengan kebutuhan Anda.

## Pengaturan cepat
<a name="smcluster-getting-started-eks-console-create-cluster-default"></a>

Pada bagian **Quick setup**, ikuti langkah-langkah berikut untuk membuat HyperPod cluster Anda dengan orkestrasi Amazon EKS.

### Pengaturan umum
<a name="smcluster-getting-started-eks-console-create-cluster-default-general"></a>

Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.

### Grup instans
<a name="smcluster-getting-started-eks-console-create-cluster-default-instance-groups"></a>

Untuk menambahkan grup instance, pilih **Tambah grup**. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menyebarkan cluster, Anda harus menambahkan setidaknya satu grup instance. Ikuti langkah-langkah ini untuk menambahkan grup instans.

1. Untuk **tipe grup Instance**, pilih **Standard** atau **Restricted Instance Group (RIG)**. Biasanya, Anda akan memilih **Standar**, yang menyediakan lingkungan komputasi tujuan umum tanpa batasan keamanan tambahan. **Restricted Instance Group (RIG)** adalah lingkungan khusus untuk kustomisasi model dasar seperti Amazon Nova. Untuk informasi selengkapnya tentang pengaturan RIG untuk kustomisasi model Amazon Nova, lihat kustomisasi Amazon Nova SageMaker HyperPod di [panduan pengguna Amazon Nova 1.0 atau panduan](https://docs.aws.amazon.com//nova/latest/userguide/nova-hp.html) [pengguna Amazon Nova 2.0](https://docs.aws.amazon.com//nova/latest/nova2-userguide/nova-hp.html).

1. Untuk **Nama**, tentukan nama untuk grup instance.

1.  Untuk **kapasitas Instans**, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

1. Untuk **jenis Instance**, pilih instance untuk grup instance.
**penting**  
Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihat[SageMaker HyperPod kuota](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. Untuk **kuantitas Instance**, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan **1** untuk ketiga grup.

1. Untuk **Zona Ketersediaan Target**, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **volume penyimpanan tambahan per instance (GB) - opsional**, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah`/opt/sagemaker`. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. `df -h` Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di [bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) *Block Store*.

1. **Misalnya pemeriksaan kesehatan mendalam**, pilih opsi Anda. Pemeriksaan kesehatan mendalam memantau kesehatan instans selama pembuatan dan setelah pembaruan perangkat lunak, secara otomatis memulihkan instance yang salah melalui reboot atau penggantian saat diaktifkan.

1. Jika tipe instans mendukung partisi GPU dengan Multi-Instance GPU (MIG), Anda dapat mengaktifkan konfigurasi partisi GPU untuk grup instans. Partisi GPU memungkinkan Anda untuk membagi GPUs menjadi partisi yang lebih kecil dan terisolasi untuk meningkatkan pemanfaatan sumber daya. Untuk informasi selengkapnya, lihat [Menggunakan partisi GPU di Amazon SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md).

   1. Alihkan **Gunakan partisi GPU untuk mengaktifkan partisi** GPU untuk grup instance ini.

   1. Pilih **profil partisi GPU** dari opsi yang tersedia untuk jenis instans Anda. Setiap profil mendefinisikan konfigurasi irisan GPU dan alokasi memori.

1. Pilih **Tambahkan grup instans**.

### Default pengaturan cepat
<a name="smcluster-getting-started-eks-console-create-cluster-default-settings"></a>

Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster. Tinjau pengaturan default.

## Pengaturan kustom
<a name="smcluster-getting-started-eks-console-create-cluster-custom"></a>

Pada bagian **Penyiapan kustom**, ikuti langkah-langkah berikut untuk membuat HyperPod klaster pertama Anda dengan orkestrasi Amazon EKS.

### Pengaturan umum
<a name="smcluster-getting-started-eks-console-create-cluster-custom-general"></a>

Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.

Untuk **pemulihan Instance**, pilih **Otomatis - *direkomendasikan*** atau **Tidak Ada**. 

### Jaringan
<a name="smcluster-getting-started-eks-console-create-cluster-custom-network"></a>

Konfigurasikan pengaturan jaringan di dalam cluster dan in-and-out cluster. Untuk orkestrasi cluster SageMaker HyperPod dengan Amazon EKS, VPC secara otomatis diatur ke yang dikonfigurasi dengan kluster EKS yang Anda pilih.

1. Untuk **VPC**, pilih VPC Anda sendiri jika Anda sudah memiliki VPC yang memberikan akses SageMaker AI ke VPC Anda. Untuk membuat VPC baru, ikuti petunjuk di [Buat VPC](https://docs.aws.amazon.com/vpc/latest/userguide/create-vpc.html) di Panduan Pengguna *Amazon Virtual Private Cloud*. Anda dapat membiarkannya sebagai **None** untuk menggunakan SageMaker AI VPC default.

1. Untuk **blok VPC IPv4 CIDR**, masukkan IP awal VPC Anda.

1. Untuk **Availability Zones**, pilih Availability Zones (AZ) di mana HyperPod akan membuat subnet untuk cluster Anda. Pilih AZs yang sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **grup Keamanan, pilih grup keamanan yang dilampirkan ke klaster Amazon EKS** atau yang lalu lintas masuknya diizinkan oleh grup keamanan yang terkait dengan kluster Amazon EKS. Untuk membuat grup keamanan baru, buka konsol VPC Amazon.

### Orkestrasi
<a name="smcluster-getting-started-eks-console-create-cluster-custom-orchestration"></a>

Ikuti langkah-langkah ini untuk membuat atau memilih klaster Amazon EKS untuk digunakan sebagai orkestrator. 

1. Untuk **kluster EKS**, pilih buat kluster Amazon EKS baru atau gunakan yang sudah ada. 

   Jika Anda perlu membuat cluster EKS baru, Anda dapat membuatnya dari bagian cluster EKS tanpa harus membuka konsol Amazon EKS.
**catatan**  
Subnet VPC yang Anda pilih HyperPod harus bersifat pribadi.   
Setelah mengirimkan permintaan pembuatan cluster EKS baru, tunggu hingga cluster EKS menjadi. `Active`

1. Untuk versi **Kubernetes, pilih versi** dari menu tarik-turun. *Untuk informasi selengkapnya tentang versi Kubernetes, lihat [Memahami siklus hidup versi Kubernetes di EKS dari Panduan Pengguna Amazon EKS](https://docs.aws.amazon.com//eks/latest/userguide/kubernetes-versions.html).*

1. Untuk **Operator**, pilih **Gunakan bagan dan add-on Helm default** atau **Jangan instal** operator. Opsi default **Gunakan bagan dan add-on Helm default**, yang akan digunakan untuk menginstal operator di cluster EKS. Untuk informasi selengkapnya tentang bagan dan add-on Helm default, lihat [https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart/HyperPodHelmChart](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart/HyperPodHelmChart)dari repositori. GitHub Untuk informasi selengkapnya, lihat [Menginstal paket di cluster Amazon EKS menggunakan Helm](sagemaker-hyperpod-eks-install-packages-using-helm-chart.md).

1. Untuk **operator Diaktifkan**, lihat daftar operator yang diaktifkan. Untuk mengedit operator, hapus centang pada kotak di bagian atas dan pilih operator untuk mengaktifkan klaster EKS. 
**catatan**  
Untuk menggunakan HyperPod EKS, Anda harus menginstal bagan Helm dan add-on yang mengaktifkan operator di kluster EKS. Komponen-komponen ini mengkonfigurasi EKS sebagai bidang kontrol untuk HyperPod dan menyediakan pengaturan yang diperlukan untuk manajemen beban kerja dan orkestrasi.

### Grup instans
<a name="smcluster-getting-started-eks-console-create-cluster-custom-instance-groups"></a>

Untuk menambahkan grup instance, pilih **Tambah grup**. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menyebarkan kluster, Anda harus menambahkan setidaknya satu grup instans. Ikuti langkah-langkah ini untuk menambahkan grup instans.

1. Untuk **tipe grup Instance**, pilih **Standard** atau **Restricted Instance Group (RIG)**. Biasanya, Anda akan memilih **Standar**, yang menyediakan lingkungan komputasi tujuan umum tanpa batasan keamanan tambahan. **Restricted Instance Group (RIG)** adalah lingkungan khusus untuk kustomisasi model dasar seperti Amazon Nova. Untuk informasi selengkapnya tentang pengaturan RIG untuk kustomisasi model Amazon Nova, lihat kustomisasi Amazon Nova SageMaker HyperPod di [panduan pengguna Amazon Nova 1.0 atau panduan](https://docs.aws.amazon.com//nova/latest/userguide/nova-hp.html) [pengguna Amazon Nova 2.0](https://docs.aws.amazon.com//nova/latest/nova2-userguide/nova-hp.html).

1. Untuk **Nama**, tentukan nama untuk grup instance.

1.  Untuk **kapasitas Instans**, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

1. Untuk **jenis Instance**, pilih instance untuk grup instance.
**penting**  
Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihat[SageMaker HyperPod kuota](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. Untuk **kuantitas Instance**, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan **1** untuk ketiga grup.

1. Untuk **Zona Ketersediaan Target**, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **volume penyimpanan tambahan per instance (GB) - opsional**, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah`/opt/sagemaker`. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. `df -h` Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di [bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) *Block Store*.

1. **Misalnya pemeriksaan kesehatan mendalam**, pilih opsi Anda. Pemeriksaan kesehatan mendalam memantau kesehatan instans selama pembuatan dan setelah pembaruan perangkat lunak, secara otomatis memulihkan instance yang salah melalui reboot atau penggantian saat diaktifkan. Untuk mempelajari selengkapnya, lihat [Pemeriksaan kesehatan yang mendalam](sagemaker-hyperpod-eks-resiliency-deep-health-checks.md)

1. Untuk **Gunakan partisi GPU - opsional**, jika jenis instans Anda mendukung partisi GPU dengan Multi-Instance GPU (MIG), Anda dapat mengaktifkan opsi ini untuk mengonfigurasi profil partisi GPU untuk grup instance. Partisi GPU memungkinkan Anda untuk membagi GPUs menjadi partisi yang lebih kecil dan terisolasi untuk meningkatkan pemanfaatan sumber daya. Untuk informasi selengkapnya, lihat [Menggunakan partisi GPU di Amazon SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md).

   1. Alihkan **Gunakan partisi GPU untuk mengaktifkan partisi** GPU untuk grup instance ini.

   1. Pilih **profil partisi GPU** dari opsi yang tersedia untuk jenis instans Anda. Setiap profil mendefinisikan konfigurasi irisan GPU dan alokasi memori.

1. Pilih **Tambahkan grup instans**.

### Skrip siklus hidup
<a name="smcluster-getting-started-eks-console-create-cluster-custom-lifecycle"></a>

Anda dapat memilih untuk menggunakan skrip siklus hidup default atau skrip siklus hidup kustom, yang akan disimpan di bucket Amazon S3 Anda. Anda dapat melihat skrip siklus hidup default di repositori Pelatihan [Terdistribusi Luar Biasa](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/7.sagemaker-hyperpod-eks/LifecycleScripts). GitHub Untuk mempelajari lebih lanjut tentang skrip siklus hidup, lihat. [Menyesuaikan SageMaker HyperPod cluster menggunakan skrip siklus hidup](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)

1. Untuk **skrip Siklus Hidup, pilih untuk menggunakan skrip siklus hidup** default atau kustom.

1. Untuk **bucket S3 untuk skrip siklus hidup**, pilih untuk membuat bucket baru atau gunakan bucket yang ada untuk menyimpan skrip siklus hidup.

### Izin
<a name="smcluster-getting-started-eks-console-create-cluster-custom-permissions"></a>

Pilih atau buat peran IAM yang memungkinkan HyperPod untuk menjalankan dan mengakses AWS sumber daya yang diperlukan atas nama Anda. Untuk informasi selengkapnya, lihat [Peran IAM untuk SageMaker HyperPod](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-role-for-hyperpod).

### Penyimpanan
<a name="smcluster-getting-started-eks-console-create-cluster-custom-storage"></a>

Konfigurasikan sistem file FSx for Lustre yang akan disediakan di cluster. HyperPod 

1. Untuk **sistem File**, pilih yang sudah ada FSx untuk sistem file Lustre, untuk membuat yang baru FSx untuk sistem file Lustre, atau tidak menyediakan FSx untuk sistem file Lustre.

1. Untuk **Throughput per unit penyimpanan**, pilih throughput yang akan tersedia per TiB penyimpanan yang disediakan.

1. Untuk **kapasitas penyimpanan**, masukkan nilai kapasitas dalam TB.

1. Untuk **tipe kompresi data**, pilih **LZ4**untuk mengaktifkan kompresi data.

1. Untuk **versi Lustre**, lihat nilai yang direkomendasikan untuk sistem file baru.

### Tag - opsional
<a name="smcluster-getting-started-eks-console-create-cluster-tags"></a>

Untuk **Tag - *opsional***, tambahkan pasangan kunci dan nilai ke cluster baru dan kelola cluster sebagai AWS sumber daya. Untuk mempelajari lebih lanjut, lihat [Menandai AWS sumber daya Anda](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

## Terapkan sumber daya
<a name="smcluster-getting-started-eks-console-create-cluster-deploy"></a>

Setelah Anda menyelesaikan konfigurasi klaster menggunakan **Penyiapan cepat atau Penyiapan** **khusus**, pilih opsi berikut untuk memulai penyediaan sumber daya dan pembuatan klaster.
+  **Kirim** - SageMaker AI akan mulai menyediakan sumber daya konfigurasi default dan membuat cluster. 
+ **Unduh parameter CloudFormation template** - Anda akan mengunduh parameter konfigurasi file JSON dan menjalankan AWS CLI perintah untuk menyebarkan CloudFormation tumpukan untuk menyediakan sumber daya konfigurasi dan membuat cluster. Anda dapat mengedit file JSON parameter yang diunduh jika diperlukan. Jika Anda memilih opsi ini, lihat petunjuk lainnya di[Membuat SageMaker HyperPod cluster menggunakan template CloudFormation](smcluster-getting-started-eks-console-create-cluster-cfn.md).