

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memulai dengan SageMaker HyperPod menggunakan konsol SageMaker AI
<a name="smcluster-getting-started-slurm-console"></a>

Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan Slurm melalui UI konsol SageMaker AI. Mengikuti tutorial, Anda akan membuat HyperPod cluster dengan tiga node Slurm,, `my-controller-group``my-login-group`, dan. `worker-group-1`

**Topics**
+ [Membuat klaster](#smcluster-getting-started-slurm-console-create-cluster-page)
+ [Terapkan sumber daya](#smcluster-getting-started-slurm-console-create-cluster-deploy)
+ [Hapus cluster dan sumber daya bersih](#smcluster-getting-started-slurm-console-delete-cluster-and-clean)

## Membuat klaster
<a name="smcluster-getting-started-slurm-console-create-cluster-page"></a>

Untuk menavigasi ke halaman **SageMaker HyperPod Clusters** dan memilih orkestrasi **slurm**, ikuti langkah-langkah ini.

1. Buka konsol Amazon SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Pilih **HyperPod Cluster** di panel navigasi kiri dan kemudian Manajemen **Cluster**.

1. Pada halaman **SageMaker HyperPod Clusters**, pilih **Create HyperPod cluster**. 

1. Pada drop-down **Create HyperPod cluster**, pilih **Orchestrated** by Slurm.

1. Pada halaman pembuatan cluster Slurm, Anda akan melihat dua opsi. Pilih opsi yang paling sesuai dengan kebutuhan Anda.

   1. **Pengaturan cepat** - Untuk segera memulai dengan pengaturan default, pilih **Pengaturan cepat**. Dengan opsi ini, SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx untuk Lustre dalam proses pembuatan cluster Anda.

   1. **Penyiapan khusus** - Untuk mengintegrasikan dengan AWS sumber daya yang ada atau memiliki persyaratan jaringan, keamanan, atau penyimpanan tertentu, pilih **Penyiapan khusus**. Dengan opsi ini, Anda dapat memilih untuk menggunakan sumber daya yang ada atau membuat yang baru, dan Anda dapat menyesuaikan konfigurasi yang paling sesuai dengan kebutuhan Anda.

## Pengaturan cepat
<a name="smcluster-getting-started-slurm-console-create-cluster-default"></a>

Pada bagian **Quick setup**, ikuti langkah-langkah ini untuk membuat HyperPod cluster Anda dengan orkestrasi Slurm.

### Pengaturan umum
<a name="smcluster-getting-started-slurm-console-create-cluster-default-general"></a>

Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.

### Grup instans
<a name="smcluster-getting-started-slurm-console-create-cluster-default-instance-groups"></a>

Untuk menambahkan grup instance, pilih **Tambah grup**. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menerapkan cluster, Anda harus menambahkan setidaknya satu grup instans untuk tipe grup Controller dan Compute.

**penting**  
Anda dapat menambahkan satu grup instance pada satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.

Ikuti langkah-langkah ini untuk menambahkan grup instans.

1. Untuk **tipe grup Instance**, pilih tipe untuk grup instans Anda. Untuk tutorial ini, pilih **Controller (head)** for`my-controller-group`, **Login** for`my-login-group`, dan **Compute (worker)** untuk`worker-group-1`.

1. Untuk **Nama**, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernama`my-controller-group`,`my-login-group`, dan`worker-group-1`.

1.  Untuk **kapasitas Instans**, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

1. Untuk **jenis Instance**, pilih instance untuk grup instance. Untuk tutorial ini, pilih `ml.c5.xlarge` untuk`my-controller-group`, `ml.m5.4xlarge` untuk`my-login-group`, dan `ml.trn1.32xlarge` untuk`worker-group-1`. 
**penting**  
Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihat[SageMaker HyperPod kuota](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. Untuk **kuantitas Instance**, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan **1** untuk ketiga grup.

1. Untuk **Zona Ketersediaan Target**, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **volume penyimpanan tambahan per instance (GB) - opsional**, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah`/opt/sagemaker`. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. `df -h` Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di [bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) *Block Store*.

1. Pilih **Tambahkan grup instans**.

### Default pengaturan cepat
<a name="smcluster-getting-started-slurm-console-create-cluster-default-settings"></a>

Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster. Tinjau pengaturan default.

## Pengaturan kustom
<a name="smcluster-getting-started-slurm-console-create-cluster-custom"></a>

Pada bagian **Custom setup**, ikuti langkah-langkah ini untuk membuat HyperPod cluster Anda dengan orkestrasi Slurm.

### Pengaturan umum
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-general"></a>

Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.

Untuk **pemulihan Instance**, pilih **Otomatis - *direkomendasikan*** atau **Tidak Ada**.

### Jaringan
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-network"></a>

Konfigurasikan pengaturan jaringan Anda untuk pembuatan cluster. Pengaturan ini tidak dapat diubah setelah cluster dibuat.

1. Untuk **VPC**, pilih VPC Anda sendiri jika Anda sudah memiliki VPC yang memberikan akses SageMaker AI ke VPC Anda. Untuk membuat VPC baru, ikuti petunjuk di [Buat VPC](https://docs.aws.amazon.com/vpc/latest/userguide/create-vpc.html) di Panduan Pengguna *Amazon Virtual Private Cloud*. Anda dapat membiarkannya sebagai **None** untuk menggunakan SageMaker AI VPC default.

1. Untuk **blok VPC IPv4 CIDR**, masukkan IP awal VPC Anda.

1. Untuk **Availability Zones**, pilih Availability Zones (AZ) di mana HyperPod akan membuat subnet untuk cluster Anda. Pilih AZs yang sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **grup Keamanan**, buat grup keamanan atau pilih hingga lima grup keamanan yang dikonfigurasi dengan aturan untuk memungkinkan komunikasi antar sumber daya dalam VPC.

### Grup instans
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-instance-groups"></a>

Untuk menambahkan grup instance, pilih **Tambah grup**. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menyebarkan cluster, Anda harus menambahkan setidaknya satu grup instance.

**penting**  
Anda dapat menambahkan satu grup instance pada satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.

Ikuti langkah-langkah ini untuk menambahkan grup instans.

1. Untuk **tipe grup Instance**, pilih tipe untuk grup instans Anda. Untuk tutorial ini, pilih **Controller (head)** for`my-controller-group`, **Login** for`my-login-group`, dan **Compute (worker)** untuk`worker-group-1`.

1. Untuk **Nama**, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernama`my-controller-group`,`my-login-group`, dan`worker-group-1`.

1.  Untuk **kapasitas Instans**, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

1. Untuk **jenis Instance**, pilih instance untuk grup instance. Untuk tutorial ini, pilih `ml.c5.xlarge` untuk`my-controller-group`, `ml.m5.4xlarge` untuk`my-login-group`, dan `ml.trn1.32xlarge` untuk`worker-group-1`. 
**penting**  
Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihat[SageMaker HyperPod kuota](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. Untuk **kuantitas Instance**, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan **1** untuk ketiga grup.

1. Untuk **Zona Ketersediaan Target**, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **volume penyimpanan tambahan per instance (GB) - opsional**, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah`/opt/sagemaker`. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. `df -h` Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di [bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) *Block Store*.

1. Pilih **Tambahkan grup instans**.

### Skrip siklus hidup
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-lifecycle"></a>

Anda dapat memilih untuk menggunakan skrip siklus hidup default atau skrip siklus hidup kustom, yang akan disimpan di bucket Amazon S3 Anda. Anda dapat melihat skrip siklus hidup default di repositori Pelatihan [Terdistribusi Luar Biasa](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/7.sagemaker-hyperpod-eks/LifecycleScripts). GitHub Untuk mempelajari lebih lanjut tentang skrip siklus hidup, lihat. [Menyesuaikan SageMaker HyperPod cluster menggunakan skrip siklus hidup](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)

1. Untuk **skrip Siklus Hidup, pilih untuk menggunakan skrip siklus hidup** default atau kustom.

1. Untuk **bucket S3 untuk skrip siklus hidup**, pilih untuk membuat bucket baru atau gunakan bucket yang ada untuk menyimpan skrip siklus hidup.

### Izin
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-permissions"></a>

Pilih atau buat peran IAM yang memungkinkan HyperPod untuk menjalankan dan mengakses AWS sumber daya yang diperlukan atas nama Anda.

### Penyimpanan
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-storage"></a>

Konfigurasikan sistem file FSx for Lustre yang akan disediakan di cluster. HyperPod 

1. Untuk **sistem File**, pilih yang sudah ada FSx untuk sistem file Lustre, untuk membuat yang baru FSx untuk sistem file Lustre, atau tidak menyediakan FSx untuk sistem file Lustre.

1. Untuk **Throughput per unit penyimpanan**, pilih throughput yang akan tersedia per TiB penyimpanan yang disediakan.

1. Untuk **kapasitas penyimpanan**, masukkan nilai kapasitas dalam TB.

1. Untuk **tipe kompresi data**, pilih **LZ4**untuk mengaktifkan kompresi data.

1. Untuk **versi Lustre**, lihat nilai yang direkomendasikan untuk sistem file baru.

### Tag - opsional
<a name="smcluster-getting-started-slurm-console-create-cluster-tags"></a>

Untuk **Tag - *opsional***, tambahkan pasangan kunci dan nilai ke cluster baru dan kelola cluster sebagai AWS sumber daya. Untuk mempelajari lebih lanjut, lihat [Menandai AWS sumber daya Anda](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

## Terapkan sumber daya
<a name="smcluster-getting-started-slurm-console-create-cluster-deploy"></a>

Setelah Anda menyelesaikan konfigurasi klaster menggunakan **Penyiapan cepat atau Penyiapan** **khusus**, pilih opsi berikut untuk memulai penyediaan sumber daya dan pembuatan klaster.
+  **Kirim** - SageMaker AI akan mulai menyediakan sumber daya konfigurasi default dan membuat cluster. 
+ **Unduh parameter CloudFormation template** - Anda akan mengunduh parameter konfigurasi file JSON dan menjalankan AWS CLI perintah untuk menyebarkan CloudFormation tumpukan untuk menyediakan sumber daya konfigurasi dan membuat cluster. Anda dapat mengedit file JSON parameter yang diunduh jika diperlukan. Jika Anda memilih opsi ini, lihat petunjuk lainnya di[Membuat SageMaker HyperPod cluster menggunakan template CloudFormation](smcluster-getting-started-slurm-console-create-cluster-cfn.md).

## Hapus cluster dan sumber daya bersih
<a name="smcluster-getting-started-slurm-console-delete-cluster-and-clean"></a>

Setelah Anda berhasil menguji pembuatan SageMaker HyperPod cluster, klaster terus berjalan di `InService` status hingga Anda menghapus cluster. Kami menyarankan Anda menghapus klaster apa pun yang dibuat menggunakan instance SageMaker AI sesuai permintaan saat tidak digunakan untuk menghindari biaya layanan lanjutan berdasarkan harga sesuai permintaan. Dalam tutorial ini, Anda telah membuat sebuah cluster yang terdiri dari dua kelompok instance. Salah satunya menggunakan instance C5, jadi pastikan Anda menghapus cluster dengan mengikuti instruksi di[Hapus SageMaker HyperPod klaster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-delete-cluster).

Namun, jika Anda telah membuat klaster dengan kapasitas komputasi cadangan, status klaster tidak memengaruhi penagihan layanan.

Untuk membersihkan skrip siklus hidup dari bucket S3 yang digunakan untuk tutorial ini, buka bucket S3 yang Anda gunakan selama pembuatan cluster dan hapus file seluruhnya.

Jika Anda telah menguji menjalankan beban kerja apa pun di cluster, pastikan apakah Anda telah mengunggah data apa pun atau jika pekerjaan Anda menyimpan artefak apa pun ke bucket S3 atau layanan sistem file yang berbeda seperti Amazon FSx for Lustre dan Amazon Elastic File System. Untuk mencegah biaya yang timbul, hapus semua artefak dan data dari penyimpanan atau sistem file.