

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memulai dengan SageMaker HyperPod
<a name="smcluster-getting-started-slurm"></a>

Mulailah dengan membuat SageMaker HyperPod klaster pertama Anda dan pelajari fungsionalitas operasi klaster. SageMaker HyperPod Anda dapat membuat SageMaker HyperPod cluster melalui UI konsol SageMaker AI atau AWS CLI perintah. Tutorial ini menunjukkan cara membuat SageMaker HyperPod cluster baru dengan Slurm, yang merupakan perangkat lunak penjadwal beban kerja yang populer. Setelah Anda melalui tutorial ini, Anda akan tahu cara masuk ke node cluster menggunakan AWS Systems Manager perintah (`aws ssm`). Setelah Anda menyelesaikan tutorial ini, lihat juga [SageMaker HyperPod Operasi klaster slurm](sagemaker-hyperpod-operate-slurm.md) untuk mempelajari lebih lanjut tentang oparasi SageMaker HyperPod dasar, dan [Pekerjaan di SageMaker HyperPod cluster](sagemaker-hyperpod-run-jobs-slurm.md) untuk mempelajari cara menjadwalkan pekerjaan di klaster yang disediakan.

**Tip**  
Untuk menemukan contoh dan solusi praktis, lihat juga [SageMaker HyperPodlokakarya](https://catalog.workshops.aws/sagemaker-hyperpod).

**Topics**
+ [Memulai dengan SageMaker HyperPod menggunakan konsol SageMaker AI](smcluster-getting-started-slurm-console.md)
+ [Membuat SageMaker HyperPod cluster menggunakan template CloudFormation](smcluster-getting-started-slurm-console-create-cluster-cfn.md)
+ [Memulai dengan SageMaker HyperPod menggunakan AWS CLI](smcluster-getting-started-slurm-cli.md)

# Memulai dengan SageMaker HyperPod menggunakan konsol SageMaker AI
<a name="smcluster-getting-started-slurm-console"></a>

Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan Slurm melalui UI konsol SageMaker AI. Mengikuti tutorial, Anda akan membuat HyperPod cluster dengan tiga node Slurm,, `my-controller-group``my-login-group`, dan. `worker-group-1`

**Topics**
+ [Membuat klaster](#smcluster-getting-started-slurm-console-create-cluster-page)
+ [Terapkan sumber daya](#smcluster-getting-started-slurm-console-create-cluster-deploy)
+ [Hapus cluster dan sumber daya bersih](#smcluster-getting-started-slurm-console-delete-cluster-and-clean)

## Membuat klaster
<a name="smcluster-getting-started-slurm-console-create-cluster-page"></a>

Untuk menavigasi ke halaman **SageMaker HyperPod Clusters** dan memilih orkestrasi **slurm**, ikuti langkah-langkah ini.

1. Buka konsol Amazon SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Pilih **HyperPod Cluster** di panel navigasi kiri dan kemudian Manajemen **Cluster**.

1. Pada halaman **SageMaker HyperPod Clusters**, pilih **Create HyperPod cluster**. 

1. Pada drop-down **Create HyperPod cluster**, pilih **Orchestrated** by Slurm.

1. Pada halaman pembuatan cluster Slurm, Anda akan melihat dua opsi. Pilih opsi yang paling sesuai dengan kebutuhan Anda.

   1. **Pengaturan cepat** - Untuk segera memulai dengan pengaturan default, pilih **Pengaturan cepat**. Dengan opsi ini, SageMaker AI akan membuat sumber daya baru seperti VPC, subnet, grup keamanan, bucket Amazon S3, peran IAM, dan FSx untuk Lustre dalam proses pembuatan cluster Anda.

   1. **Penyiapan khusus** - Untuk mengintegrasikan dengan AWS sumber daya yang ada atau memiliki persyaratan jaringan, keamanan, atau penyimpanan tertentu, pilih **Penyiapan khusus**. Dengan opsi ini, Anda dapat memilih untuk menggunakan sumber daya yang ada atau membuat yang baru, dan Anda dapat menyesuaikan konfigurasi yang paling sesuai dengan kebutuhan Anda.

## Pengaturan cepat
<a name="smcluster-getting-started-slurm-console-create-cluster-default"></a>

Pada bagian **Quick setup**, ikuti langkah-langkah ini untuk membuat HyperPod cluster Anda dengan orkestrasi Slurm.

### Pengaturan umum
<a name="smcluster-getting-started-slurm-console-create-cluster-default-general"></a>

Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.

### Grup instans
<a name="smcluster-getting-started-slurm-console-create-cluster-default-instance-groups"></a>

Untuk menambahkan grup instance, pilih **Tambah grup**. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menerapkan cluster, Anda harus menambahkan setidaknya satu grup instans untuk tipe grup Controller dan Compute.

**penting**  
Anda dapat menambahkan satu grup instance pada satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.

Ikuti langkah-langkah ini untuk menambahkan grup instans.

1. Untuk **tipe grup Instance**, pilih tipe untuk grup instans Anda. Untuk tutorial ini, pilih **Controller (head)** for`my-controller-group`, **Login** for`my-login-group`, dan **Compute (worker)** untuk`worker-group-1`.

1. Untuk **Nama**, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernama`my-controller-group`,`my-login-group`, dan`worker-group-1`.

1.  Untuk **kapasitas Instans**, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

1. Untuk **jenis Instance**, pilih instance untuk grup instance. Untuk tutorial ini, pilih `ml.c5.xlarge` untuk`my-controller-group`, `ml.m5.4xlarge` untuk`my-login-group`, dan `ml.trn1.32xlarge` untuk`worker-group-1`. 
**penting**  
Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihat[SageMaker HyperPod kuota](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. Untuk **kuantitas Instance**, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan **1** untuk ketiga grup.

1. Untuk **Zona Ketersediaan Target**, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **volume penyimpanan tambahan per instance (GB) - opsional**, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah`/opt/sagemaker`. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. `df -h` Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di [bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) *Block Store*.

1. Pilih **Tambahkan grup instans**.

### Default pengaturan cepat
<a name="smcluster-getting-started-slurm-console-create-cluster-default-settings"></a>

Bagian ini mencantumkan semua pengaturan default untuk pembuatan klaster Anda, termasuk semua AWS sumber daya baru yang akan dibuat selama proses pembuatan klaster. Tinjau pengaturan default.

## Pengaturan kustom
<a name="smcluster-getting-started-slurm-console-create-cluster-custom"></a>

Pada bagian **Custom setup**, ikuti langkah-langkah ini untuk membuat HyperPod cluster Anda dengan orkestrasi Slurm.

### Pengaturan umum
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-general"></a>

Tentukan nama untuk cluster baru. Anda tidak dapat mengubah nama setelah cluster dibuat.

Untuk **pemulihan Instance**, pilih **Otomatis - *direkomendasikan*** atau **Tidak Ada**.

### Jaringan
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-network"></a>

Konfigurasikan pengaturan jaringan Anda untuk pembuatan cluster. Pengaturan ini tidak dapat diubah setelah cluster dibuat.

1. Untuk **VPC**, pilih VPC Anda sendiri jika Anda sudah memiliki VPC yang memberikan akses SageMaker AI ke VPC Anda. Untuk membuat VPC baru, ikuti petunjuk di [Buat VPC](https://docs.aws.amazon.com/vpc/latest/userguide/create-vpc.html) di Panduan Pengguna *Amazon Virtual Private Cloud*. Anda dapat membiarkannya sebagai **None** untuk menggunakan SageMaker AI VPC default.

1. Untuk **blok VPC IPv4 CIDR**, masukkan IP awal VPC Anda.

1. Untuk **Availability Zones**, pilih Availability Zones (AZ) di mana HyperPod akan membuat subnet untuk cluster Anda. Pilih AZs yang sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **grup Keamanan**, buat grup keamanan atau pilih hingga lima grup keamanan yang dikonfigurasi dengan aturan untuk memungkinkan komunikasi antar sumber daya dalam VPC.

### Grup instans
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-instance-groups"></a>

Untuk menambahkan grup instance, pilih **Tambah grup**. Setiap grup instans dapat dikonfigurasi secara berbeda, dan Anda dapat membuat klaster heterogen yang terdiri dari beberapa grup instans dengan berbagai jenis instance. Untuk menyebarkan cluster, Anda harus menambahkan setidaknya satu grup instance.

**penting**  
Anda dapat menambahkan satu grup instance pada satu waktu. Untuk membuat beberapa grup instance, ulangi proses untuk setiap grup instance.

Ikuti langkah-langkah ini untuk menambahkan grup instans.

1. Untuk **tipe grup Instance**, pilih tipe untuk grup instans Anda. Untuk tutorial ini, pilih **Controller (head)** for`my-controller-group`, **Login** for`my-login-group`, dan **Compute (worker)** untuk`worker-group-1`.

1. Untuk **Nama**, tentukan nama untuk grup instance. Untuk tutorial ini, buat tiga grup instance bernama`my-controller-group`,`my-login-group`, dan`worker-group-1`.

1.  Untuk **kapasitas Instans**, pilih kapasitas sesuai permintaan atau rencana pelatihan untuk memesan sumber daya komputasi Anda.

1. Untuk **jenis Instance**, pilih instance untuk grup instance. Untuk tutorial ini, pilih `ml.c5.xlarge` untuk`my-controller-group`, `ml.m5.4xlarge` untuk`my-login-group`, dan `ml.trn1.32xlarge` untuk`worker-group-1`. 
**penting**  
Pastikan Anda memilih jenis instans dengan kuota yang cukup dan cukup alamat IP yang tidak ditetapkan untuk akun Anda. Untuk melihat atau meminta kuota tambahan, lihat[SageMaker HyperPod kuota](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. Untuk **kuantitas Instance**, tentukan bilangan bulat yang tidak melebihi kuota instance untuk penggunaan klaster. Untuk tutorial ini, masukkan **1** untuk ketiga grup.

1. Untuk **Zona Ketersediaan Target**, pilih Availability Zone tempat instance Anda akan disediakan. Availability Zone harus sesuai dengan lokasi kapasitas komputasi Anda yang dipercepat.

1. Untuk **volume penyimpanan tambahan per instance (GB) - opsional**, tentukan bilangan bulat antara 1 dan 16384 untuk mengatur ukuran volume Elastic Block Store (EBS) tambahan dalam gigabyte (GB). Volume EBS dilampirkan ke setiap instance dari grup instance. Jalur pemasangan default untuk volume EBS tambahan adalah`/opt/sagemaker`. Setelah cluster berhasil dibuat, Anda dapat SSH ke instance cluster (node) dan memverifikasi apakah volume EBS dipasang dengan benar dengan menjalankan perintah. `df -h` Melampirkan volume EBS tambahan menyediakan penyimpanan yang stabil, off-instance, dan bertahan secara independen, seperti yang dijelaskan di [bagian volume Amazon EBS di Panduan Pengguna Amazon Elastic](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) *Block Store*.

1. Pilih **Tambahkan grup instans**.

### Skrip siklus hidup
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-lifecycle"></a>

Anda dapat memilih untuk menggunakan skrip siklus hidup default atau skrip siklus hidup kustom, yang akan disimpan di bucket Amazon S3 Anda. Anda dapat melihat skrip siklus hidup default di repositori Pelatihan [Terdistribusi Luar Biasa](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/7.sagemaker-hyperpod-eks/LifecycleScripts). GitHub Untuk mempelajari lebih lanjut tentang skrip siklus hidup, lihat. [Menyesuaikan SageMaker HyperPod cluster menggunakan skrip siklus hidup](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)

1. Untuk **skrip Siklus Hidup, pilih untuk menggunakan skrip siklus hidup** default atau kustom.

1. Untuk **bucket S3 untuk skrip siklus hidup**, pilih untuk membuat bucket baru atau gunakan bucket yang ada untuk menyimpan skrip siklus hidup.

### Izin
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-permissions"></a>

Pilih atau buat peran IAM yang memungkinkan HyperPod untuk menjalankan dan mengakses AWS sumber daya yang diperlukan atas nama Anda.

### Penyimpanan
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-storage"></a>

Konfigurasikan sistem file FSx for Lustre yang akan disediakan di cluster. HyperPod 

1. Untuk **sistem File**, pilih yang sudah ada FSx untuk sistem file Lustre, untuk membuat yang baru FSx untuk sistem file Lustre, atau tidak menyediakan FSx untuk sistem file Lustre.

1. Untuk **Throughput per unit penyimpanan**, pilih throughput yang akan tersedia per TiB penyimpanan yang disediakan.

1. Untuk **kapasitas penyimpanan**, masukkan nilai kapasitas dalam TB.

1. Untuk **tipe kompresi data**, pilih **LZ4**untuk mengaktifkan kompresi data.

1. Untuk **versi Lustre**, lihat nilai yang direkomendasikan untuk sistem file baru.

### Tag - opsional
<a name="smcluster-getting-started-slurm-console-create-cluster-tags"></a>

Untuk **Tag - *opsional***, tambahkan pasangan kunci dan nilai ke cluster baru dan kelola cluster sebagai AWS sumber daya. Untuk mempelajari lebih lanjut, lihat [Menandai AWS sumber daya Anda](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

## Terapkan sumber daya
<a name="smcluster-getting-started-slurm-console-create-cluster-deploy"></a>

Setelah Anda menyelesaikan konfigurasi klaster menggunakan **Penyiapan cepat atau Penyiapan** **khusus**, pilih opsi berikut untuk memulai penyediaan sumber daya dan pembuatan klaster.
+  **Kirim** - SageMaker AI akan mulai menyediakan sumber daya konfigurasi default dan membuat cluster. 
+ **Unduh parameter CloudFormation template** - Anda akan mengunduh parameter konfigurasi file JSON dan menjalankan AWS CLI perintah untuk menyebarkan CloudFormation tumpukan untuk menyediakan sumber daya konfigurasi dan membuat cluster. Anda dapat mengedit file JSON parameter yang diunduh jika diperlukan. Jika Anda memilih opsi ini, lihat petunjuk lainnya di[Membuat SageMaker HyperPod cluster menggunakan template CloudFormation](smcluster-getting-started-slurm-console-create-cluster-cfn.md).

## Hapus cluster dan sumber daya bersih
<a name="smcluster-getting-started-slurm-console-delete-cluster-and-clean"></a>

Setelah Anda berhasil menguji pembuatan SageMaker HyperPod cluster, klaster terus berjalan di `InService` status hingga Anda menghapus cluster. Kami menyarankan Anda menghapus klaster apa pun yang dibuat menggunakan instance SageMaker AI sesuai permintaan saat tidak digunakan untuk menghindari biaya layanan lanjutan berdasarkan harga sesuai permintaan. Dalam tutorial ini, Anda telah membuat sebuah cluster yang terdiri dari dua kelompok instance. Salah satunya menggunakan instance C5, jadi pastikan Anda menghapus cluster dengan mengikuti instruksi di[Hapus SageMaker HyperPod klaster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-delete-cluster).

Namun, jika Anda telah membuat klaster dengan kapasitas komputasi cadangan, status klaster tidak memengaruhi penagihan layanan.

Untuk membersihkan skrip siklus hidup dari bucket S3 yang digunakan untuk tutorial ini, buka bucket S3 yang Anda gunakan selama pembuatan cluster dan hapus file seluruhnya.

Jika Anda telah menguji menjalankan beban kerja apa pun di cluster, pastikan apakah Anda telah mengunggah data apa pun atau jika pekerjaan Anda menyimpan artefak apa pun ke bucket S3 atau layanan sistem file yang berbeda seperti Amazon FSx for Lustre dan Amazon Elastic File System. Untuk mencegah biaya yang timbul, hapus semua artefak dan data dari penyimpanan atau sistem file.

# Membuat SageMaker HyperPod cluster menggunakan template CloudFormation
<a name="smcluster-getting-started-slurm-console-create-cluster-cfn"></a>

Anda dapat membuat SageMaker HyperPod cluster menggunakan CloudFormation template untuk HyperPod. Anda harus menginstal AWS CLI untuk melanjutkan.

**Topics**
+ [Konfigurasikan sumber daya di konsol dan terapkan menggunakan CloudFormation](#smcluster-getting-started-slurm-console-create-cluster-deploy-console)
+ [Konfigurasikan sumber daya dan terapkan menggunakan CloudFormation](#smcluster-getting-started-slurm-console-create-cluster-deploy-cfn)

## Konfigurasikan sumber daya di konsol dan terapkan menggunakan CloudFormation
<a name="smcluster-getting-started-slurm-console-create-cluster-deploy-console"></a>

Anda dapat mengonfigurasi sumber daya menggunakan Konsol Manajemen AWS dan menyebarkan menggunakan CloudFormation templat. 

Ikuti langkah-langkah ini.

1. *Alih-alih memilih **Kirim***, pilih **Unduh parameter CloudFormation template** di akhir tutorial di[Memulai dengan SageMaker HyperPod menggunakan konsol SageMaker AI](smcluster-getting-started-slurm-console.md). Tutorial ini berisi informasi konfigurasi penting yang Anda perlukan untuk membuat cluster Anda berhasil.
**penting**  
Jika Anda memilih **Kirim**, Anda tidak akan dapat menyebarkan klaster dengan nama yang sama sampai Anda menghapus klaster.

   Setelah Anda memilih **Unduh parameter CloudFormation template**, **Menggunakan file konfigurasi untuk membuat cluster menggunakan AWS CLI** jendela akan muncul di sisi kanan halaman.

1. Pada **Menggunakan file konfigurasi untuk membuat cluster menggunakan AWS CLI jendela**, pilih **Unduh file parameter konfigurasi**. File akan diunduh ke mesin Anda. Anda dapat mengedit file JSON konfigurasi berdasarkan kebutuhan Anda atau membiarkannya apa adanya, jika tidak ada perubahan yang diperlukan.

1. Di terminal, arahkan ke lokasi file parameter`file://params.json`.

1. Jalankan AWS CLI perintah [create-stack](https://docs.aws.amazon.com//cli/latest/reference/cloudformation/create-stack.html) untuk menyebarkan CloudFormation tumpukan yang akan menyediakan sumber daya yang dikonfigurasi dan membuat cluster. HyperPod

   ```
   aws cloudformation create-stack 
       --stack-name my-stack
       --template-url https://aws-sagemaker-hyperpod-cluster-setup.amazonaws.com/templates-slurm/main-stack-slurm-based-template.yaml
       --parameters file://params.json
       --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
   ```

1. [Untuk melihat status penyediaan sumber daya, navigasikan ke konsol. CloudFormation ](https://console.aws.amazon.com/cloudformation)

   Setelah pembuatan klaster selesai, lihat cluster baru di bawah **Cluster** di panel utama konsol. SageMaker HyperPod Anda dapat memeriksa statusnya yang ditampilkan di bawah kolom **Status**.

1. Setelah status cluster berubah`InService`, Anda dapat mulai masuk ke node cluster. Untuk mengakses node cluster dan mulai menjalankan beban kerja ML, lihat[Pekerjaan di SageMaker HyperPod cluster](sagemaker-hyperpod-run-jobs-slurm.md).

## Konfigurasikan sumber daya dan terapkan menggunakan CloudFormation
<a name="smcluster-getting-started-slurm-console-create-cluster-deploy-cfn"></a>

Anda dapat mengonfigurasi sumber daya dan menerapkan menggunakan CloudFormation templat untuk SageMaker HyperPod.

Ikuti langkah-langkah ini.

1. Unduh CloudFormation template untuk SageMaker HyperPod dari [sagemaker-hyperpod-cluster-setup](https://github.com/aws/sagemaker-hyperpod-cluster-setup) GitHub repositori.

1. Jalankan AWS CLI perintah [create-stack](https://docs.aws.amazon.com//cli/latest/reference/cloudformation/create-stack.html) untuk menyebarkan CloudFormation tumpukan yang akan menyediakan sumber daya yang dikonfigurasi dan membuat cluster. HyperPod

   ```
   aws cloudformation create-stack 
       --stack-name my-stack
       --template-url URL_of_the_file_that_contains_the_template_body
       --parameters file://params.json
       --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
   ```

1. Untuk melihat status penyediaan sumber daya, navigasikan ke konsol. CloudFormation 

   Setelah pembuatan klaster selesai, lihat cluster baru di bawah **Cluster** di panel utama konsol. SageMaker HyperPod Anda dapat memeriksa statusnya yang ditampilkan di bawah kolom **Status**.

1. Setelah status cluster berubah`InService`, Anda dapat mulai masuk ke node cluster. Untuk mengakses node cluster dan mulai menjalankan beban kerja ML, lihat[Pekerjaan di SageMaker HyperPod cluster](sagemaker-hyperpod-run-jobs-slurm.md).

# Memulai dengan SageMaker HyperPod menggunakan AWS CLI
<a name="smcluster-getting-started-slurm-cli"></a>

Buat SageMaker HyperPod cluster pertama Anda menggunakan AWS CLI perintah untuk HyperPod.

## Buat SageMaker HyperPod cluster pertama Anda dengan Slurm
<a name="smcluster-getting-started-slurm-cli-create-cluster"></a>

[Tutorial berikut menunjukkan cara membuat SageMaker HyperPod cluster baru dan mengaturnya dengan Slurm melalui perintah untuk AWS CLI . SageMaker HyperPod](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-cli) Mengikuti tutorial, Anda akan membuat HyperPod cluster dengan tiga node Slurm:`my-controller-group`,`my-login-group`, dan. `worker-group-1`

Dengan pendekatan konfigurasi berbasis API, Anda mendefinisikan tipe node Slurm dan penetapan partisi secara langsung dalam permintaan API yang digunakan. CreateCluster `SlurmConfig` Ini menghilangkan kebutuhan akan `provisioning_parameters.json` file terpisah dan menyediakan validasi bawaan, deteksi drift, dan per-instance-group FSx konfigurasi.

1. Pertama, siapkan dan unggah skrip siklus hidup ke bucket Amazon S3. Selama pembuatan cluster, HyperPod jalankan mereka di setiap grup instance. Unggah skrip siklus hidup ke Amazon S3 menggunakan perintah berikut.

   ```
   aws s3 sync \
       ~/local-dir-to-lifecycle-scripts/* \
       s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src
   ```
**catatan**  
Jalur bucket S3 harus dimulai dengan awalan`sagemaker-`, karena [peran IAM untuk SageMaker HyperPod](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-role-for-hyperpod) with `AmazonSageMakerClusterInstanceRolePolicy` hanya mengizinkan akses ke bucket Amazon S3 yang dimulai dengan awalan tertentu.

   Jika Anda memulai dari awal, gunakan contoh skrip siklus hidup yang disediakan di repositori Pelatihan Terdistribusi [Awsome](https://github.com/aws-samples/awsome-distributed-training/). GitHub Sub-langkah berikut menunjukkan cara mengunduh dan mengunggah contoh skrip siklus hidup ke bucket Amazon S3.

   1. Unduh salinan sampel skrip siklus hidup ke direktori di komputer lokal Anda.

      ```
      git clone https://github.com/aws-samples/awsome-distributed-training/
      ```

   1. Masuk ke direktori [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config), di mana Anda dapat menemukan satu set skrip siklus hidup.

      ```
      cd awsome-distributed-training/1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config
      ```

      Untuk mempelajari lebih lanjut tentang contoh skrip siklus hidup, lihat. [Menyesuaikan SageMaker HyperPod cluster menggunakan skrip siklus hidup](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)

   1. Unggah skrip ke`s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src`. Anda dapat melakukannya dengan menggunakan konsol Amazon S3, atau dengan menjalankan perintah Amazon AWS CLI S3 berikut.

      ```
      aws s3 sync \
          ~/local-dir-to-lifecycle-scripts/* \
          s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src
      ```
**catatan**  
Dengan konfigurasi berbasis API, Anda tidak perlu membuat atau mengunggah file. `provisioning_parameters.json` Konfigurasi Slurm didefinisikan secara langsung dalam permintaan CreateCluster API pada langkah berikutnya.

1. Siapkan file [CreateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)permintaan dalam format JSON dan simpan sebagai`create_cluster.json`.

   Dengan konfigurasi berbasis API, Anda menentukan tipe simpul Slurm dan penetapan partisi untuk setiap grup instance menggunakan bidang. `SlurmConfig` Anda juga mengonfigurasi pengaturan Slurm tingkat cluster menggunakan. `Orchestrator.Slurm`

   Untuk`ExecutionRole`, berikan ARN dari peran IAM yang Anda buat dengan yang dikelola. `AmazonSageMakerClusterInstanceRolePolicy` [Prasyarat untuk menggunakan SageMaker HyperPod](sagemaker-hyperpod-prerequisites.md)

   ```
   {
       "ClusterName": "my-hyperpod-cluster",
       "InstanceGroups": [
           {
               "InstanceGroupName": "my-controller-group",
               "InstanceType": "ml.c5.xlarge",
               "InstanceCount": 1,
               "SlurmConfig": {
                   "NodeType": "Controller"
               },
               "LifeCycleConfig": {
                   "SourceS3Uri": "s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src",
                   "OnCreate": "on_create.sh"
               },
               "ExecutionRole": "arn:aws:iam::<account-id>:role/HyperPodExecutionRole",
               "InstanceStorageConfigs": [
                   {
                       "EbsVolumeConfig": {
                           "VolumeSizeInGB": 500
                       }
                   }
               ]
           },
           {
               "InstanceGroupName": "my-login-group",
               "InstanceType": "ml.m5.4xlarge",
               "InstanceCount": 1,
               "SlurmConfig": {
                   "NodeType": "Login"
               },
               "LifeCycleConfig": {
                   "SourceS3Uri": "s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src",
                   "OnCreate": "on_create.sh"
               },
               "ExecutionRole": "arn:aws:iam::<account-id>:role/HyperPodExecutionRole"
           },
           {
               "InstanceGroupName": "worker-group-1",
               "InstanceType": "ml.trn1.32xlarge",
               "InstanceCount": 1,
               "SlurmConfig": {
                   "NodeType": "Compute",
                   "PartitionNames": ["partition-1"]
               },
               "LifeCycleConfig": {
                   "SourceS3Uri": "s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src",
                   "OnCreate": "on_create.sh"
               },
               "ExecutionRole": "arn:aws:iam::<account-id>:role/HyperPodExecutionRole"
           }
       ],
       "Orchestrator": {
           "Slurm": {
               "SlurmConfigStrategy": "Managed"
           }
       }
   }
   ```

   **SlurmConfig bidang:**    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/smcluster-getting-started-slurm-cli.html)

   **Bidang Orchestrator.Slurm:**    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/smcluster-getting-started-slurm-cli.html)

   **SlurmConfigStrategy pilihan:**
   + `Managed`(disarankan): HyperPod sepenuhnya mengelola `slurm.conf` dan mendeteksi perubahan yang tidak sah (deteksi drift). Pembaruan gagal jika drift terdeteksi.
   + `Overwrite`: HyperPod `slurm.conf` menimpa pembaruan, mengabaikan perubahan manual apa pun.
   + `Merge`: HyperPod mempertahankan perubahan manual dan menggabungkannya dengan konfigurasi API.

   **Menambahkan FSx Lustre (opsional):**

   Untuk memasang sistem file FSx for Lustre ke node komputasi Anda, tambahkan `FsxLustreConfig` ke grup instance. `InstanceStorageConfigs` Ini memerlukan konfigurasi VPC Kustom.

   ```
   {
       "InstanceGroupName": "worker-group-1",
       "InstanceType": "ml.trn1.32xlarge",
       "InstanceCount": 1,
       "SlurmConfig": {
           "NodeType": "Compute",
           "PartitionNames": ["partition-1"]
       },
       "InstanceStorageConfigs": [
           {
               "FsxLustreConfig": {
                   "DnsName": "fs-0abc123def456789.fsx.us-west-2.amazonaws.com",
                   "MountPath": "/fsx",
                   "MountName": "abcdefgh"
               }
           }
       ],
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "arn:aws:iam::<account-id>:role/HyperPodExecutionRole"
   }
   ```

   **Menambahkan FSx untuk OpenZFS (opsional):**

   Anda juga dapat me-mount FSx untuk sistem file OpenZFS:

   ```
   "InstanceStorageConfigs": [
       {
           "FsxOpenZfsConfig": {
               "DnsName": "fs-0xyz789abc123456.fsx.us-west-2.amazonaws.com",
               "MountPath": "/shared"
           }
       }
   ]
   ```
**catatan**  
Setiap grup instance dapat memiliki paling banyak satu FSx untuk Lustre dan satu FSx untuk konfigurasi OpenZFS. Grup instance yang berbeda dapat memasang sistem file yang berbeda.

   **Menambahkan konfigurasi VPC (diperlukan untuk FSx):**

   Jika menggunakan FSx, Anda harus menentukan konfigurasi VPC Kustom:

   ```
   {
       "ClusterName": "my-hyperpod-cluster",
       "InstanceGroups": [
           {
               "InstanceGroupName": "my-controller-group",
               "InstanceType": "ml.c5.xlarge",
               "InstanceCount": 1,
               "SlurmConfig": {
                   "NodeType": "Controller"
               },
               "LifeCycleConfig": {
                   "SourceS3Uri": "s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src",
                   "OnCreate": "on_create.sh"
               },
               "ExecutionRole": "arn:aws:iam::<account-id>:role/HyperPodExecutionRole"
           },
       ],
       "Orchestrator": {
           "Slurm": {
               "SlurmConfigStrategy": "Managed"
           }
       },
       "VpcConfig": {
           "SecurityGroupIds": ["sg-0abc123def456789a"],
           "Subnets": ["subnet-0abc123def456789a"]
       }
   }
   ```

1. Jalankan perintah berikut untuk membuat cluster.

   ```
   aws sagemaker create-cluster --cli-input-json file://complete/path/to/create_cluster.json
   ```

   Ini harus mengembalikan ARN dari cluster yang dibuat.

   ```
   {
       "ClusterArn": "arn:aws:sagemaker:us-west-2:111122223333:cluster/my-hyperpod-cluster"
   }
   ```

   Jika Anda menerima kesalahan karena batasan sumber daya, pastikan Anda mengubah jenis instans menjadi salah satu dengan kuota yang cukup di akun Anda, atau minta kuota tambahan dengan mengikuti. [SageMaker HyperPod kuota](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas)

   **Kesalahan validasi umum:**    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/smcluster-getting-started-slurm-cli.html)

1. Jalankan `describe-cluster` untuk memeriksa status cluster.

   ```
   aws sagemaker describe-cluster --cluster-name my-hyperpod-cluster
   ```

   Contoh respons:

   ```
   {
       "ClusterArn": "arn:aws:sagemaker:us-west-2:111122223333:cluster/my-hyperpod-cluster",
       "ClusterName": "my-hyperpod-cluster",
       "ClusterStatus": "Creating",
       "InstanceGroups": [
           {
               "InstanceGroupName": "my-controller-group",
               "InstanceType": "ml.c5.xlarge",
               "InstanceCount": 1,
               "CurrentCount": 0,
               "TargetCount": 1,
               "SlurmConfig": {
                   "NodeType": "Controller"
               },
               "LifeCycleConfig": {
                   "SourceS3Uri": "s3://sagemaker-<bucket>/src",
                   "OnCreate": "on_create.sh"
               },
               "ExecutionRole": "arn:aws:iam::111122223333:role/HyperPodExecutionRole"
           },
           {
               "InstanceGroupName": "my-login-group",
               "InstanceType": "ml.m5.4xlarge",
               "InstanceCount": 1,
               "CurrentCount": 0,
               "TargetCount": 1,
               "SlurmConfig": {
                   "NodeType": "Login"
               },
               "LifeCycleConfig": {
                   "SourceS3Uri": "s3://sagemaker-<bucket>/src",
                   "OnCreate": "on_create.sh"
               },
               "ExecutionRole": "arn:aws:iam::111122223333:role/HyperPodExecutionRole"
           },
           {
               "InstanceGroupName": "worker-group-1",
               "InstanceType": "ml.trn1.32xlarge",
               "InstanceCount": 1,
               "CurrentCount": 0,
               "TargetCount": 1,
               "SlurmConfig": {
                   "NodeType": "Compute",
                   "PartitionNames": ["partition-1"]
               },
               "LifeCycleConfig": {
                   "SourceS3Uri": "s3://sagemaker-<bucket>/src",
                   "OnCreate": "on_create.sh"
               },
               "ExecutionRole": "arn:aws:iam::111122223333:role/HyperPodExecutionRole"
           }
       ],
       "Orchestrator": {
           "Slurm": {
               "SlurmConfigStrategy": "Managed"
           }
       },
       "CreationTime": "2024-01-15T10:30:00Z"
   }
   ```

   Setelah status cluster berubah**InService**, lanjutkan ke langkah berikutnya. Pembuatan cluster biasanya memakan waktu 10-15 menit.

1. Jalankan `list-cluster-nodes` untuk memeriksa detail node cluster.

   ```
   aws sagemaker list-cluster-nodes --cluster-name my-hyperpod-cluster
   ```

   Contoh respons:

   ```
   {
       "ClusterNodeSummaries": [
           {
               "InstanceGroupName": "my-controller-group",
               "InstanceId": "i-0abc123def456789a",
               "InstanceType": "ml.c5.xlarge",
               "InstanceStatus": {
                   "Status": "Running",
                   "Message": ""
               },
               "LaunchTime": "2024-01-15T10:35:00Z"
           },
           {
               "InstanceGroupName": "my-login-group",
               "InstanceId": "i-0abc123def456789b",
               "InstanceType": "ml.m5.4xlarge",
               "InstanceStatus": {
                   "Status": "Running",
                   "Message": ""
               },
               "LaunchTime": "2024-01-15T10:35:00Z"
           },
           {
               "InstanceGroupName": "worker-group-1",
               "InstanceId": "i-0abc123def456789c",
               "InstanceType": "ml.trn1.32xlarge",
               "InstanceStatus": {
                   "Status": "Running",
                   "Message": ""
               },
               "LaunchTime": "2024-01-15T10:36:00Z"
           }
       ]
   }
   ```

   Itulah `InstanceId` yang dibutuhkan pengguna cluster Anda untuk login (`aws ssm`) ke dalamnya. Untuk informasi selengkapnya tentang masuk ke node cluster dan menjalankan beban kerja ML, lihat[Pekerjaan di SageMaker HyperPod cluster](sagemaker-hyperpod-run-jobs-slurm.md).

1. Connect ke cluster Anda menggunakan AWS Systems Manager Session Manager.

   ```
   aws ssm start-session \
       --target sagemaker-cluster:my-hyperpod-cluster_my-login-group-i-0abc123def456789b \
       --region us-west-2
   ```

   Setelah terhubung, verifikasi Slurm dikonfigurasi dengan benar:

   ```
   # Check Slurm nodes
   sinfo
   
   # Check Slurm partitions
   sinfo -p partition-1
   
   # Submit a test job
   srun -p partition-1 --nodes=1 hostname
   ```

## Hapus cluster dan sumber daya bersih
<a name="smcluster-getting-started-slurm-cli-delete-cluster-and-clean"></a>

Setelah Anda berhasil menguji pembuatan SageMaker HyperPod cluster, klaster terus berjalan di `InService` status hingga Anda menghapus cluster. Kami menyarankan Anda menghapus klaster apa pun yang dibuat menggunakan kapasitas SageMaker AI sesuai permintaan saat tidak digunakan untuk menghindari biaya layanan lanjutan berdasarkan harga sesuai permintaan. Dalam tutorial ini, Anda telah membuat sebuah cluster yang terdiri dari tiga kelompok instance. Pastikan Anda menghapus cluster dengan menjalankan perintah berikut.

```
aws sagemaker delete-cluster --cluster-name my-hyperpod-cluster
```

Untuk membersihkan skrip siklus hidup dari bucket Amazon S3 yang digunakan untuk tutorial ini, buka bucket Amazon S3 yang Anda gunakan selama pembuatan cluster dan hapus file seluruhnya.

```
aws s3 rm s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src --recursive
```

Jika Anda telah menguji menjalankan beban kerja pelatihan model apa pun di klaster, periksa juga apakah Anda telah mengunggah data apa pun atau apakah pekerjaan Anda telah menyimpan artefak apa pun ke bucket Amazon S3 atau layanan sistem file yang berbeda seperti Amazon FSx for Lustre dan Amazon Elastic File System. Untuk mencegah timbulnya biaya, hapus semua artefak dan data dari penyimpanan atau sistem file.

## Topik terkait
<a name="smcluster-getting-started-slurm-cli-related-topics"></a>
+ [SageMaker HyperPod Konfigurasi slurm](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-slurm-configuration)
+ [Menyesuaikan SageMaker HyperPod cluster menggunakan skrip siklus hidup](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)
+ [FSx konfigurasi melalui InstanceStorageConfigs](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-slurm-fsx-config)
+ [SageMaker HyperPod Operasi klaster slurm](sagemaker-hyperpod-operate-slurm.md)