

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Penyediaan berkelanjutan untuk operasi cluster yang ditingkatkan dengan Slurm
<a name="sagemaker-hyperpod-scaling-slurm"></a>

 SageMaker HyperPod Cluster Amazon yang dibuat dengan orkestrasi Slurm sekarang mendukung penyediaan berkelanjutan, kemampuan yang memungkinkan fleksibilitas dan efisiensi yang lebih besar saat menjalankan beban kerja skala besar. AI/ML Penyediaan berkelanjutan memungkinkan Anda memulai pelatihan dengan cepat, menskalakan dengan mulus, melakukan pemeliharaan tanpa mengganggu operasi, dan memiliki visibilitas terperinci ke dalam operasi klaster.

**catatan**  
Penyediaan berkelanjutan tersedia sebagai konfigurasi opsional untuk HyperPod cluster baru yang dibuat dengan orkestrasi Slurm. Cluster yang ada menggunakan model penskalaan sebelumnya tidak dapat dimigrasikan ke penyediaan berkelanjutan saat ini.

## Cara kerjanya
<a name="sagemaker-hyperpod-scaling-slurm-how"></a>

Sistem penyediaan berkelanjutan memperkenalkan arsitektur negara yang diinginkan yang menggantikan model penskalaan tradisional. all-or-nothing Pada model sebelumnya, jika ada grup instans yang tidak dapat sepenuhnya disediakan, seluruh operasi pembuatan atau pembaruan cluster gagal dan diputar kembali. Dengan penyediaan berkelanjutan, sistem menerima kapasitas sebagian dan terus menyediakan instance yang tersisa secara asinkron.

Sistem penyediaan berkelanjutan:
+ **Menerima permintaan**: Merekam jumlah instans target untuk setiap grup instans.
+ **Memulai penyediaan**: Mulai meluncurkan instance untuk semua grup instance secara paralel.
+ **Ketentuan node prioritas pertama**: Transisi cluster `InService` setelah setidaknya satu node controller (dan satu node login, jika grup instance login ditentukan) berhasil disediakan.
+ **Melacak kemajuan**: Memantau setiap upaya peluncuran instance dan mencatat statusnya.
+ **Menangani kegagalan**: Secara otomatis mencoba ulang peluncuran yang gagal untuk node pekerja secara asinkron.

Penyediaan berkelanjutan dinonaktifkan secara default. Untuk menggunakan fitur ini, atur `NodeProvisioningMode` ke `Continuous` dalam `CreateCluster` permintaan Anda.

Dengan penyediaan berkelanjutan diaktifkan, Anda dapat memulai beberapa operasi penskalaan secara bersamaan tanpa menunggu operasi sebelumnya selesai. Ini memungkinkan Anda menskalakan grup instans yang berbeda dalam kluster yang sama secara bersamaan dan mengirimkan beberapa permintaan penskalaan ke grup instans yang sama.

## Penyediaan berbasis prioritas
<a name="sagemaker-hyperpod-scaling-slurm-priority"></a>

Cluster slurm memerlukan node pengontrol untuk beroperasi sebelum node pekerja dapat mendaftar dan menerima pekerjaan. Penyediaan berkelanjutan menangani ini secara otomatis melalui penyediaan berbasis prioritas:

1. Grup instance controller disediakan terlebih dahulu.

1. Setelah satu node pengontrol sehat, node login dan node pekerja mulai menyediakan secara paralel.

1. Cluster bertransisi ke `InService` ketika satu node pengontrol naik dan satu node login naik (jika grup instance login ditentukan). Jika tidak ada grup instance login yang ditentukan, klaster bertransisi ke `InService` segera setelah node pengontrol disediakan.

1. Node pekerja yang tidak dapat segera disediakan karena kendala kapasitas memasuki loop coba ulang asinkron dan ditambahkan ke cluster Slurm secara otomatis saat tersedia.

## Penanganan kegagalan pengontrol
<a name="sagemaker-hyperpod-scaling-slurm-controller-failure"></a>

Selama pembuatan klaster, jika node pengontrol gagal menyediakan, perilaku tergantung pada apakah kesalahan dapat dicoba ulang atau tidak dapat dicoba ulang.

**Kesalahan yang dapat dicoba ulang** (misalnya, contoh tidak sehat atau kegagalan sementara):
+ HyperPod terus mengganti instance dan mencoba lagi penyediaan sampai pengontrol muncul.
+ Node pekerja dan login yang telah disediakan tetap tersedia, tetapi cluster tidak bertransisi `InService` hingga pengontrol sehat.

**Kesalahan yang tidak dapat dicoba ulang** (misalnya, tidak ada kapasitas yang tersedia untuk jenis instance pengontrol atau kegagalan skrip siklus hidup):
+ Cluster ditandai sebagai`Failed`.
+ Anda diberi tahu tentang alasan kegagalan dan harus mengambil tindakan korektif, seperti memilih jenis instans yang berbeda, memperbaiki skrip siklus hidup, atau mencoba kembali di Availability Zone yang berbeda.

## Prasyarat
<a name="sagemaker-hyperpod-scaling-slurm-prerequisites"></a>

Penyediaan berkelanjutan mengharuskan parameter penyediaan Slurm (tipe node, nama partisi) disediakan melalui payload API di setiap bidang grup instans. `SlurmConfig` Cluster yang mengandalkan `provisioning_parameters.json` file lama di Amazon S3 tidak kompatibel dengan penyediaan berkelanjutan.

**catatan**  
Fitur-fitur berikut saat ini tidak didukung dengan penyediaan berkelanjutan pada cluster Slurm: migrasi cluster yang ada, konfigurasi node multi-head melalui topologi Slurm berbasis API, dan. `SlurmConfigStrategy` Penyediaan berkelanjutan beroperasi secara eksklusif dalam mode gabungan untuk manajemen. `slurm.conf`

## Pengukuran penggunaan
<a name="sagemaker-hyperpod-scaling-slurm-metering"></a>

HyperPod cluster dengan penyediaan berkelanjutan menggunakan pengukuran tingkat instans untuk memberikan penagihan akurat yang mencerminkan penggunaan sumber daya aktual. Pendekatan pengukuran ini berbeda dari penagihan tingkat cluster tradisional dengan melacak setiap instance secara independen.

**Penagihan tingkat instans**

Dengan penyediaan berkelanjutan, penagihan dimulai dan berhenti di tingkat instans individu daripada menunggu perubahan status tingkat klaster. Pendekatan ini memberikan manfaat sebagai berikut:
+ **Akurasi penagihan yang tepat**: Penagihan dimulai saat eksekusi skrip siklus hidup dimulai. Jika skrip siklus hidup gagal, penyediaan instance akan dicoba ulang dan Anda dikenakan biaya selama durasi runtime skrip siklus hidup.
+ **Pengukuran independen**: Siklus hidup penagihan setiap instans dikelola secara terpisah, mencegah kesalahan penagihan berjenjang.
+ **Pembaruan penagihan real-time**: Penagihan dimulai saat instance mulai mengeksekusi skrip konfigurasi siklus hidupnya dan berhenti saat instance memasuki status penghentian.

**Siklus hidup penagihan**

Setiap instance di HyperPod klaster Anda mengikuti siklus hidup penagihan ini:
+ **Penagihan dimulai**: Ketika instance berhasil diluncurkan dan mulai mengeksekusi skrip konfigurasi siklus hidupnya.
+ **Penagihan berlanjut**: Sepanjang masa operasional instans.
+ **Penagihan berhenti**: Ketika instance memasuki status penghentian, terlepas dari alasan penghentian.

**catatan**  
Penagihan tidak dimulai untuk instance yang gagal diluncurkan. Jika peluncuran instans gagal karena kapasitas yang tidak mencukupi atau masalah lain, Anda tidak dikenakan biaya untuk upaya yang gagal tersebut. Penagihan dihitung pada tingkat instans dan biaya dikumpulkan dan dilaporkan di bawah Amazon Resource Name (ARN) klaster Anda.

## Buat klaster dengan penyediaan berkelanjutan diaktifkan
<a name="sagemaker-hyperpod-scaling-slurm-create"></a>

**catatan**  
Siapkan skrip konfigurasi siklus hidup dan unggah ke bucket Amazon S3 yang dapat diakses oleh peran eksekusi Anda. Untuk informasi selengkapnya, lihat [SageMaker HyperPod Operasi klaster slurm](sagemaker-hyperpod-operate-slurm.md).

Siapkan file permintaan `CreateCluster` API dalam format JSON. Atur `NodeProvisioningMode` ke `Continuous` dan berikan informasi topologi Slurm di setiap bidang grup instance. `SlurmConfig`

```
// create_cluster.json
{
    "ClusterName": "my-training-cluster",
    "NodeProvisioningMode": "Continuous",
    "Orchestrator": {
        "Slurm": {}
    },
    "InstanceGroups": [
        {
            "InstanceGroupName": "controller-group",
            "InstanceType": "ml.m5.xlarge",
            "InstanceCount": 1,
            "LifeCycleConfig": {
                "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/",
                "OnCreate": "on_create.sh"
            },
            "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster",
            "SlurmConfig": {
                "NodeType": "Controller"
            }
        },
        {
            "InstanceGroupName": "login-group",
            "InstanceType": "ml.m5.xlarge",
            "InstanceCount": 1,
            "LifeCycleConfig": {
                "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/",
                "OnCreate": "on_create.sh"
            },
            "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster",
            "SlurmConfig": {
                "NodeType": "Login"
            }
        },
        {
            "InstanceGroupName": "worker-gpu-a",
            "InstanceType": "ml.p5.48xlarge",
            "InstanceCount": 16,
            "LifeCycleConfig": {
                "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/",
                "OnCreate": "on_create.sh"
            },
            "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster",
            "SlurmConfig": {
                "NodeType": "Compute",
                "PartitionNames": ["gpu-training"]
            }
        }
    ],
    "VpcConfig": {
        "SecurityGroupIds": ["sg-12345678"],
        "Subnets": ["subnet-12345678"]
    }
}
```

Jalankan `create-cluster` perintah untuk mengirimkan permintaan.

```
aws sagemaker create-cluster \
    --cli-input-json file://complete/path/to/create_cluster.json
```

Ini mengembalikan ARN dari cluster baru.

```
{
    "ClusterArn": "arn:aws:sagemaker:us-west-2:111122223333:cluster/abcde12345"
}
```

## Manajemen konfigurasi slurm
<a name="sagemaker-hyperpod-scaling-slurm-config"></a>

Penyediaan berkelanjutan beroperasi secara eksklusif dalam mode gabungan untuk `slurm.conf` manajemen partisi. Dalam mode gabungan, HyperPod menerapkan perubahan konfigurasi partisi secara aditif di atas apa pun yang telah Anda modifikasi. `slurm.conf` HyperPod hanya memperbarui bagian terkait partisi `slurm.conf` (seperti nama partisi dan entri nama node); parameter konfigurasi Slurm lainnya tidak dimodifikasi. Ini berarti:
+ Pengeditan manual Anda `slurm.conf` dipertahankan.
+ Tidak ada deteksi drift otomatis atau penyelesaian konflik antara modifikasi Anda dan status HyperPod yang diharapkan.

`SlurmConfigStrategy`Parameter (`Managed`,`Merge`,`Overwrite`) tidak didukung dengan penyediaan berkelanjutan. Melewati `SlurmConfigStrategy` nilai apa pun menghasilkan kesalahan API.