

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pemeriksaan kesehatan yang mendalam
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks"></a>

SageMaker HyperPod melakukan *pemeriksaan kesehatan mendalam* pada instance Slurm-orchestrated cluster untuk memastikan keandalan dan stabilitas perangkat keras dan infrastruktur yang mendasarinya. Pemeriksaan kesehatan mendalam dapat berjalan secara otomatis saat instance dibuat atau ditambahkan ke klaster (saat *mulai*), atau Anda dapat memicunya secara manual kapan saja (*sesuai permintaan*) menggunakan API. [StartClusterHealthCheck](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StartClusterHealthCheck.html) Pendekatan proaktif ini membantu mengidentifikasi dan mengurangi potensi masalah di seluruh siklus hidup klaster.

Selama pemeriksaan kesehatan mendalam, node yang terkena dampak ditempatkan di reservasi pemeliharaan Slurm untuk mencegah pekerjaan dijadwalkan pada mereka. Setelah semua pemeriksaan lulus, node dilepaskan dari reservasi dan menjadi tersedia untuk beban kerja.

**penting**  
Untuk menggunakan pemeriksaan kesehatan mendalam, Anda harus memperbarui ke versi AMI terbaru. Jalankan [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)untuk memperbarui ke versi terbaru AMI. Jika Anda menjalankan versi AMI yang lebih lama, pemeriksaan kesehatan mendalam mungkin tidak berfungsi seperti yang diharapkan.

## Jenis pemeriksaan kesehatan yang mendalam
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-types"></a>

SageMaker HyperPod mendukung dua kategori pemeriksaan kesehatan mendalam untuk cluster Slurm:
+ **InstanceStress**— Menjalankan pengujian tingkat instans termasuk pengujian stres perangkat keras (CPU, memori, disk, GPU/PCI verifikasi), diagnostik GPU DCGM, dan konektivitas loopback EFA. Ini memvalidasi kesehatan perangkat keras node individu.
+ **InstanceConnectivity**— Menjalankan pengujian NCCL (NVIDIA Collective Communications Library) tingkat cluster di beberapa node untuk memverifikasi kinerja komunikasi GPU antar-node. Pemeriksaan ini hanya didukung pada instance dengan kemampuan komunikasi GPU multi-node.

## Daftar pemeriksaan kesehatan mendalam yang dilakukan oleh SageMaker HyperPod
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-list"></a>

SageMaker HyperPod menjalankan pemeriksaan kesehatan mendalam berikut.

**Instance-level pemeriksaan kesehatan mendalam (InstanceStress)**


| Kategori | Nama utilitas | Kompatibilitas tipe instans | Deskripsi | 
| --- | --- | --- | --- | 
| Akselerator | GPU/NVLink menghitung | GPU | Memverifikasi GPU/NVLink jumlah. | 
| Akselerator | [Diagnostik DCGM tingkat 4](https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/dcgm-diagnostics.html) | GPU | Menilai kesehatan dan fungsionalitas GPU NVIDIA dengan menjalankan diagnostik DCGM (NVIDIA Data Center GPU Manager) di level 4, termasuk tes memori tambahan. Durasi tipikal: \~ 45-90 menit tergantung pada jumlah GPU. | 
| Jaringan | EFA | GPU | Menjalankan uji bandwidth dan latensi loopback EFA pada perangkat EFA yang terpasang. Durasi khas: \~ 2-5 menit. | 

**Cluster-level pemeriksaan kesehatan mendalam (InstanceConnectivity)**


| Kategori | Nama utilitas | Kompatibilitas tipe instans | Deskripsi | 
| --- | --- | --- | --- | 
| Akselerator | Tes NCCL | GPU | Menjalankan tes all\_reduce kinerja NCCL di beberapa node untuk memverifikasi bandwidth komunikasi GPU antar-node. Durasi tipikal: \~ 5-15 menit tergantung pada jumlah node. | 

## On-start pemeriksaan kesehatan yang mendalam
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-start"></a>

On-start pemeriksaan kesehatan mendalam berjalan secara otomatis saat instance pertama kali disediakan — selama pembuatan klaster atau saat instance baru ditambahkan melalui. [UpdateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html) Ini memastikan setiap node melewati validasi perangkat keras sebelum menerima beban kerja.

### Mengaktifkan pemeriksaan kesehatan mendalam saat memulai
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-start-enabling"></a>

Untuk mengaktifkan pemeriksaan kesehatan mendalam saat memulai, tentukan `OnStartDeepHealthChecks` parameter dalam konfigurasi grup instans saat membuat atau memperbarui klaster.

**Contoh: Buat cluster dengan pemeriksaan kesehatan mendalam saat dimulai**

```
aws sagemaker create-cluster \
  --cluster-name {{my-slurm-cluster}} \
  --instance-groups '[
    {
      "InstanceGroupName": "controller-group",
      "InstanceType": "ml.m5.xlarge",
      "InstanceCount": 1,
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://{{my-bucket}}/lifecycle-scripts/",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "arn:aws:iam::{{111122223333}}:role/{{my-role}}",
      "ThreadsPerCore": 1
    },
    {
      "InstanceGroupName": "worker-group",
      "InstanceType": "ml.p4d.24xlarge",
      "InstanceCount": 4,
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://{{my-bucket}}/lifecycle-scripts/",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "arn:aws:iam::{{111122223333}}:role/{{my-role}}",
      "ThreadsPerCore": 1,
      "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"]
    }
  ]' \
  --vpc-config '{"SecurityGroupIds":["{{sg-12345678}}"],"Subnets":["{{subnet-12345678}}"]}'
```

### Apa yang terjadi selama pemeriksaan kesehatan mendalam saat memulai
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-start-process"></a>

Ketika pemeriksaan kesehatan mendalam on-start diaktifkan, proses berikut terjadi:

1. **Penyediaan node**: Instance baru diluncurkan dan skrip siklus hidup dijalankan.

1. **Isolasi node**: Agen HyperPod cluster menempatkan node baru dalam reservasi pemeliharaan Slurm (`hyperpod-deep-health-check`) dan menambahkannya ke partisi`hyperpod-system-maintenance`. Node ditandai dengan fitur Slurm. `SageMakerDeepHealthCheck:InProgress` Ini mencegah pekerjaan dijadwalkan pada node ini selama pengujian.

1. **Eksekusi uji**: Tes berikut berjalan pada setiap node sebagai bagian dari `InstanceStress` pemeriksaan:
   + **HARDWARE\_CHECK**: Berjalan `stress-ng` untuk pengujian stress CPU, memori, dan disk, diikuti dengan verifikasi jumlah perangkat GPU dan PCI. Durasi khas: \~ 1-2 menit.
   + **DCGM**: Menjalankan diagnostik NVIDIA DCGM di level 4, termasuk tes memori GPU. Durasi tipikal: \~ 45-90 menit tergantung pada jumlah GPU.
   + **EFA: Menjalankan** uji bandwidth dan latensi loopback EFA. Durasi khas: \~ 2-5 menit.

   Jika juga `InstanceConnectivity` diaktifkan, tes tambahan berikut dijalankan:
   + **NCCL**: Menjalankan tes `all_reduce` kinerja NCCL di beberapa node untuk memverifikasi bandwidth komunikasi GPU antar-node. Durasi tipikal: \~ 5-15 menit tergantung pada jumlah node.

1. **Penanganan hasil**:
   + **Pass**: Node dihapus dari reservasi pemeliharaan, fitur pemeriksaan kesehatan mendalam dihapus, dan node menjadi tersedia untuk pekerjaan di partisi yang ditetapkan.
   + **Gagal**: Node tetap terisolasi. SageMaker HyperPod secara otomatis menggantikan node yang gagal dan menjalankan pemeriksaan kesehatan mendalam pada penggantian.

Cluster bertransisi ke setidaknya `InService` sekali node pengontrol sedang berjalan. Node pekerja menunjukkan `DeepHealthCheckInProgress` status selama pengujian dan transisi ke `Running` setelah lulus.

### Memantau pemeriksaan kesehatan mendalam saat memulai
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-start-monitoring"></a>

Anda dapat memantau status pemeriksaan kesehatan mendalam saat memulai menggunakan Amazon SageMaker AI API atau perintah Slurm.

**Periksa status node menggunakan AWS Command Line Interface**

```
aws sagemaker list-cluster-nodes \
  --cluster-name {{my-slurm-cluster}}
```

Node yang menjalani pemeriksaan kesehatan mendalam menunjukkan `InstanceStatus.Status` sebagai`DeepHealthCheckInProgress`.

**Periksa status Slurm melalui SSM pada node pengontrol**

```
# View node states
sinfo -a -N -l

# View maintenance reservation
scontrol show reservations

# View running DHC jobs
squeue -a
```

Node di bawah pemeriksaan kesehatan mendalam muncul di `hyperpod-deep-health-check` reservasi dan `hyperpod-system-maintenance` partisi.

### Menambahkan node ke cluster dengan pemeriksaan kesehatan mendalam saat dimulai diaktifkan
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-start-add-nodes"></a>

Saat Anda meningkatkan skala klaster yang telah `OnStartDeepHealthChecks` dikonfigurasi, node baru secara otomatis akan melalui pemeriksaan kesehatan mendalam sebelum menerima beban kerja. Node yang ada dan pekerjaan yang sedang berjalan tidak terpengaruh.

```
aws sagemaker update-cluster \
  --cluster-name {{my-slurm-cluster}} \
  --instance-groups '[
    {
      "InstanceGroupName": "controller-group",
      "InstanceType": "ml.m5.xlarge",
      "InstanceCount": 1,
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://{{my-bucket}}/lifecycle-scripts/",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "arn:aws:iam::{{111122223333}}:role/{{my-role}}",
      "ThreadsPerCore": 1
    },
    {
      "InstanceGroupName": "worker-group",
      "InstanceType": "ml.p4d.24xlarge",
      "InstanceCount": 8,
      "LifeCycleConfig": {
        "SourceS3Uri": "s3://{{my-bucket}}/lifecycle-scripts/",
        "OnCreate": "on_create.sh"
      },
      "ExecutionRole": "arn:aws:iam::{{111122223333}}:role/{{my-role}}",
      "ThreadsPerCore": 1,
      "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"]
    }
  ]'
```

Node baru diisolasi dalam reservasi pemeliharaan sementara pemeriksaan kesehatan mendalam dijalankan. Pekerjaan yang membutuhkan kapasitas tambahan dari node baru menunggu sampai node tersebut lulus pemeriksaan kesehatan mendalam dan tersedia. Pekerjaan yang dapat dipenuhi oleh node yang tersedia tidak terpengaruh.

## On-demand pemeriksaan kesehatan yang mendalam
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-demand"></a>

On-demand pemeriksaan kesehatan mendalam memungkinkan Anda memicu validasi perangkat keras pada node cluster yang ada kapan saja menggunakan [StartClusterHealthCheck](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StartClusterHealthCheck.html)API. Ini berguna untuk validasi kesehatan berkala atau setelah dugaan masalah perangkat keras.

**catatan**  
On-demand pemeriksaan kesehatan mendalam tidak didukung pada cluster dengan `NodeProvisioningMode` set to`Continuous`.

### Menjalankan pemeriksaan kesehatan mendalam sesuai permintaan dari konsol
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-demand-console"></a>

Anda dapat menjalankan pemeriksaan kesehatan mendalam pada instance HyperPod cluster langsung dari konsol SageMaker AI.

**Untuk menjalankan pemeriksaan kesehatan mendalam sesuai permintaan dari konsol**

1. Buka konsol SageMaker AI di [konsol SageMaker AI](https://console.aws.amazon.com/sagemaker).

1. Di panel navigasi, di bawah **HyperPod**, pilih **Cluster**.

1. Pilih nama klaster Anda untuk membuka halaman detail cluster.

1. Dalam tabel **Instances**, pilih satu atau beberapa contoh yang ingin Anda jalankan pemeriksaan kesehatan mendalam.
**catatan**  
Keluarga instans yang didukung termasuk g5, p4, dan p5. Non-accelerated instance secara otomatis dilewati.

1. Pilih **Tindakan**, lalu pilih **Jalankan pemeriksaan kesehatan mendalam**.

1. Pilih **Pemeriksaan stres**, **Pemeriksaan konektivitas**, atau keduanya:
   + **Pemeriksaan stres - Memvalidasi** perangkat keras akselerator di bawah beban (sesuai dengan). `InstanceStress`
   + **Pemeriksaan konektivitas** — Memvalidasi komunikasi jaringan antar-node (sesuai dengan). `InstanceConnectivity`

1. Pilih **Jalankan pemeriksaan kesehatan**.

Spanduk sukses menegaskan bahwa cek dimulai. Instans tidak tersedia untuk beban kerja selama pemeriksaan, yang mungkin memakan waktu lebih dari satu jam. Pantau status instans di tabel **Instances** — ini menunjukkan **pemeriksaan kesehatan mendalam sedang berlangsung** saat berjalan. Ketika masalah ditemukan dan pemulihan otomatis diaktifkan, SageMaker HyperPod secara otomatis reboot atau mengganti instance yang salah.

### Memicu pemeriksaan kesehatan mendalam sesuai permintaan menggunakan AWS Command Line Interface
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-demand-triggering"></a>

Anda dapat menentukan grup instance mana dan pemeriksaan mana yang akan dijalankan. Hanya satu permintaan pemeriksaan kesehatan mendalam sesuai permintaan yang dapat aktif per cluster sekaligus.

```
aws sagemaker start-cluster-health-check \
  --cluster-name {{my-slurm-cluster}} \
  --deep-health-check-configurations '[
    {
      "InstanceGroupName": "worker-group",
      "DeepHealthChecks": ["InstanceStress", "InstanceConnectivity"]
    }
  ]'
```

### Perilaku dengan menjalankan beban kerja
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-on-demand-behavior"></a>

Ketika pemeriksaan kesehatan mendalam sesuai permintaan dipicu pada node yang menjalankan pekerjaan:
+ Menjalankan pekerjaan **tidak** terganggu atau dihentikan.
+ Pemeriksaan kesehatan mendalam antri dan menunggu pekerjaan saat ini selesai. Jika pekerjaan berjalan tidak selesai dalam waktu 10 menit, node dilewati dari pemeriksaan kesehatan mendalam.
+ Node ditempatkan di reservasi pemeliharaan untuk mencegah pekerjaan baru dijadwalkan selama pengujian.

## Log dari pemeriksaan kesehatan yang mendalam
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-logs"></a>

Berikut ini adalah contoh log dari pemeriksaan kesehatan SageMaker HyperPod mendalam.

**Cluster-level log**

Log pemeriksaan kesehatan mendalam tingkat cluster disimpan di grup CloudWatch log Anda di. `/aws/sagemaker/Clusters/<cluster_name>/<cluster_id>`

Aliran log dicatat di`DeepHealthCheckResults/<log_stream_id>`.

**Instance-level log**

Pada setiap node, log pemeriksaan kesehatan mendalam disimpan di`/var/log/aws/clusters/sagemaker-deep-health-check.log`.

Anda dapat mengakses log melalui SSM:

```
aws ssm start-session \
  --target "sagemaker-cluster:{{<cluster_id>}}_{{<instance_group>}}-{{<instance_id>}}"
```

Kemudian lihat log:

```
cat /var/log/aws/clusters/sagemaker-deep-health-check.log
```

**Contoh keluaran HARDWARE\_CHECK**

```
2026-03-29T18:03:14Z  info  Executing Hardware stress check with command: stress-ng
2026-03-29T18:04:20Z  info  stress-ng success
2026-03-29T18:04:20Z  info  GpuPci Count check success
```

**Contoh keluaran DCGM**

```
2026-03-29T18:35:02Z  info  DCGM diagnostic health summary: dcgmCheckLevel: 4
  dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01
  gpuDeviceIds: [2237] replacementRequired: false rebootRequired: false
```

**Contoh keluaran EFA**

```
2026-03-29T18:36:28Z  info  EFA Loopback check passed for device: rdmap0s29
  MaxBw: 58.59, AvgBw: 32.42, MaxTypicalLat: 30.87, AvgLat: 21.63
```

**Contoh keluaran kegagalan pemeriksaan kesehatan yang mendalam**

```
{
    "level": "error",
    "ts": "2026-03-29T19:15:22Z",
    "msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: ml.g5.8xlarge. ERROR: Bandwidth has less than threshold: Expected minimum threshold: 80, NCCL Test output Bw: 30"
}
```

## Auto-resume perilaku dengan pemeriksaan kesehatan yang mendalam
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-auto-resume"></a>

Tanpa pemeriksaan kesehatan mendalam diaktifkan, ketika sebuah node diganti selama auto-resume, node pengganti segera ditambahkan ke cluster dan pekerjaan yang dilanjutkan secara otomatis dapat segera dijadwalkan di dalamnya.

Dengan pemeriksaan kesehatan mendalam diaktifkan, node pengganti harus lulus semua pemeriksaan kesehatan mendalam yang dikonfigurasi sebelum tersedia. Namun, pekerjaan yang dilanjutkan secara otomatis tidak harus menunggu node pengganti — ini dapat dijadwalkan pada node lain yang tersedia di cluster. Pekerjaan hanya menunggu jika tidak ada node lain yang tersedia.

## Pertimbangan tambahan
<a name="sagemaker-hyperpod-resiliency-slurm-deep-health-checks-limitations"></a>
+ Pemeriksaan kesehatan mendalam memerlukan versi AMI terbaru. Jalankan [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)untuk memperbarui klaster Anda sebelum mengaktifkan pemeriksaan kesehatan mendalam.
+ On-demand pemeriksaan kesehatan mendalam tidak didukung pada cluster dengan `NodeProvisioningMode` set to`Continuous`.
+ Pemeriksaan kesehatan mendalam hanya dilakukan pada node pekerja. Node pengontrol dan login tidak tunduk pada pemeriksaan kesehatan yang mendalam.
+ Hanya satu permintaan pemeriksaan kesehatan mendalam sesuai permintaan yang dapat aktif per cluster sekaligus.
+ Jika pemeriksaan sesuai permintaan memicu reboot atau penggantian node, node pengganti hanya menjalankan pemeriksaan kesehatan mendalam jika `OnStartDeepHealthChecks` diaktifkan pada grup instance. Jika tidak, node bergabung kembali tanpa menjalankan kembali pemeriksaan kesehatan yang mendalam.