View a markdown version of this page

Pemeriksaan kesehatan yang mendalam - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemeriksaan kesehatan yang mendalam

SageMaker HyperPod melakukan pemeriksaan kesehatan mendalam pada instance Slurm-orchestrated cluster untuk memastikan keandalan dan stabilitas perangkat keras dan infrastruktur yang mendasarinya. Pemeriksaan kesehatan mendalam dapat berjalan secara otomatis saat instance dibuat atau ditambahkan ke klaster (saat mulai), atau Anda dapat memicunya secara manual kapan saja (sesuai permintaan) menggunakan API. StartClusterHealthCheck Pendekatan proaktif ini membantu mengidentifikasi dan mengurangi potensi masalah di seluruh siklus hidup klaster.

Selama pemeriksaan kesehatan mendalam, node yang terkena dampak ditempatkan di reservasi pemeliharaan Slurm untuk mencegah pekerjaan dijadwalkan pada mereka. Setelah semua pemeriksaan lulus, node dilepaskan dari reservasi dan menjadi tersedia untuk beban kerja.

penting

Untuk menggunakan pemeriksaan kesehatan mendalam, Anda harus memperbarui ke versi AMI terbaru. Jalankan UpdateClusterSoftwareuntuk memperbarui ke versi terbaru AMI. Jika Anda menjalankan versi AMI yang lebih lama, pemeriksaan kesehatan mendalam mungkin tidak berfungsi seperti yang diharapkan.

Jenis pemeriksaan kesehatan yang mendalam

SageMaker HyperPod mendukung dua kategori pemeriksaan kesehatan mendalam untuk cluster Slurm:

  • InstanceStress— Menjalankan pengujian tingkat instans termasuk pengujian stres perangkat keras (CPU, memori, disk, GPU/PCI verifikasi), diagnostik GPU DCGM, dan konektivitas loopback EFA. Ini memvalidasi kesehatan perangkat keras node individu.

  • InstanceConnectivity— Menjalankan pengujian NCCL (NVIDIA Collective Communications Library) tingkat cluster di beberapa node untuk memverifikasi kinerja komunikasi GPU antar-node. Pemeriksaan ini hanya didukung pada instance dengan kemampuan komunikasi GPU multi-node.

Daftar pemeriksaan kesehatan mendalam yang dilakukan oleh SageMaker HyperPod

SageMaker HyperPod menjalankan pemeriksaan kesehatan mendalam berikut.

Instance-level pemeriksaan kesehatan mendalam (InstanceStress)

Kategori Nama utilitas Kompatibilitas tipe instans Deskripsi
Akselerator GPU/NVLink menghitung GPU Memverifikasi GPU/NVLink jumlah.
Akselerator Diagnostik DCGM tingkat 4 GPU Menilai kesehatan dan fungsionalitas GPU NVIDIA dengan menjalankan diagnostik DCGM (NVIDIA Data Center GPU Manager) di level 4, termasuk tes memori tambahan. Durasi tipikal: ~ 45-90 menit tergantung pada jumlah GPU.
Jaringan EFA GPU Menjalankan uji bandwidth dan latensi loopback EFA pada perangkat EFA yang terpasang. Durasi khas: ~ 2-5 menit.

Cluster-level pemeriksaan kesehatan mendalam (InstanceConnectivity)

Kategori Nama utilitas Kompatibilitas tipe instans Deskripsi
Akselerator Tes NCCL GPU Menjalankan tes all_reduce kinerja NCCL di beberapa node untuk memverifikasi bandwidth komunikasi GPU antar-node. Durasi tipikal: ~ 5-15 menit tergantung pada jumlah node.

On-start pemeriksaan kesehatan yang mendalam

On-start pemeriksaan kesehatan mendalam berjalan secara otomatis saat instance pertama kali disediakan — selama pembuatan klaster atau saat instance baru ditambahkan melalui. UpdateCluster Ini memastikan setiap node melewati validasi perangkat keras sebelum menerima beban kerja.

Mengaktifkan pemeriksaan kesehatan mendalam saat memulai

Untuk mengaktifkan pemeriksaan kesehatan mendalam saat memulai, tentukan OnStartDeepHealthChecks parameter dalam konfigurasi grup instans saat membuat atau memperbarui klaster.

Contoh: Buat cluster dengan pemeriksaan kesehatan mendalam saat dimulai

aws sagemaker create-cluster \ --cluster-name my-slurm-cluster \ --instance-groups '[ { "InstanceGroupName": "controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 4, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]' \ --vpc-config '{"SecurityGroupIds":["sg-12345678"],"Subnets":["subnet-12345678"]}'

Apa yang terjadi selama pemeriksaan kesehatan mendalam saat memulai

Ketika pemeriksaan kesehatan mendalam on-start diaktifkan, proses berikut terjadi:

  1. Penyediaan node: Instance baru diluncurkan dan skrip siklus hidup dijalankan.

  2. Isolasi node: Agen HyperPod cluster menempatkan node baru dalam reservasi pemeliharaan Slurm (hyperpod-deep-health-check) dan menambahkannya ke partisihyperpod-system-maintenance. Node ditandai dengan fitur Slurm. SageMakerDeepHealthCheck:InProgress Ini mencegah pekerjaan dijadwalkan pada node ini selama pengujian.

  3. Eksekusi uji: Tes berikut berjalan pada setiap node sebagai bagian dari InstanceStress pemeriksaan:

    • HARDWARE_CHECK: Berjalan stress-ng untuk pengujian stress CPU, memori, dan disk, diikuti dengan verifikasi jumlah perangkat GPU dan PCI. Durasi khas: ~ 1-2 menit.

    • DCGM: Menjalankan diagnostik NVIDIA DCGM di level 4, termasuk tes memori GPU. Durasi tipikal: ~ 45-90 menit tergantung pada jumlah GPU.

    • EFA: Menjalankan uji bandwidth dan latensi loopback EFA. Durasi khas: ~ 2-5 menit.

    Jika juga InstanceConnectivity diaktifkan, tes tambahan berikut dijalankan:

    • NCCL: Menjalankan tes all_reduce kinerja NCCL di beberapa node untuk memverifikasi bandwidth komunikasi GPU antar-node. Durasi tipikal: ~ 5-15 menit tergantung pada jumlah node.

  4. Penanganan hasil:

    • Pass: Node dihapus dari reservasi pemeliharaan, fitur pemeriksaan kesehatan mendalam dihapus, dan node menjadi tersedia untuk pekerjaan di partisi yang ditetapkan.

    • Gagal: Node tetap terisolasi. SageMaker HyperPod secara otomatis menggantikan node yang gagal dan menjalankan pemeriksaan kesehatan mendalam pada penggantian.

Cluster bertransisi ke setidaknya InService sekali node pengontrol sedang berjalan. Node pekerja menunjukkan DeepHealthCheckInProgress status selama pengujian dan transisi ke Running setelah lulus.

Memantau pemeriksaan kesehatan mendalam saat memulai

Anda dapat memantau status pemeriksaan kesehatan mendalam saat memulai menggunakan Amazon SageMaker AI API atau perintah Slurm.

Periksa status node menggunakan AWS Command Line Interface

aws sagemaker list-cluster-nodes \ --cluster-name my-slurm-cluster

Node yang menjalani pemeriksaan kesehatan mendalam menunjukkan InstanceStatus.Status sebagaiDeepHealthCheckInProgress.

Periksa status Slurm melalui SSM pada node pengontrol

# View node states sinfo -a -N -l # View maintenance reservation scontrol show reservations # View running DHC jobs squeue -a

Node di bawah pemeriksaan kesehatan mendalam muncul di hyperpod-deep-health-check reservasi dan hyperpod-system-maintenance partisi.

Menambahkan node ke cluster dengan pemeriksaan kesehatan mendalam saat dimulai diaktifkan

Saat Anda meningkatkan skala klaster yang telah OnStartDeepHealthChecks dikonfigurasi, node baru secara otomatis akan melalui pemeriksaan kesehatan mendalam sebelum menerima beban kerja. Node yang ada dan pekerjaan yang sedang berjalan tidak terpengaruh.

aws sagemaker update-cluster \ --cluster-name my-slurm-cluster \ --instance-groups '[ { "InstanceGroupName": "controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 8, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket/lifecycle-scripts/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role", "ThreadsPerCore": 1, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]'

Node baru diisolasi dalam reservasi pemeliharaan sementara pemeriksaan kesehatan mendalam dijalankan. Pekerjaan yang membutuhkan kapasitas tambahan dari node baru menunggu sampai node tersebut lulus pemeriksaan kesehatan mendalam dan tersedia. Pekerjaan yang dapat dipenuhi oleh node yang tersedia tidak terpengaruh.

On-demand pemeriksaan kesehatan yang mendalam

On-demand pemeriksaan kesehatan mendalam memungkinkan Anda memicu validasi perangkat keras pada node cluster yang ada kapan saja menggunakan StartClusterHealthCheckAPI. Ini berguna untuk validasi kesehatan berkala atau setelah dugaan masalah perangkat keras.

catatan

On-demand pemeriksaan kesehatan mendalam tidak didukung pada cluster dengan NodeProvisioningMode set toContinuous.

Menjalankan pemeriksaan kesehatan mendalam sesuai permintaan dari konsol

Anda dapat menjalankan pemeriksaan kesehatan mendalam pada instance HyperPod cluster langsung dari konsol SageMaker AI.

Untuk menjalankan pemeriksaan kesehatan mendalam sesuai permintaan dari konsol
  1. Buka konsol SageMaker AI di konsol SageMaker AI.

  2. Di panel navigasi, di bawah HyperPod, pilih Cluster.

  3. Pilih nama klaster Anda untuk membuka halaman detail cluster.

  4. Dalam tabel Instances, pilih satu atau beberapa contoh yang ingin Anda jalankan pemeriksaan kesehatan mendalam.

    catatan

    Keluarga instans yang didukung termasuk g5, p4, dan p5. Non-accelerated instance secara otomatis dilewati.

  5. Pilih Tindakan, lalu pilih Jalankan pemeriksaan kesehatan mendalam.

  6. Pilih Pemeriksaan stres, Pemeriksaan konektivitas, atau keduanya:

    • Pemeriksaan stres - Memvalidasi perangkat keras akselerator di bawah beban (sesuai dengan). InstanceStress

    • Pemeriksaan konektivitas — Memvalidasi komunikasi jaringan antar-node (sesuai dengan). InstanceConnectivity

  7. Pilih Jalankan pemeriksaan kesehatan.

Spanduk sukses menegaskan bahwa cek dimulai. Instans tidak tersedia untuk beban kerja selama pemeriksaan, yang mungkin memakan waktu lebih dari satu jam. Pantau status instans di tabel Instances — ini menunjukkan pemeriksaan kesehatan mendalam sedang berlangsung saat berjalan. Ketika masalah ditemukan dan pemulihan otomatis diaktifkan, SageMaker HyperPod secara otomatis reboot atau mengganti instance yang salah.

Memicu pemeriksaan kesehatan mendalam sesuai permintaan menggunakan AWS Command Line Interface

Anda dapat menentukan grup instance mana dan pemeriksaan mana yang akan dijalankan. Hanya satu permintaan pemeriksaan kesehatan mendalam sesuai permintaan yang dapat aktif per cluster sekaligus.

aws sagemaker start-cluster-health-check \ --cluster-name my-slurm-cluster \ --deep-health-check-configurations '[ { "InstanceGroupName": "worker-group", "DeepHealthChecks": ["InstanceStress", "InstanceConnectivity"] } ]'

Perilaku dengan menjalankan beban kerja

Ketika pemeriksaan kesehatan mendalam sesuai permintaan dipicu pada node yang menjalankan pekerjaan:

  • Menjalankan pekerjaan tidak terganggu atau dihentikan.

  • Pemeriksaan kesehatan mendalam antri dan menunggu pekerjaan saat ini selesai. Jika pekerjaan berjalan tidak selesai dalam waktu 10 menit, node dilewati dari pemeriksaan kesehatan mendalam.

  • Node ditempatkan di reservasi pemeliharaan untuk mencegah pekerjaan baru dijadwalkan selama pengujian.

Log dari pemeriksaan kesehatan yang mendalam

Berikut ini adalah contoh log dari pemeriksaan kesehatan SageMaker HyperPod mendalam.

Cluster-level log

Log pemeriksaan kesehatan mendalam tingkat cluster disimpan di grup CloudWatch log Anda di. /aws/sagemaker/Clusters/<cluster_name>/<cluster_id>

Aliran log dicatat diDeepHealthCheckResults/<log_stream_id>.

Instance-level log

Pada setiap node, log pemeriksaan kesehatan mendalam disimpan di/var/log/aws/clusters/sagemaker-deep-health-check.log.

Anda dapat mengakses log melalui SSM:

aws ssm start-session \ --target "sagemaker-cluster:<cluster_id>_<instance_group>-<instance_id>"

Kemudian lihat log:

cat /var/log/aws/clusters/sagemaker-deep-health-check.log

Contoh keluaran HARDWARE_CHECK

2026-03-29T18:03:14Z info Executing Hardware stress check with command: stress-ng 2026-03-29T18:04:20Z info stress-ng success 2026-03-29T18:04:20Z info GpuPci Count check success

Contoh keluaran DCGM

2026-03-29T18:35:02Z info DCGM diagnostic health summary: dcgmCheckLevel: 4 dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01 gpuDeviceIds: [2237] replacementRequired: false rebootRequired: false

Contoh keluaran EFA

2026-03-29T18:36:28Z info EFA Loopback check passed for device: rdmap0s29 MaxBw: 58.59, AvgBw: 32.42, MaxTypicalLat: 30.87, AvgLat: 21.63

Contoh keluaran kegagalan pemeriksaan kesehatan yang mendalam

{ "level": "error", "ts": "2026-03-29T19:15:22Z", "msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: ml.g5.8xlarge. ERROR: Bandwidth has less than threshold: Expected minimum threshold: 80, NCCL Test output Bw: 30" }

Auto-resume perilaku dengan pemeriksaan kesehatan yang mendalam

Tanpa pemeriksaan kesehatan mendalam diaktifkan, ketika sebuah node diganti selama auto-resume, node pengganti segera ditambahkan ke cluster dan pekerjaan yang dilanjutkan secara otomatis dapat segera dijadwalkan di dalamnya.

Dengan pemeriksaan kesehatan mendalam diaktifkan, node pengganti harus lulus semua pemeriksaan kesehatan mendalam yang dikonfigurasi sebelum tersedia. Namun, pekerjaan yang dilanjutkan secara otomatis tidak harus menunggu node pengganti — ini dapat dijadwalkan pada node lain yang tersedia di cluster. Pekerjaan hanya menunggu jika tidak ada node lain yang tersedia.

Pertimbangan tambahan

  • Pemeriksaan kesehatan mendalam memerlukan versi AMI terbaru. Jalankan UpdateClusterSoftwareuntuk memperbarui klaster Anda sebelum mengaktifkan pemeriksaan kesehatan mendalam.

  • On-demand pemeriksaan kesehatan mendalam tidak didukung pada cluster dengan NodeProvisioningMode set toContinuous.

  • Pemeriksaan kesehatan mendalam hanya dilakukan pada node pekerja. Node pengontrol dan login tidak tunduk pada pemeriksaan kesehatan yang mendalam.

  • Hanya satu permintaan pemeriksaan kesehatan mendalam sesuai permintaan yang dapat aktif per cluster sekaligus.

  • Jika pemeriksaan sesuai permintaan memicu reboot atau penggantian node, node pengganti hanya menjalankan pemeriksaan kesehatan mendalam jika OnStartDeepHealthChecks diaktifkan pada grup instance. Jika tidak, node bergabung kembali tanpa menjalankan kembali pemeriksaan kesehatan yang mendalam.