Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Agen pemantauan kesehatan
Bagian ini menjelaskan serangkaian pemeriksaan kesehatan yang SageMaker HyperPod digunakan untuk secara teratur memantau kesehatan instance cluster untuk masalah dengan perangkat seperti akselerator (inti GPU dan Trainium) dan jaringan (EFA). SageMaker HyperPod Health-Monitoring Agent (HMA) terus memantau status kesehatan setiap instans berbasis GPU atau Trainium. Ketika mendeteksi instans atau kegagalan GPU, agen menandai instance sebagai tidak sehat.
SageMaker HyperPod HMA melakukan pemeriksaan kesehatan yang sama untuk orkestra EKS dan Slurm. Untuk informasi lebih lanjut tentang HMA, lihatSistem Pemantauan Kesehatan.