View a markdown version of this page

Amazon SageMaker HyperPod Slurm 指标 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker HyperPod Slurm 指标

Amazon SageMaker HyperPod 提供了一组亚马逊 CloudWatch 指标,您可以使用这些指标来监控 HyperPod 集群的运行状况和性能。这些指标是从集 HyperPod 群上运行的 Slurm 工作负载管理器收集的,可在命名空间中/aws/sagemaker/Clusters CloudWatch 使用。

集群级别指标

以下集群级别的指标可用于。 HyperPod这些指标使用ClusterId维度来标识特定的 HyperPod 集群。

CloudWatch 指标名称 注意 Amazon EKS Container Insights 指标名称
cluster_node_count 集群中的节点总数 cluster_node_count
cluster_idle_node_count 集群中的空闲节点数 不适用
cluster_failed_node_count 集群中的故障节点数 cluster_failed_node_count
cluster_cpu_count 集群中的 CPU 内核总数 node_cpu_limit
cluster_idle_cpu_count 集群中的空闲 CPU 内核数 不适用
cluster_gpu_count 集群 GPUs 中的总数 node_gpu_limit
cluster_idle_gpu_count 集群 GPUs 中的空闲人数 不适用
cluster_running_task_count 集群中正在运行的 Slurm 作业数 不适用
cluster_pending_task_count 集群中的待处理 Slurm 作业数 不适用
cluster_preempted_task_count 集群中的已抢占 Slurm 作业数 不适用
cluster_avg_task_wait_time 集群中的 Slurm 作业的平均等待时间 不适用
cluster_max_task_wait_time 集群中的 Slurm 作业的最长等待时间 不适用

实例级别指标

以下实例级别指标可用于。 HyperPod这些指标还使用ClusterId维度来标识特定的 HyperPod 集群。

CloudWatch 指标名称 注意 Amazon EKS Container Insights 指标名称
node_gpu_utilization 所有实例的平均 GPU 利用率 node_gpu_utilization
node_gpu_memory_utilization 所有实例的平均 GPU 内存利用率 node_gpu_memory_utilization
node_cpu_utilization 所有实例的平均 CPU 利用率 node_cpu_utilization
node_memory_utilization 所有实例的平均内存利用率 node_memory_utilization