

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker HyperPod Slurm 指標
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod 提供一組 Amazon CloudWatch 指標，您可以用來監控 HyperPod 叢集的運作狀態和效能。這些指標是從 HyperPod 叢集上執行的 Slurm 工作負載管理員收集的，並可在 `/aws/sagemaker/Clusters` CloudWatch 命名空間中取得。

## 叢集層級指標
<a name="smcluster-slurm-metrics-cluster"></a>

下列叢集層級指標可供 HyperPod 使用。這些指標使用 `ClusterId` 維度來識別特定的 HyperPod 叢集。


| CloudWatch 指標名稱 | 備註 | Amazon EKS Container Insights 指標名稱 | 
| --- | --- | --- | 
| cluster\_node\_count | 叢集中的節點總數 | cluster\_node\_count | 
| cluster\_idle\_node\_count | 叢集中的閒置節點數量 | N/A | 
| cluster\_failed\_node\_count | 叢集中的失敗節點數量 | cluster\_failed\_node\_count | 
| cluster\_cpu\_count | 叢集中的 CPU 核心總數 | node\_cpu\_limit | 
| cluster\_idle\_cpu\_count | 叢集中的閒置 CPU 核心數量 | N/A | 
| cluster\_gpu\_count | 叢集中的 GPU 總數 | node\_gpu\_limit | 
| cluster\_idle\_gpu\_count | 叢集中的閒置 GPU 數量 | N/A | 
| cluster\_running\_task\_count | 叢集中的執行中 Slurm 任務數量 | N/A | 
| cluster\_pending\_task\_count | 叢集中的待定 Slurm 任務數量 | N/A | 
| cluster\_preempted\_task\_count | 叢集中的先佔 Slurm 任務數量 | N/A | 
| cluster\_avg\_task\_wait\_time | 叢集中 Slurm 任務的平均等待時間 | N/A | 
| cluster\_max\_task\_wait\_time | 叢集中 Slurm 任務的等待時間上限 | N/A | 

## 執行個體層級指標
<a name="smcluster-slurm-metrics-instance"></a>

以下執行個體層級指標可供 HyperPod 使用。這些指標也會使用 `ClusterId` 維度來識別特定的 HyperPod 叢集。


| CloudWatch 指標名稱 | 備註 | Amazon EKS Container Insights 指標名稱 | 
| --- | --- | --- | 
| node\_gpu\_utilization | 所有執行個體的平均 GPU 使用率 | node\_gpu\_utilization | 
| node\_gpu\_memory\_utilization | 所有執行個體的平均 GPU 記憶體使用率 | node\_gpu\_memory\_utilization | 
| node\_cpu\_utilization | 所有執行個體的平均 CPU 使用率 | node\_cpu\_utilization | 
| node\_memory\_utilization | 所有執行個體的平均記憶體使用率 | node\_memory\_utilization | 