

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon SageMaker HyperPod Slurm のメトリクス
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod には、HyperPod クラスターのヘルスとパフォーマンスをモニタリングするために使用できる一連の Amazon CloudWatch メトリクスが提供されています。これらのメトリクスは、HyperPod クラスターで実行されている Slurm ワークロードマネージャーから収集され、`/aws/sagemaker/Clusters` CloudWatch 名前空間で使用できます。

## クラスターレベルのメトリクス
<a name="smcluster-slurm-metrics-cluster"></a>

HyperPod では、次のクラスターレベルのメトリクスを使用できます。これらのメトリクスは、`ClusterId` ディメンションを使用して特定の HyperPod クラスターを識別します。


| CloudWatch メトリクス名 | 注意事項 | Amazon EKS Container Insights メトリクス名 | 
| --- | --- | --- | 
| cluster\_node\_count | クラスター内のノードの合計数 | cluster\_node\_count | 
| cluster\_idle\_node\_count | クラスター内のアイドルノード数 | 該当なし | 
| cluster\_failed\_node\_count | クラスター内の失敗ノードの数 | cluster\_failed\_node\_count | 
| cluster\_cpu\_count | クラスター内の CPU コア合計数 | node\_cpu\_limit | 
| cluster\_idle\_cpu\_count | クラスター内のアイドル CPU 数 | 該当なし | 
| cluster\_gpu\_count | クラスター内の GPU 合計数 | node\_gpu\_limit | 
| cluster\_idle\_gpu\_count | クラスター内のアイドル GPU 数 | 該当なし | 
| cluster\_running\_task\_count | クラスター内の実行中の Slurm ジョブ数 | 該当なし | 
| cluster\_pending\_task\_count | クラスター内の保留中の Slurm ジョブ数 | 該当なし | 
| cluster\_preempted\_task\_count | クラスター内のプリエンプト Slurm ジョブ数 | 該当なし | 
| cluster\_avg\_task\_wait\_time | クラスター内の Slurm ジョブの平均待機時間 | 該当なし | 
| cluster\_max\_task\_wait\_time | クラスター内の Slurm ジョブの最大待機時間 | 該当なし | 

## クラスターレベルのメトリクス
<a name="smcluster-slurm-metrics-instance"></a>

HyperPod では、次のインスタンスレベルのメトリクスを使用できます。これらのメトリクスは、`ClusterId` ディメンションも使用して特定の HyperPod クラスターを識別します。


| CloudWatch メトリクス名 | 注意事項 | Amazon EKS Container Insights メトリクス名 | 
| --- | --- | --- | 
| node\_gpu\_utilization | すべてのインスタンスの平均 GPU 使用率 | node\_gpu\_utilization | 
| node\_gpu\_memory\_utilization | すべてのインスタンスの平均 GPU メモリ使用率 | node\_gpu\_memory\_utilization | 
| node\_cpu\_utilization | すべてのインスタンスの平均 CPU 使用率 | node\_cpu\_utilization | 
| node\_memory\_utilization | すべてのインスタンスの平均メモリ使用率 | node\_memory\_utilization | 