

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# SageMaker HyperPod 叢集指標
<a name="hyperpod-observability-cluster-metrics"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) 會將 9 個不同類別的各種指標發佈到您的 Amazon Managed Service for Prometheus 工作區。並非所有指標都預設為啟用，或在 Amazon Managed Grafana 工作區中顯示。下表顯示當您安裝可觀測性附加元件時，預設會啟用哪些指標、哪些類別具有可以取得更精細叢集資訊的額外指標，以及它們出現在 Amazon Managed Grafana 工作區中的位置。


| 指標類別 | 預設為啟用？ | 有其他可用的進階指標嗎？ | 在哪些 Grafana 儀表板下可用？ | 
| --- | --- | --- | --- | 
| 訓練指標 | 是 | 是 | 培訓 | 
| 推論指標 | 是 | 否 | Inference | 
| 任務治理指標 | 否 | 是 | 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。 | 
| 擴展指標 | 否 | 是 | 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。 | 
| 叢集指標 | 是 | 是 | 叢集 | 
| 執行個體指標 | 是 | 是 | 叢集 | 
| 加速運算指標 | 是 | 是 | 任務、叢集 | 
| 網路指標 | 否 | 是 | 叢集 | 
| 檔案系統 | 是 | 否 | 檔案系統 | 

下表描述可用於監控 SageMaker HyperPod 叢集的指標，依類別組織。

## 限制執行個體群組上的指標可用性
<a name="hyperpod-observability-rig-metrics-availability"></a>

當您的叢集包含受限執行個體群組時，大多數指標類別可在受限節點上使用，但有下列例外和考量。您也可以在您選擇的任何指標上設定提醒。


| 指標類別 | 適用於 RIG 節點？ | 備註 | 
| --- | --- | --- | 
| 訓練指標 | 是 | 收集 Kubeflow 和 Kubernetes Pod 指標。進階訓練 KPI 指標 （來自訓練指標代理程式） 不適用於 RIG 節點。 | 
| 推論指標 | 否 | 受限執行個體群組不支援推論工作負載。 | 
| 任務治理指標 | 否 | Kueue 指標只會從標準節點收集，如果有的話。 | 
| 擴展指標 | 否 | KEDA 指標只會從標準節點收集，如果有的話。 | 
| 叢集指標 | 是 | 可使用 Kube 狀態指標和 API 伺服器指標。Kube 狀態指標優先排程在標準節點上，但可以在僅限 RIG 叢集中的受限節點上執行。 | 
| 執行個體指標 | 是 | Node Exporter 和 cAdvisor 指標會收集在所有節點上，包括受限節點。 | 
| 加速運算指標 | 是 | DCGM Exporter 在已啟用 GPU 的限制節點上執行。啟用進階模式時，Neuron Monitor 會在已啟用 Neuron 的限制節點上執行。 | 
| 網路指標 | 是 | 啟用進階模式時，EFA Exporter 會在啟用 EFA 的限制節點上執行。 | 
| 檔案系統指標 | 是 | 受限執行個體群組支援 FSx for Lustre 叢集使用率指標。 | 

**注意**  
使用 Fluent Bit 的容器日誌集合不會部署在受限節點上。來自受限節點的叢集日誌可透過 SageMaker HyperPod 平台，獨立於可觀測性附加元件。您可以在 Cluster Logs 儀表板中檢視這些日誌。

## 訓練指標
<a name="hyperpod-observability-training-metrics"></a>

使用這些指標來追蹤 SageMaker HyperPod 叢集上執行的訓練任務效能。


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| Kubeflow 指標 | [https://github.com/kubeflow/trainer](https://github.com/kubeflow/trainer) | 是 | Kubeflow | 
| Kubernetes Pod 指標 | [https://github.com/kubernetes/kube-state-metrics](https://github.com/kubernetes/kube-state-metrics) | 是 | Kubernetes | 
| training\$1uptime\$1percentage | 超出總時段大小的訓練時間百分比 | 否 | SageMaker HyperPod 訓練運算子 | 
| training\$1manual\$1recovery\$1count | 在任務上執行的手動重新啟動總數 | 否 | SageMaker HyperPod 訓練運算子 | 
| training\$1manual\$1downtime\$1ms | 任務由於手動介入而停止的總時間，以毫秒為單位 | 否 | SageMaker HyperPod 訓練運算子 | 
| training\$1auto\$1recovery\$1count | 自動復原總數 | 否 | SageMaker HyperPod 訓練運算子 | 
| training\$1auto\$1recovery\$1downtime | 故障復原期間的總基礎設施負荷時間，以毫秒為單位 | 否 | SageMaker HyperPod 訓練運算子 | 
| training\$1fault\$1count | 訓練期間遇到的故障總數 | 否 | SageMaker HyperPod 訓練運算子 | 
| training\$1fault\$1type\$1count | 依類型分配故障 | 否 | SageMaker HyperPod 訓練運算子 | 
| training\$1fault\$1recovery\$1time\$1ms | 每種故障類型的復原時間，以毫秒為單位 | 否 | SageMaker HyperPod 訓練運算子 | 
| training\$1time\$1ms | 實際訓練所花費的總時間，以毫秒為單位 | 否 | SageMaker HyperPod 訓練運算子 | 

## 推論指標
<a name="hyperpod-observability-inference-metrics"></a>

使用這些指標來追蹤 SageMaker HyperPod 叢集上推論任務的效能。


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| model\$1invocations\$1total | 模型的調用請求總數 | 是 | SageMaker HyperPod 推論運算子 | 
| model\$1errors\$1total | 模型調用期間的錯誤總數 | 是 | SageMaker HyperPod 推論運算子 | 
| model\$1concurrent\$1requests | 作用中並行模型請求 | 是 | SageMaker HyperPod 推論運算子 | 
| model\$1latency\$1milliseconds | 以毫秒為單位的模型調用延遲 | 是 | SageMaker HyperPod 推論運算子 | 
| model\$1ttfb\$1milliseconds | 第一個位元組延遲的模型時間，以毫秒為單位 | 是 | SageMaker HyperPod 推論運算子 | 
| TGI | 這些指標可以用來監控 TGI、自動擴展部署的效能，並協助識別瓶頸。如需指標的詳細清單，請參閱 [https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md)。 | 是 | 模型容器 | 
| LMI | 這些指標可以用來監控 LMI 的效能，並協助識別瓶頸。如需指標的詳細清單，請參閱 [https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md)。 | 是 | 模型容器 | 

## 任務治理指標
<a name="hyperpod-observability-task-governance-metrics"></a>

使用這些指標來監控 SageMaker HyperPod 叢集上的任務治理和資源配置。


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| Kueue | 請參閱 [https://kueue.sigs.k8s.io/docs/reference/metrics/](https://kueue.sigs.k8s.io/docs/reference/metrics/)。 | 否 | Kueue | 

## 擴展指標
<a name="hyperpod-observability-scaling-metrics"></a>

使用這些指標來監控 SageMaker HyperPod 叢集上的自動擴展行為和效能。


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| KEDA 運算子指標 | 請參閱 [https://keda.sh/docs/2.17/integrations/prometheus/\$1operator](https://keda.sh/docs/2.17/integrations/prometheus/#operator)。 | 否 | Kubernetes Event-driven Autoscaler (KEDA) | 
| KEDA Webhook 指標 | 請參閱 [https://keda.sh/docs/2.17/integrations/prometheus/\$1admission-webhooks](https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks)。 | 否 | Kubernetes Event-driven Autoscaler (KEDA) | 
| KEDA Metrics 伺服器指標 | 請參閱 [https://keda.sh/docs/2.17/integrations/prometheus/\$1metrics-server](https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server)。 | 否 | Kubernetes Event-driven Autoscaler (KEDA) | 

## 叢集指標
<a name="hyperpod-observability-cluster-health-metrics"></a>

使用這些指標來監控整體叢集運作狀態和資源配置。


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| 叢集運作狀態 | Kubernetes API 伺服器指標。請參閱 [https://kubernetes.io/docs/reference/instrumentation/metrics/](https://kubernetes.io/docs/reference/instrumentation/metrics/)。 | 是 | Kubernetes | 
| Kubestate | 請參閱 [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1default-resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources)。 | 有限 | Kubernetes | 
| KubeState 進階 | 請參閱 [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1optional-resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources)。 | 否 | Kubernetes | 

## 執行個體指標
<a name="hyperpod-observability-instance-metrics"></a>

使用這些指標來監控個別執行個體效能和運作狀態。


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| 節點指標 | 請參閱 [https://github.com/prometheus/node\$1exporter?tab=readme-ov-file\$1enabled-by-default](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default)。 | 是 | Kubernetes | 
| 容器指標 | Cadvisor 公開的容器指標。請參閱 [https://github.com/google/cadvisor](https://github.com/google/cadvisor)。 | 是 | Kubernetes | 

## 加速運算指標
<a name="hyperpod-observability-accelerated-compute-metrics"></a>

使用這些指標來監控叢集中個別加速運算裝置的效能、運作狀態和使用率。

**注意**  
在叢集上啟用 MIG （多執行個體 GPU) 的 GPU 分割時，DCGM 指標會自動提供分割區層級精細度，以監控個別 MIG 執行個體。每個 MIG 分割區都會以單獨的 GPU 裝置公開，並具有自己的溫度、功率、記憶體使用率和運算活動的指標。這可讓您獨立追蹤每個 GPU 分割區的資源用量和運作狀態，進而精確監控在部分 GPU 資源上執行的工作負載。如需設定 GPU 分割的詳細資訊，請參閱 [在 Amazon SageMaker HyperPod 中使用 GPU 分割區](sagemaker-hyperpod-eks-gpu-partitioning.md)。


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| NVIDIA GPU | DCGM 指標。請參閱 [https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv)。 | 有限 |  NVIDIA Data Center GPU Manager (DCGM)  | 
|  NVIDIA GPU (進階)  | 在下列 CSV 檔案中註銷的 DCGM 指標：[https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) | 否 |  NVIDIA Data Center GPU Manager (DCGM)  | 
| AWS Trainium | Neuron 指標。請參閱 [https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html\$1neuron-monitor-nc-counters](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters)。 | 否 | AWS Neuron 監視器 | 

## 網路指標
<a name="hyperpod-observability-network-metrics"></a>

使用這些指標來監控叢集中 Elastic Fabric Adapter (EFA) 的效能和運作狀態。


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| EFA | 請參閱 [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation\$1and\$1observability/3.efa-node-exporter/README.md](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md)。 | 否 | Elastic Fabric Adapter | 

## 檔案系統指標
<a name="hyperpod-observability-file-system-metrics"></a>


| 指標名稱或類型 | Description | 預設為啟用？ | 指標來源 | 
| --- | --- | --- | --- | 
| 檔案系統 | 來自 Amazon CloudWatch 的 Amazon FSx for Lustre 指標：[使用 Amazon CloudWatch 進行監控](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)。 | 是 | Amazon FSx for Lustre | 