本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker HyperPod 可觀測性儀表板
<a name="hyperpod-observability-addon-viewing-dashboards"></a>

本主題描述如何檢視 Amazon SageMaker HyperPod (SageMaker HyperPod) 叢集的指標儀表板，以及如何將新的使用者新增至儀表板。主題也會描述不同類型的儀表板。

## 存取儀表板
<a name="hyperpod-observability-addon-accessing-dashboards"></a>

若要在 Amazon Managed Grafana 中檢視 SageMaker HyperPod 叢集的指標，請執行下列步驟：

1. 開啟 Amazon SageMaker AI 主控台，網址為 [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 前往叢集的詳細資訊頁面。

1. 在**儀表板**索引標籤上，找到 **HyperPod 可觀測性**區段，然後選擇**在 Grafana 中開啟儀表板**。

## 將新的使用者新增至 Amazon Managed Grafana 工作區
<a name="hyperpod-observability-addon-adding-users"></a>

如需如何將使用者新增至 Amazon Managed Grafana 工作區的相關資訊，請參閱《Amazon Managed Grafana 使用者指南》**中的[使用 AWS IAM Identity Center 搭配 Amazon Managed Grafana 工作區](https://docs.aws.amazon.com/grafana/latest/userguide/authentication-in-AMG-SSO.html)。

## 可觀測性儀表板
<a name="hyperpod-observability-addon-dashboards.title"></a>

SageMaker HyperPod 可觀測性附加元件會在您的預設 Amazon Managed Grafana 工作區中提供六個互連儀表板。每個儀表板都為資料科學家、機器學習工程師和管理員等各種使用者提供有關叢集中不同資源和任務的深入洞見。

### 任務儀表板
<a name="hyperpod-observability-addon-task-dashboard"></a>

任務儀表板可全面監控和視覺化 SageMaker HyperPod 任務的資源使用率指標。主面板會依父任務顯示詳細的資料表分組資源用量，其中顯示 CPU、GPU 和跨 Pod 的記憶體使用率。互動式時間序列圖表會追蹤所選 Pod 的 CPU 用量、系統記憶體耗用量、GPU 使用率百分比和 GPU 記憶體用量，讓您可以隨時間監控效能趨勢。儀表板透過叢集名稱、命名空間、任務類型和特定 Pod 等變數提供強大的篩選功能，讓您輕鬆深入探索特定工作負載。此監控解決方案對於最佳化資源配置和維護 SageMaker HyperPod 上機器學習工作負載的效能至關重要。

### 訓練儀表板
<a name="hyperpod-observability-addon-training-dashboard"></a>

訓練儀表板提供訓練任務運作狀態、可靠性和故障管理指標的全面監控。儀表板具有關鍵效能指標，包括任務建立計數、成功率和運行時間百分比，以及自動和手動重新啟動事件的詳細追蹤。它透過圓餅圖和熱度圖提供詳細的故障模式視覺化，依類型和修復延遲細分事件，讓您可以識別重複性問題並最佳化任務可靠性。介面包括即時監控關鍵指標，例如系統復原時間和故障偵測延遲，使其成為維持訓練工作負載高可用性的重要工具。此外，儀表板的 24 小時追蹤視窗提供歷史脈絡，用於分析訓練任務效能中的趨勢和模式，協助團隊在潛在問題影響生產工作負載之前主動解決這些問題。

### 推論儀表板
<a name="hyperpod-observability-addon-inference-dashboard"></a>

推論儀表板可全面監控多個維度的模型部署效能和運作狀態指標。它提供主動部署、請求率即時監控、成功百分比和延遲指標的詳細概觀，可讓您追蹤模型服務效能並識別潛在的瓶頸。儀表板包含特殊化面板，適用於語言模型的一般推論指標和字符特定指標，例如第一個字符的時間 (TTFT) 和字符輸送量，這使其對於監控大型語言模型部署特別有價值。此外，它透過 Pod 和節點配置追蹤提供基礎設施洞見，同時提供詳細的錯誤分析功能，以協助維持推論工作負載的高可用性和效能。

### 叢集儀表板
<a name="hyperpod-observability-addon-cluster-dashboard"></a>

叢集儀表板具有叢集運作狀態和效能的全面檢視，可讓您跨 Amazon SageMaker HyperPod (SageMaker HyperPod) 環境即時查看運算、記憶體、網路和儲存資源。您可以透過每隔幾秒就會自動更新資料的直覺式介面一目了然地檢視關鍵指標，包括執行個體總數、GPU 使用率、記憶體用量和網路效能。儀表板會分為幾個邏輯區段，從高階叢集概觀開始，其中顯示運作狀態良好的執行個體百分比和總資源計數等關鍵指標，接著是 GPU 效能、記憶體使用率、網路統計資料和儲存指標的詳細區段。每個區段都具有互動式圖形和面板，可讓您深入探索特定指標，其中包含可自訂的時間範圍，以及可依叢集名稱、執行個體或 GPU ID 篩選選項。

### 檔案系統儀表板
<a name="hyperpod-observability-addon-filesystem-dashboard"></a>

檔案系統儀表板提供檔案系統 (Amazon FSx for Lustre) 效能和運作狀態指標的全面可見性。儀表板會顯示重要的儲存指標，包括可用容量、節省重複資料刪除、CPU/記憶體使用率、磁碟 IOPS、輸送量，以及跨多個視覺化的用戶端連線。您可以監控 CPU 和記憶體用量等系統層級效能指標，以及讀取/寫入操作和磁碟使用率模式等儲存體特定指標。介面包含警示監控功能和詳細的時間序列圖，用於追蹤一段時間內的效能趨勢，因此對於主動維護和容量規劃來說很有價值。此外，透過其全面的指標涵蓋範圍，儀表板可協助識別潛在瓶頸、最佳化儲存效能，並確保 SageMaker HyperPod 工作負載的可靠檔案系統操作。

### GPU 分割區儀表板
<a name="hyperpod-observability-addon-gpu-partition-dashboard"></a>

若要在使用多執行個體 GPU (MIG) 組態時監控 GPU 分割區特定的指標，您需要安裝或升級至最新版的 SageMaker HyperPod 可觀測性附加元件。此附加元件提供全方位的監控功能，包括 MIG 特定的指標，例如分割區計數、記憶體用量和每個 GPU 分割區的運算使用率。

如果您已安裝 SageMaker HyperPod 可觀測性，但需要 MIG 指標支援，只需將附加元件更新至最新版本即可。此程序不會中斷，且會維護您現有的監控組態。

SageMaker HyperPod 會自動公開 MIG 特定的指標，包括：
+ `nvidia_mig_instance_count`：每個設定檔的 MIG 執行個體數量
+ `nvidia_mig_memory_usage`：每個 MIG 執行個體的記憶體使用率
+ `nvidia_mig_compute_utilization`：每個 MIG 執行個體的運算使用率

### 叢集日誌儀表板
<a name="hyperpod-observability-addon-cluster-logs-dashboard"></a>

Cluster Logs 儀表板為您的 SageMaker HyperPod 叢集提供 CloudWatch Logs 的集中檢視。儀表板會查詢`/aws/sagemaker/Clusters/{cluster-name}/{cluster-id}`日誌群組，並顯示具有依執行個體 ID、日誌串流名稱、日誌層級 (ERROR、WARN、INFO、DEBUG) 和任意文字搜尋篩選功能的日誌事件。儀表板包含顯示隨時間變化之日誌事件分佈的事件時間軸、總事件計數器、篩選結果的搜尋事件時間軸，以及包含完整日誌訊息、時間戳記和日誌串流中繼資料的詳細日誌面板。此儀表板使用 CloudWatch 做為其資料來源，有助於偵錯叢集問題、監控執行個體運作狀態事件，以及調查訓練任務失敗。