

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 搭配 Amazon Managed Grafana 和 Amazon Managed Service for Prometheus 的 Amazon SageMaker HyperPod 可觀測性
<a name="sagemaker-hyperpod-observability-addon"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) 提供全面、開箱即用儀表板，讓您深入了解基礎模型 (FM) 開發任務和叢集資源。這個統一的可觀測性解決方案會自動將關鍵指標發佈至 Amazon Managed Service for Prometheus，並在 Amazon Managed Grafana 儀表板中顯示這些指標。儀表板專為 FM 開發最佳化，深入涵蓋硬體運作狀態、資源使用率和任務層級效能。使用此附加元件，您可以合併來自 NVIDIA DCGM、執行個體層級 Kubernetes 節點匯出工具、Elastic Fabric Adapter、整合檔案系統、Kubernetes API、Kueue 和 SageMaker HyperPod 任務運算子的運作狀態和效能資料。

## 受限制的執行個體群組 (RIG) 支援
<a name="hyperpod-observability-addon-rig-support"></a>

可觀測性附加元件也支援包含受限制執行個體群組的叢集。在 RIG 叢集中，附加元件會自動調整其部署策略，以符合受限節點的網路隔離和安全限制。DaemonSet 元件 （節點匯出器、DCGM 匯出器、EFA 匯出器、Neuron 監視器和節點收集器） 會在標準節點和受限節點上執行。部署元件 （中央收集器、Kube 狀態指標和訓練指標代理程式） 會使用邊界感知邏輯排程，以遵守執行個體群組之間的網路隔離。具有 Fluent Bit 的容器日誌集合不適用於受限節點。

如需在具有限制執行個體群組的叢集上設定附加元件的詳細資訊，請參閱 [設定 SageMaker HyperPod 可觀測性附加元件](hyperpod-observability-addon-setup.md)。

**Topics**
+ [受限制的執行個體群組 (RIG) 支援](#hyperpod-observability-addon-rig-support)
+ [設定 SageMaker HyperPod 可觀測性附加元件](hyperpod-observability-addon-setup.md)
+ [Amazon SageMaker HyperPod 可觀測性儀表板](hyperpod-observability-addon-viewing-dashboards.md)
+ [探索 Amazon Managed Grafana 中的 SageMaker HyperPod 叢集指標](hyperpod-observability-addon-exploring-metrics.md)
+ [自訂 SageMaker HyperPod 叢集指標儀表板和警示](hyperpod-observability-addon-customizing.md)
+ [建立自訂 SageMaker HyperPod 叢集指標](hyperpod-observability-addon-custom-metrics.md)
+ [SageMaker HyperPod 叢集指標](hyperpod-observability-cluster-metrics.md)
+ [預先設定的警示](hyperpod-observability-addon-alerts.md)
+ [針對 Amazon SageMaker HyperPod 可觀測性附加元件進行疑難排解](hyperpod-observability-addon-troubleshooting.md)