本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon EKS 協調的 Amazon SageMaker HyperPod 叢集的可觀測性
<a name="sagemaker-hyperpod-eks-cluster-observability"></a>

若要在 Amazon SageMaker HyperPod (SageMaker HyperPod) 叢集資源和軟體元件中實現全面的可觀測性，請將叢集與 [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)、[Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) 和 [Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) 整合。這些工具提供叢集運作狀態、效能指標和資源使用率的可見性。

與 Amazon Managed Service for Prometheus 的整合可讓您匯出與 HyperPod 叢集資源相關的指標，進而洞悉其效能、使用率和運作狀態。與 Amazon Managed Grafana 的整合可透過各種 Grafana 儀表板啟用這些指標的視覺化，這些儀表板提供直覺式界面，用於監控和分析叢集的行為。透過利用這些服務，您可以集中且統一地檢視 HyperPod 叢集，促進分散式訓練工作負載的主動監控、故障診斷和最佳化。

**注意**  
雖然 CloudWatch、Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 專注於操作指標 (例如系統運作狀態、訓練任務效能)，但 SageMaker HyperPod 用量報告補充[任務治理](sagemaker-hyperpod-eks-operate-console-ui-governance.md)，以提供財務和資源責任洞見。這些報告會追蹤：  
跨命名空間/團隊的運算使用率 (GPU/CPU/神經元核心時數）
配置資源與借用資源的成本歸因
稽核和最佳化的歷史趨勢 (最多 180 天)
如需設定和產生用量報告的詳細資訊，請參閱[在 HyperPod 中報告運算用量](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html)。

**提示**  
若要尋找實際範例和解決方案，另請參閱 [SageMaker HyperPod 中的 Amazon EKS 支援工作坊](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e)的[可觀測性](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability)一節。

繼續下列主題，以設定 SageMaker HyperPod 叢集可觀測性。

**Topics**
+ [Amazon EKS 協調的 SageMaker HyperPod 叢集上訓練任務的模型可觀測性](sagemaker-hyperpod-eks-cluster-observability-model.md)
+ [叢集和任務可觀測性](sagemaker-hyperpod-eks-cluster-observability-cluster.md)