

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 可觀測性與 Amazon CloudWatch
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci"></a>

使用 [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) 來收集、彙總和摘要說明指標和日誌，這些指標和日誌來自與 HyperPod 叢集相關聯之 EKS 叢集上的容器化應用程式和微服務。

Amazon CloudWatch Insights 會收集 CPU、記憶體、磁碟和網路等運算資源的指標。Container Insights 還提供診斷資訊，例如容器重新啟動故障，協助您快速隔離和解決這些故障。您也可以為 Container Insights 收集的指標設定 CloudWatch 警示。

若要尋找指標的完整清單，請參閱《Amazon EKS 使用者指南》**中的 [Amazon EKS 和 Kubernetes Container Insights 指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-EKS.html)。

## 安裝 CloudWatch Container Insights
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci-setup"></a>

叢集管理員使用者必須遵循《CloudWatch 使用者指南》**中的[使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html)中的指示，設定 CloudWatch Container Insights。如需 Amazon EKS 附加元件的詳細資訊，另請參閱《Amazon EKS 使用者指南》**中的[安裝 Amazon CloudWatch 可觀測性 EKS 附加元件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-setup-EKS-addon.html)。

安裝完成後，請驗證 CloudWatch 可觀測性附加元件是否顯示在 EKS 叢集附加元件索引標籤中。可能需要大約幾分鐘的時間，直到儀表板載入為止。

**注意**  
SageMaker HyperPod 需要 CloudWatch Insight v2.0.1-eksbuild.1 或更新版本。

![\[CloudWatch Observability service card showing status, version, and IAM role information.\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/hyperpod-eks-CIaddon.png)


# 存取 CloudWatch Container Insights 儀表板
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci-access-dashboard"></a>

1. 透過 [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/) 開啟 CloudWatch 主控台。

1. 選擇 **Insights**，然後選擇 **Container Insights**。

1. 選取透過您正在使用的 HyperPod 叢集設定的 EKS 叢集。

1. 檢視 Pod/叢集層級指標。

![\[Performance monitoring dashboard for EKS 叢集 showing node status, resource utilization, and pod metrics.\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/hyperpod-eks-CIdashboard.png)


## 存取 CloudWatch Container Insights 日誌
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci-access-log"></a>

1. 透過 [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/) 開啟 CloudWatch 主控台。

1. 選擇 **Logs** (日誌)，然後選擇 **Log groups** (日誌群組)。

當您將 HyperPod 叢集與 Amazon CloudWatch Container Insights 整合時，您可以採取下列格式存取相關日誌群組：`/aws/containerinsights /<eks-cluster-name>/*`。在此日誌群組內，您可以尋找和探索各種類型的日誌，例如效能日誌、主機日誌、應用程式日誌和資料平面日誌。