本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 由亚马逊 EKS 精心策划的亚马逊 SageMaker HyperPod 集群的可观察性
<a name="sagemaker-hyperpod-eks-cluster-observability"></a>

[要全面观察您的亚马逊 SageMaker HyperPod (SageMaker HyperPod) 集群资源和软件组件，请将集群与 Amazon Container [Insights、[适用于 Prometheus 的亚马逊托管服务和](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html)亚马逊托管 Grafana CloudWatch 集](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)成。](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html)这些工具可让您清晰了解集群运行状况、性能指标和资源利用率。

通过与 Amazon Prometheus 托管服务的集成，可以导出与 HyperPod您的集群资源相关的指标，从而深入了解其性能、利用率和运行状况。与 Amazon Managed Grafana 集成后，可以通过各种 Grafana 控制面板实现这些指标的可视化，为监控和分析集群行为提供直观的界面。通过利用这些服务，您可以获得 HyperPod 集群的集中统一视图，从而便于对分布式训练工作负载进行主动监控、故障排除和优化。

**注意**  
虽然 CloudWatch适用于 Prometheus 的亚马逊托管服务和 Amazon Managed Grafana 侧重于运营指标（例如系统运行状况、培训工作绩效 SageMaker HyperPod ），但使用[报告补充](sagemaker-hyperpod-eks-operate-console-ui-governance.md)了任务治理，提供了财务和资源责任见解。这些报告跟踪：  
计算利用率（GPU/CPU/Neuron 核心工时） namespaces/teams
已分配资源与已借入资源的成本归属
用于审计和优化的历史趋势（最长 180 天）
有关设置和生成使用情况报告的更多信息，请参阅[中的报告计算使用情况 HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html)。

**提示**  
要查找实际示例和解决方案，另请参阅 [Amazon EKS Support SageMaker HyperPod 研讨会中的](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e)[可观察性](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability)部分。

继续阅读以下主题以设置 SageMaker HyperPod 集群可观测性。

**Topics**
+ [对由 Amazon EKS 编排的 SageMaker HyperPod 集群上训练作业的可观察性进行建模](sagemaker-hyperpod-eks-cluster-observability-model.md)
+ [集群和任务可观测性](sagemaker-hyperpod-eks-cluster-observability-cluster.md)