

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# SageMaker HyperPod 集群可观测性的先决条件
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites"></a>

在执行 [在 HyperPod 集群上安装指标导出器包](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md) 步骤之前，请确保满足以下先决条件。

## 启用 IAM Identity Center
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-iam-id-center"></a>

要为您的 SageMaker HyperPod 集群启用可观察性，您必须先启用 IAM 身份中心。这是部署堆栈的先决条件，该 CloudFormation 堆栈用于设置 Amazon Managed Grafana 工作空间和 Prometheus 的亚马逊托管服务。这两项服务还需要 IAM 身份中心进行身份验证和授权，以确保安全的用户访问和监控基础设施的管理。

有关启用 IAM 身份中心的详细指导，请参阅*《AWS IAM 身份中心用户指南》*中的[启用 IAM 身份中心](https://docs.aws.amazon.com/singlesignon/latest/userguide/get-set-up-for-idc.html)部分。

成功启用 IAM Identity Center 后，请设置一个用户账户，在以下配置过程中作为管理用户使用。

## 创建和部署 CloudFormation 堆栈以实现 SageMaker HyperPod 可观察性
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-cloudformation-stack"></a>

使用适用于 Prometheus 的亚马逊托管服务和 Amazon Managed Grafana 创建和部署 SageMaker HyperPod 可观察性 CloudFormation 堆栈，以便实时监控 HyperPod 集群指标。要部署堆栈，请注意还需事先启用 [IAM Identity Center](https://console.aws.amazon.com/singlesignon)。

使用示例 CloudFormation 脚本[https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml)帮助您设置创建集 HyperPod 群可观察性堆栈所需的 Amazon VPC 子网、Amaz FSx on for Lustre 文件系统、Amazon S3 存储桶和 IAM 角色。