

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# SageMaker HyperPod 集群指标
<a name="hyperpod-observability-cluster-metrics"></a>

亚马逊 SageMaker HyperPod (SageMaker HyperPod) 向您的 Prometheus 亚马逊托管服务工作区发布了 9 个不同类别的各种指标。并非所有指标在默认情况下都是启用的，也并非所有指标都会显示在 Amazon Managed Grafana 工作区中。下表会显示在安装可观测性附加组件时默认启用的指标、包含可额外启用以获取更精细集群信息的指标的类别，以及这些指标在 Amazon Managed Grafana 工作区中的显示位置。


| 指标类别 | 是否默认启用？ | 是否有其他可用的高级指标？ | 在哪个 Grafana 控制面板可用？ | 
| --- | --- | --- | --- | 
| 训练指标 | 支持 | 是 | 训练 | 
| 推理指标 | 是 | 否 | 推理 | 
| 任务治理指标 | 否 | 是 | 无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。 | 
| 扩展指标 | 否 | 是 | 无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。 | 
| 集群指标 | 支持 | 是 | Cluster | 
| 实例指标 | 支持 | 是 | Cluster | 
| 加速计算指标 | 支持 | 是 | 任务，集群 | 
| 网络指标 | 否 | 是 | Cluster | 
| 文件系统 | 是 | 否 | 文件系统 | 

下表描述了可用于监控您的 SageMaker HyperPod 集群的指标，按类别排列。

## 受限实例组的指标可用性
<a name="hyperpod-observability-rig-metrics-availability"></a>

当您的集群包含受限实例组时，大多数指标类别都可以在受限节点上使用，但有以下例外情况和注意事项。您还可以根据自己选择的任何指标设置提醒。


| 指标类别 | 在 RIG 节点上可用吗？ | 注意 | 
| --- | --- | --- | 
| 训练指标 | 是 | Kubeflow 和 Kubernetes 容器指标已收集。高级训练 KPI 指标（来自训练指标代理）无法从 RIG 节点获得。 | 
| 推理指标 | 否 | 受限实例组不支持推理工作负载。 | 
| 任务治理指标 | 否 | Kueue 指标仅从标准节点（如果有）收集。 | 
| 扩展指标 | 否 | 仅从标准节点收集 KEDA 指标（如果有）。 | 
| 集群指标 | 是 | Kube 状态指标和 API 服务器指标可用。Kube State Metrics 优先安排在标准节点上，但可以在仅限 RIG 的集群中的受限节点上运行。 | 
| 实例指标 | 是 | Node Exporter 和 cAdvisor 指标是在包括受限节点在内的所有节点上收集的。 | 
| 加速计算指标 | 是 | DCGM 导出器在启用 GPU 的受限节点上运行。启用高级模式后，Neuron Monitor 将在启用 Neuron 的受限节点上运行。 | 
| 网络指标 | 是 | 启用高级模式后，EFA 导出器将在启用 EFA 的受限节点上运行。 | 
| 文件系统指标 | 是 | FSx for Lustre 集群利用率指标支持受限实例组。 | 

**注意**  
使用 Fluent Bit 的容器日志收集未部署在受限节点上。来自受限节点的集群日志可通过 SageMaker HyperPod 平台获取，与可观察性插件无关。您可以在 “集群日志” 仪表板中查看这些日志。

## 训练指标
<a name="hyperpod-observability-training-metrics"></a>

使用这些指标来跟踪在 SageMaker HyperPod 集群上执行的训练任务的性能。


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| Kubeflow 指标 | [https://github.com/kubeflow/教练](https://github.com/kubeflow/trainer) | 是 | Kubeflow | 
| Kubernetes 容器组（pod）指标 | [https://github.com/kubernetes/kube-state-metrics](https://github.com/kubernetes/kube-state-metrics) | 是 | Kubernetes | 
| training\$1uptime\$1percentage | 总窗口时长中训练时长所占的百分比 | 否 | SageMaker HyperPod 培训操作员 | 
| training\$1manual\$1recovery\$1count | 已对作业执行的手动重启总次数 | 否 | SageMaker HyperPod 培训操作员 | 
| training\$1manual\$1downtime\$1ms | 因手动干预导致作业中断的总时长（以毫秒为单位） | 否 | SageMaker HyperPod 培训操作员 | 
| training\$1auto\$1recovery\$1count | 自动恢复总次数 | 否 | SageMaker HyperPod 培训操作员 | 
| training\$1auto\$1recovery\$1downtime | 故障恢复期间基础设施的总开销时长（以毫秒为单位） | 否 | SageMaker HyperPod 培训操作员 | 
| training\$1fault\$1count | 训练期间遇到的故障总数 | 否 | SageMaker HyperPod 培训操作员 | 
| training\$1fault\$1type\$1count | 按类型划分的故障分布 | 否 | SageMaker HyperPod 培训操作员 | 
| training\$1fault\$1recovery\$1time\$1ms | 每种类型的故障的恢复时间（以毫秒为单位） | 否 | SageMaker HyperPod 培训操作员 | 
| training\$1time\$1ms | 实际训练所花费的总时长（以毫秒为单位） | 否 | SageMaker HyperPod 培训操作员 | 

## 推理指标
<a name="hyperpod-observability-inference-metrics"></a>

使用这些指标来跟踪集 SageMaker HyperPod 群上推理任务的性能。


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| model\$1invocations\$1total | 模型的调用请求总数 | 是 | SageMaker HyperPod 推理运算符 | 
| model\$1errors\$1total | 模型调用期间的错误总数 | 是 | SageMaker HyperPod 推理运算符 | 
| model\$1concurrent\$1requests | 活跃的并发模型请求数 | 是 | SageMaker HyperPod 推理运算符 | 
| model\$1latency\$1milliseconds | 模型调用延迟（以毫秒为单位） | 是 | SageMaker HyperPod 推理运算符 | 
| model\$1ttfb\$1milliseconds | 模型首字节时间延迟（以毫秒为单位） | 是 | SageMaker HyperPod 推理运算符 | 
| TGI | 这些指标可用于监控 TGI 的性能、自动扩缩部署并帮助识别瓶颈。有关指标的详细列表，请参阅 [https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) | 是 | 模型容器 | 
| LMI | 这些指标可用于监控 LMI 的性能并帮助识别瓶颈。有关指标的详细列表，请参阅 [https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) | 是 | 模型容器 | 

## 任务治理指标
<a name="hyperpod-observability-task-governance-metrics"></a>

使用这些指标来监控 SageMaker HyperPod 集群上的任务管理和资源分配。


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| Kueue | 见 [https://kueue.sigs.k8s。 io/docs/reference/metrics](https://kueue.sigs.k8s.io/docs/reference/metrics/)/。 | 否 | Kueue | 

## 扩展指标
<a name="hyperpod-observability-scaling-metrics"></a>

使用这些指标来监控集群上的自动缩放行为和性能。 SageMaker HyperPod 


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| KEDA 操作符指标 | 见 [https://keda。 sh/docs/2.17/integrations/prometheus/\$1operator](https://keda.sh/docs/2.17/integrations/prometheus/#operator)。 | 否 | Kubernetes 事件驱动型自动扩缩器（KEDA） | 
| KEDA Webhook 指标 | 见 [https://keda。 sh/docs/2.17/integrations/prometheus/\$1admission-webhooks](https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks)。 | 否 | Kubernetes 事件驱动型自动扩缩器（KEDA） | 
| KEDA 指标服务器指标 | 见 [https://keda。 sh/docs/2.17/integrations/prometheus/\$1metrics-服务器。](https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server) | 否 | Kubernetes 事件驱动型自动扩缩器（KEDA） | 

## 集群指标
<a name="hyperpod-observability-cluster-health-metrics"></a>

使用这些指标可监控集群的整体运行状况和资源分配。


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| 集群运行状况 | Kubernetes API 服务器指标。见 [https://kubernetes。 io/docs/reference/instrumentation/metrics](https://kubernetes.io/docs/reference/instrumentation/metrics/)/。 | 是 | Kubernetes | 
| Kubestate | 参见 [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1default-resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources)。 | 有限 | Kubernetes | 
| KubeState 高级 | 参见 [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1optional-resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources)。 | 否 | Kubernetes | 

## 实例指标
<a name="hyperpod-observability-instance-metrics"></a>

使用这些指标可监控单个实例的性能和运行状况。


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| 节点指标 | 看见 [https://github.com/prometheus/node\$1exporter？ tab = readme-ov-file \$1 enabled-by-default](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default)。 | 是 | Kubernetes | 
| 容器指标 | Cadvisor 公开的容器指标。见 [https://github.com/google/cadvisor](https://github.com/google/cadvisor)。 | 是 | Kubernetes | 

## 加速计算指标
<a name="hyperpod-observability-accelerated-compute-metrics"></a>

使用这些指标可监控集群中单个加速计算设备的性能、运行状况和利用率。

**注意**  
在集群上启用使用 MIG（多实例 GPU）的 GPU 分区时，DCGM 指标会自动提供分区级别的粒度，用于监控单个 MIG 实例。每个 MIG 分区都作为单独的 GPU 设备公开，具有自己的温度、功耗、内存利用率和计算活动指标。这使您可以独立跟踪每个 GPU 分区的资源使用情况和运行状况，从而可以精确监控在部分 GPU 资源上运行的工作负载。有关配置 GPU 分区的更多信息，请参阅[在亚马逊中使用 GPU 分区 SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md)。


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| NVIDIA GPU | DCGM 指标。见 [https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv)。 | 有限 |  NVIDIA Data Center GPU Manager（DCGM）  | 
|  NVIDIA GPU（高级）  | 以下 CSV 文件中注释掉的 DCGM 指标：[https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) | 否 |  NVIDIA Data Center GPU Manager（DCGM）  | 
| AWS Trainium | Neuron 指标。参见 [https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide .html\$1。neuron-monitor-nc-counters](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters) | 否 | AWS 神经元监视器 | 

## 网络指标
<a name="hyperpod-observability-network-metrics"></a>

使用这些指标可监控集群中 Elastic Fabric Adapter（EFA）的性能和运行状况。


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| EFA | 参见 [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation\$1and\$1observability/3.efa-node-exporter/README.md.](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md) | 否 | Elastic Fabric Adapter | 

## 文件系统指标
<a name="hyperpod-observability-file-system-metrics"></a>


| 指标名称或类型 | 说明 | 是否默认启用？ | 指标来源 | 
| --- | --- | --- | --- | 
| 文件系统 | 来自亚马逊 FSx 的 Amazon for Lustre 指标： CloudWatch[使用亚马逊进行监控 CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)。 | 是 | 亚马逊 f FSx or Lustre | 