

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 节点生命周期和标签
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels"></a>

在 GPU 分区开始之前，Amazon SageMaker HyperPod 会在创建和更新集群期间对 HyperPod 集群实例执行深度运行状况检查。 HyperPod 运行状况监控代理持续监控 GPU 分区实例的运行状况。

## MIG 配置状态
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-states"></a>

具有 GPU 分区配置的节点会经历几种状态：
+ **待处理**-正在使用 MIG 配置文件配置节点
+ **配置**-GPU 操作员正在应用 MIG 分区
+ **成功**-GPU 分区成功完成
+ **失败**-GPU 分区遇到错误

## 监控节点状态
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-monitoring"></a>

```
# Check node health status
kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable

# Monitor MIG configuration progress
kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}'

# Check for configuration errors
kubectl describe node NODE_NAME | grep -A 5 "Conditions:"
```

## 自定义标签和污点
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-custom"></a>

您可以使用自定义标签和污点管理 MIG 配置，以标记您的 GPU 分区并将其应用于各个实例：

```
{
  "KubernetesConfig": {
    "Labels": {
      "nvidia.com/mig.config": "all-2g.10gb",
      "task-type": "inference",
      "environment": "production"
    },
    "Taints": [
      {
        "Key": "gpu-task",
        "Value": "mig-enabled",
        "Effect": "NoSchedule"
      }
    ]
  }
}
```