

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 노드 수명 주기 및 레이블
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels"></a>

Amazon SageMaker HyperPod는 GPU 파티셔닝이 시작되기 전에 HyperPod 클러스터를 생성하고 업데이트하는 동안 클러스터 인스턴스에 대한 심층 상태 확인을 수행합니다. HyperPod 상태 모니터링 에이전트는 GPU 분할 인스턴스의 상태를 지속적으로 모니터링합니다.

## MIG 구성 상태
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-states"></a>

GPU 파티션 구성이 있는 노드는 여러 상태를 거칩니다.
+ **보류** 중 - 노드가 MIG 프로파일로 구성되고 있습니다.
+ **구성** - GPU 운영자가 MIG 파티셔닝 적용 중
+ **성공** - GPU 파티셔닝이 성공적으로 완료되었습니다.
+ **실패** - GPU 파티셔닝에 오류가 발생했습니다.

## 노드 상태 모니터링
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-monitoring"></a>

```
# Check node health status
kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable

# Monitor MIG configuration progress
kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}'

# Check for configuration errors
kubectl describe node NODE_NAME | grep -A 5 "Conditions:"
```

## 사용자 지정 레이블 및 테인트
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-custom"></a>

사용자 지정 레이블과 테인트로 MIG 구성을 관리하여 GPU 파티션에 레이블을 지정하고 인스턴스에 적용할 수 있습니다.

```
{
  "KubernetesConfig": {
    "Labels": {
      "nvidia.com/mig.config": "all-2g.10gb",
      "task-type": "inference",
      "environment": "production"
    },
    "Taints": [
      {
        "Key": "gpu-task",
        "Value": "mig-enabled",
        "Effect": "NoSchedule"
      }
    ]
  }
}
```