

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# SageMaker HyperPod의 복원력 관련 Kubernetes 레이블
<a name="sagemaker-hyperpod-eks-resiliency-node-labels"></a>

*레이블*은 [Kubernetes 객체](https://kubernetes.io/docs/concepts/overview/working-with-objects/#kubernetes-objects)에 연결된 키-값 페어입니다. SageMaker HyperPod는 제공하는 상태 확인을 위해 다음 레이블을 도입합니다.

## 노드 상태 레이블
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-health-status"></a>

`node-health-status` 레이블은 노드의 상태를 나타내며 정상 노드에서 노드 선택기 필터의 일부로 사용됩니다.


| Label | 설명 | 
| --- | --- | 
| sagemaker.amazonaws.com/node-health-status: Schedulable | 노드가 기본 상태 확인을 통과했으며 워크로드 실행에 사용할 수 있습니다. 이 상태 확인은 [Slurm 클러스터에 대해 현재 사용 가능한 SageMaker HyperPod 복원력 기능](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html)과 동일합니다. | 
| sagemaker.amazonaws.com/node-health-status: Unschedulable | 노드가 심층 상태 확인을 실행 중이며 워크로드 실행에 사용할 수 없습니다. | 
| sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement | 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 교체가 필요합니다. 자동 노드 복구가 활성화된 경우 SageMaker HyperPod에 의해 노드가 자동으로 교체됩니다. | 
| sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot | 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 재부팅이 필요합니다. 자동 노드 복구가 활성화된 경우 SageMaker HyperPod에 의해 노드가 자동으로 재부팅됩니다. | 

## 심층 상태 확인 레이블
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-deep-health-check"></a>

`deep-health-check-status` 레이블은 특정 노드에 대한 심층 상태 확인의 진행 상황을 나타냅니다. Kubernetes 사용자가 전반적인 심층 상태 확인의 진행 상황을 빠르게 필터링하는 데 유용합니다.


| Label | 설명 | 
| --- | --- | 
| sagemaker.amazonaws.com/deep-health-check-status: InProgress | 노드가 심층 상태 확인을 실행 중이며 워크로드 실행에 사용할 수 없습니다. | 
| sagemaker.amazonaws.com/deep-health-check-status: Passed | 노드가 심층 상태 확인 및 상태 모니터링 에이전트 확인을 성공적으로 완료했으며 워크로드를 실행하는 데 사용할 수 있습니다. | 
| sagemaker.amazonaws.com/deep-health-check-status: Failed | 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 교체가 필요합니다. 자동 노드 복구가 활성화된 경우 SageMaker HyperPod에 의해 노드가 자동으로 재부팅되거나 교체됩니다. | 

## 결함 유형 및 이유 레이블
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-fault-type-and-reason"></a>

다음은 `fault-type` 및 `fault-reason` 레이블에 대한 설명입니다.
+ `fault-type` 레이블은 상태 확인에 실패할 때 상위 수준 장애 범주를 나타냅니다. 이는 심층 상태 및 상태 모니터링 에이전트 확인 중에 식별된 장애에 대해 채워집니다.
+ `fault-reason` 레이블은 `fault-type`과 관련된 자세한 오류 이유를 나타냅니다.

## SageMaker HyperPod 레이블 지정 방법
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels"></a>

다음 주제에서는 다양한 사례에 따라 레이블 지정을 수행하는 방법을 다룹니다.

**Topics**
+ [심층 상태 확인 구성이 비활성화된 SageMaker HyperPod 클러스터에 노드가 추가되는 경우](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-off)
+ [심층 상태 확인 구성이 활성화된 SageMaker HyperPod 클러스터에 노드가 추가되는 경우](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-on)
+ [노드에 컴퓨팅 장애가 있는 경우](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-node-fails)

### 심층 상태 확인 구성이 비활성화된 SageMaker HyperPod 클러스터에 노드가 추가되는 경우
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-off"></a>

새 노드가 클러스터에 추가되고 인스턴스 그룹에 대해 심층 상태 확인이 활성화되지 않은 경우 SageMaker HyperPod는 [Slurm 클러스터에 대해 현재 사용 가능한 SageMaker HyperPod 상태 확인과 동일한 상태 확인을](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html) 실행합니다.

상태 확인이 통과하면 노드에 다음 레이블이 표시됩니다.

```
sagemaker.amazonaws.com/node-health-status: Schedulable
```

상태 확인이 통과되지 않으면 노드가 종료되고 교체됩니다. 이 동작은 SageMaker HyperPod 상태 확인이 Slurm 클러스터에서 작동하는 방식과 동일합니다.

### 심층 상태 확인 구성이 활성화된 SageMaker HyperPod 클러스터에 노드가 추가되는 경우
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-on"></a>

새 노드가 SageMaker HyperPod 클러스터에 추가되고 인스턴스 그룹에 대해 심층 상태 확인 테스트가 활성화된 경우 HyperPod는 먼저 노드를 테인팅하고 노드에서 \~2시간 심층 상태 확인/스트레스 테스트를 시작합니다. 심층 상태 확인 후 노드 레이블의 출력은 3개일 수 있습니다.

1. 심층 상태 확인 테스트가 통과한 경우

   ```
   sagemaker.amazonaws.com/node-health-status: Schedulable
   ```

1. 심층 상태 확인 테스트가 실패하고 인스턴스를 교체해야 하는 경우

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
   ```

1. 심층 상태 확인 테스트가 실패하고 심층 상태 확인을 다시 실행하려면 인스턴스를 재부팅해야 하는 경우

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
   ```

인스턴스가 심층 상태 확인 테스트에 실패하면 인스턴스는 항상 교체됩니다. 심층 상태 확인 테스트에 성공하면 노드의 taint이 제거됩니다.

### 노드에 컴퓨팅 장애가 있는 경우
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-node-fails"></a>

SageMaker HyperPod 상태 모니터링 에이전트는 각 노드의 상태도 지속적으로 모니터링합니다. 장애가 감지되면(예: GPU 장애 및 드라이버 충돌) 에이전트는 노드에 다음 레이블 중 하나를 표시합니다.

1. 노드가 비정상이고 교체해야 하는 경우

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
   ```

1. 노드가 비정상이고 재부팅해야 하는 경우

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
   ```

 상태 모니터링 에이전트는 노드 상태 문제를 감지할 때도 노드를 테인팅합니다.