

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker HyperPod による回復性関連の Kubernetes ラベル
<a name="sagemaker-hyperpod-eks-resiliency-node-labels"></a>

*ラベル*は、[Kubernetes オブジェクト](https://kubernetes.io/docs/concepts/overview/working-with-objects/#kubernetes-objects)にアタッチされるキーと値のペアです。SageMaker HyperPod は、提供するヘルスチェックに次のラベルを導入します。

## ノードのヘルスステータスラベル
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-health-status"></a>

`node-health-status` ラベルはノードの状態を表しており、正常なノードのノードセレクタフィルターの一部として使用されます。


| ラベル | 説明 | 
| --- | --- | 
| sagemaker.amazonaws.com/node-health-status: Schedulable | ノードが基本的なヘルスチェックに合格しており、実行中のワークロードで使用できます。このヘルスチェックは、[Slurm クラスターで現在利用可能な SageMaker HyperPod 回復性機能](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html)と同じです。 | 
| sagemaker.amazonaws.com/node-health-status: Unschedulable | ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。 | 
| sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement | ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、置き換えが必要です。自動ノード復旧が有効になっている場合、ノードは自動的に SageMaker HyperPod に置き換えられます。 | 
| sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot | ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、再起動が必要です。自動ノード復旧が有効になっている場合、ノードは SageMaker HyperPod によって自動的に再起動されます。 | 

## ディープヘルスチェックのラベル
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-deep-health-check"></a>

`deep-health-check-status` ラベルは、特定のノードのディープヘルスチェックの進行状況を表しています。Kubernetes ユーザーが全体的なディープヘルスチェックの進行状況をすばやくフィルタリングするのに役立ちます。


| ラベル | 説明 | 
| --- | --- | 
| sagemaker.amazonaws.com/deep-health-check-status: InProgress | ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できません。 | 
| sagemaker.amazonaws.com/deep-health-check-status: Passed | ノードはディープヘルスチェックとヘルスモニタリングエージェントチェックを正常に完了し、実行中のワークロードで使用できます。 | 
| sagemaker.amazonaws.com/deep-health-check-status: Failed | ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となったため、再起動または置き換えが必要です。自動ノード復旧が有効になっている場合、SageMaker HyperPod はノードを自動的に再起動します。 | 

## 障害タイプと理由ラベル
<a name="sagemaker-hyperpod-eks-resiliency-node-labels-fault-type-and-reason"></a>

以下に、 ラベル`fault-type`と `fault-reason`ラベルについて説明します。
+ `fault-type` ラベルは、ヘルスチェックが失敗した場合の高レベルの障害カテゴリを表しています。これらは、ディープヘルスとヘルスモニタリングエージェントチェックの両方で特定された障害に対して入力されます。
+ `fault-reason` ラベルは、`fault-type` に関連付けられた詳細な障害理由を表しています。

## SageMaker HyperPod のラベル付け方法
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels"></a>

以下のトピックでは、さまざまなケースに応じてラベル付けを行う方法について説明します。

**Topics**
+ [

### ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードを追加する場合
](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-off)
+ [

### ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合
](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-on)
+ [

### ノードでコンピューティング障害が発生した場合
](#sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-node-fails)

### ディープヘルスチェック設定が無効になっている SageMaker HyperPod クラスターにノードを追加する場合
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-off"></a>

新しいノードがクラスターに追加され、インスタンスグループに対してディープヘルスチェックが有効になっていない場合、SageMaker HyperPod は [Slurm クラスターで現在利用可能な SageMaker HyperPod ヘルスチェックと同じヘルスチェック](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html)を実行します。

ヘルスチェックに合格した場合、ノードには次のラベルが付けられます。

```
sagemaker.amazonaws.com/node-health-status: Schedulable
```

ヘルスチェックに合格しない場合、ノードは終了して置き換えられます。この動作は、SageMaker HyperPod ヘルスチェックが Slurm クラスターで機能する方法と同じです。

### ディープヘルスチェック設定が有効になっている SageMaker HyperPod クラスターにノードが追加された場合
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-dhc-is-on"></a>

新しいノードが SageMaker HyperPod クラスターに追加され、インスタンスグループに対してディープヘルスチェックテストが有効になっている場合、HyperPod はまずノードをテイントし、ノードで約 2 時間のディープヘルスチェック/ストレステストを開始します。ディープヘルスチェック後のノードラベルの出力は 3 つです。

1. ディープヘルスチェックテストに合格した場合

   ```
   sagemaker.amazonaws.com/node-health-status: Schedulable
   ```

1. ディープヘルスチェックテストに不合格になり、インスタンスを置き換える必要がある場合

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
   ```

1. ディープヘルスチェックテストに不合格になり、ディープヘルスチェックを再実行するためにインスタンスを再起動する必要がある場合

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
   ```

インスタンスがディープヘルスチェックテストに不合格になった場合、インスタンスは必ず置き換えられます。ディープヘルスチェックテストが成功すると、ノードのテイントは削除されます。

### ノードでコンピューティング障害が発生した場合
<a name="sagemaker-hyperpod-eks-resiliency-node-how-it-labels-when-node-fails"></a>

SageMaker HyperPod ヘルスモニターエージェントは、各ノードのヘルスステータスも継続的にモニタリングします。障害 (GPU の障害やドライバーのクラッシュなど) が検出されると、エージェントはノードに次のいずれかのラベルを付けます。

1. ノードに異常があり、置き換えが必要な場合

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
   ```

1. ノードに異常があり、再起動する必要がある場合

   ```
   sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
   ```

 ヘルスモニターエージェントは、ノードのヘルスの問題を検出すると、ノードもテイントします。