

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# コンピューティンティングノードの初期化のエラーが表示されている
<a name="troubleshooting-fc-v3-compute-node-initialization-v3"></a>

以下のセクションでは、コンピューティングノードの初期化中にエラーが発生した場合のトラブルシューティングのヒントを提供します。これには、ブートストラップエラー、ログでのエラーの確認、特定の状況に当てはまるシナリオがない場合の問い合わせ先が含まれます。

**Topics**
+ [`clustermgtd.log` に `Node bootstrap error` が表示されている](compute-node-initialization-bootstrap-error-v3.md)
+ [オンデマンドキャパシティ予約 (ODCR) またはゾーンレベルのリザーブドインスタンスを設定しました。](compute-node-initialization-odcr-v3.md)
+ [ジョブの実行に失敗したとき `slurm_resume.log` で、またはクラスターの作成に失敗したとき `clustermgtd.log` で `An error occurred (VcpuLimitExceeded)` が表示されている](compute-node-initialization-vpc-limit-v3.md)
+ [ジョブの実行に失敗したとき `slurm_resume.log` で、またはクラスターの作成に失敗したとき `clustermgtd.log` で `An error occurred (InsufficientInstanceCapacity)` が表示されている](compute-node-initialization-ice-failure-v3.md)
+ [ノードが `Reason (Code:InsufficientInstanceCapacity)...` と共に `DOWN` ステータスで表示されている](compute-node-initialization-down-nodes-v3.md)
+ [`slurm_resume.log` に `cannot change locale (en_US.utf-8) because it has an invalid name` が表示されている](compute-node-initialization-locale-v3.md)
+ [前のシナリオはどれも私の状況には当てはまりません。](compute-node-initialization-not-found-v3.md)

# `clustermgtd.log` に `Node bootstrap error` が表示されている
<a name="compute-node-initialization-bootstrap-error-v3"></a>

この問題は、コンピューティンティングノードがブートストラップで失敗していることに関連しています。クラスター保護モードの問題をデバッグする方法の詳細については、「[保護モードをデバッグする方法](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3)」を参照してください。

# オンデマンドキャパシティ予約 (ODCR) またはゾーンレベルのリザーブドインスタンスを設定しました。
<a name="compute-node-initialization-odcr-v3"></a>

## P4d, P4deT AWS rainium (Trn) など、複数のネットワークインターフェイスを持つインスタンスを含む ODCRs
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

クラスター設定ファイルで、`HeadNode` がパブリックサブネットにあり、コンピューティングノードがプライベートサブネットにあることを確認します。

## ODCR が ターゲット ODCRS
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### [オンデマンドキャパシティ予約 (ODCR) を使用してインスタンスを起動する](launch-instances-odcr-v3.md) の指示に従って既に `/opt/slurm/etc/pcluster/run_instances_overrides.json` を配置したのに `Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.` が表示されている
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

ターゲット ODCRs で AWS ParallelCluster バージョン 3.1.1 から 3.2.1 を使用していて、[実行インスタンスも JSON ファイルを上書き](launch-instances-odcr-v3.md)する場合、JSON ファイルが正しくフォーマットされていない可能性があります。`clustermgtd.log` で次のようなエラーが表示されることがあります。

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

次を実行して、JSON ファイル形式が正しいことを確認します。

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### クラスターの作成に失敗したときは `clustermgtd.log` で、またはジョブの実行に失敗したときは `slurm_resume.log` で `Found RunInstances parameters override.` が表示されている
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

[JSON ファイルをオーバーライドしてインスタンスを実行する](launch-instances-odcr-v3.md)を使用している場合は、`/opt/slurm/etc/pcluster/run_instances_overrides.json` ファイルでキュー名とコンピューティングリソース名を正しく設定していることを確認します。

### ジョブの実行に失敗したとき `slurm_resume.log` で、またはクラスターの作成に失敗したとき `clustermgtd.log` で `An error occurred (InsufficientInstanceCapacity)` が表示されている
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### PG-ODCR (プレイスメントグループ ODCR) を使用する
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

関連するプレイスメントグループを使用して ODCR を作成する場合、設定ファイルでは同じプレイスメントグループ名を使用する必要があります。クラスター設定で対応する[プレイスメントグループ名](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup)を設定します。

#### ゾーンレベルのリザーブドインスタンスを使用する
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

クラスター設定で `PlacementGroup`/`Enabled` を `true` としてゾーンレベルのリザーブドインスタンスを使用している場合、次のようなエラーが表示されることがあります。

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

これは、ゾーンレベルのリザーブドインスタンスが同じ UC (またはスパイン) に配置されていないために発生することがあります。プレイスメントグループを使用しているときに、容量不足エラー (ICE) が発生することがあります。クラスター設定の `PlacementGroup` グループ設定を無効にして、クラスターがインスタンスを割り当てることができるかどうかを判断することにより、このケースについて確認できます。

# ジョブの実行に失敗したとき `slurm_resume.log` で、またはクラスターの作成に失敗したとき `clustermgtd.log` で `An error occurred (VcpuLimitExceeded)` が表示されている
<a name="compute-node-initialization-vpc-limit-v3"></a>

使用している特定の EC2 インスタンスタイプについて、アカウントの vCPU 制限を確認します。vCPU の数がゼロまたはリクエストしている数より少ない場合は、制限の引き上げをリクエストします。現在の制限を確認する方法と新しい制限をリクエストする方法については、「*Amazon EC2 ユーザーガイド*」の「[Amazon EC2 のサービスクォータ](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html)」を参照してください。

# ジョブの実行に失敗したとき `slurm_resume.log` で、またはクラスターの作成に失敗したとき `clustermgtd.log` で `An error occurred (InsufficientInstanceCapacity)` が表示されている
<a name="compute-node-initialization-ice-failure-v3"></a>

容量不足の問題が発生しています。[https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) に従って問題をトラブルシューティングします。

# ノードが `Reason (Code:InsufficientInstanceCapacity)...` と共に `DOWN` ステータスで表示されている
<a name="compute-node-initialization-down-nodes-v3"></a>

容量不足の問題が発生しています。[https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) に従って問題をトラブルシューティングします。容量不足 AWS ParallelClusterの高速フェイルオーバーモードの詳細については、「」を参照してください[Slurm クラスタ高速容量不足フェイルオーバー](slurm-short-capacity-fail-mode-v3.md)。

# `slurm_resume.log` に `cannot change locale (en_US.utf-8) because it has an invalid name` が表示されている
<a name="compute-node-initialization-locale-v3"></a>

これは、`yum` のインストールプロセスで失敗してロケール設定に一貫性がない状態のままになっている場合に発生することがあります。例えば、これはユーザーがインストールプロセスを終了したときに発生することがあります。

**原因を確認するには、次のアクションを実行します。**
+ `su - pcluster-admin` を実行します。

  シェルに、`cannot change locale...no such file or directory` などのエラーが表示されます。
+ `localedef --list` を実行します。

  空のリストを返すか、デフォルトロケールを含んでいません。
+ 最後の `yum` コマンドおよび `yum history` と `yum history info #ID` を確認します。最後の ID に `Return-Code: Success` が含まれていますか。

  最後の ID に `Return-Code: Success` が含まれていない場合、インストール後のスクリプトが正常に実行されていない可能性があります。

問題を解決するには、`yum reinstall glibc-all-langpacks` を使用してロケールを再構築してください。再構築後、問題が修正されているなら `su - pcluster-admin` でエラーや警告は表示されません。

# 前のシナリオはどれも私の状況には当てはまりません。
<a name="compute-node-initialization-not-found-v3"></a>

コンピューティングノードの初期化の問題のトラブルシューティングについては、「[ノードの初期化に関する問題のトラブルシューティング](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init)」を参照してください。

シナリオが [GitHub の にある GitHub の既知の問題](https://github.com/aws/aws-parallelcluster/wiki) AWS ParallelCluster でカバーされているかどうかを確認します。 GitHub