翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# クラスターヘルスメトリクスのトラブルシューティング
<a name="troubleshooting-v3-cluster-health-metrics"></a>

クラスターのヘルスメトリクスは、 AWS ParallelCluster バージョン 3.6.0 から AWS ParallelCluster Amazon CloudWatch ダッシュボードに追加されます。以降のセクションで、ダッシュボードヘルスメトリクスと、問題のトラブルシューティングと解決のために実行できるアクションについて説明します。

**Topics**
+ [**インスタンスプロビジョニングエラー**グラフが表示されている](#troubleshooting-v3-cluster-health-metrics-instance-provisioning)
+ [「**異常なインスタンスエラー**」グラフが表示されている](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance)
+ [**コンピューティングフリートのアイドル時間**グラフが表示されている](#troubleshooting-v3-cluster-health-metrics-idle-time-errors)

## **インスタンスプロビジョニングエラー**グラフが表示されている
<a name="troubleshooting-v3-cluster-health-metrics-instance-provisioning"></a>

`Instance Provisioning Errors` グラフに 0 以外の値が表示される場合は、Slurm ノードをバッキングする Amazon EC2 インスタンスが `CreateFleet` または `RunInstance` API で起動できなかったことを示しています。

### `IAMPolicyErrors` が表示されている
<a name="troubleshooting-v3-cluster-health-metrics-iam-policy"></a>
+ **何が起きたのか。**

  多数のインスタンスが起動できませんでした。これは、権限が不十分であることが原因であり、エラーコード `UnauthorizedOperation` が出ています。
+ **解決方法**

  カスタム [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole) または [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile) を設定している場合は、IAM ポリシーを調べて、正しい認証情報を使用していることを確認してください。

  `clustermgtd` ファイルにスタティックノードのエラーの詳細がないか確認してください。動的ノードエラーの詳細については `slurm_resume.log` ファイルを確認してください。詳細を参照して、追加する必要のある不足している権限について詳しく調べてください。

### `VcpuLimitErrors` が表示されている
<a name="troubleshooting-v3-cluster-health-metrics-vcpu-limit"></a>
+ **何が起きたのか。**

  AWS ParallelCluster は、クラスターコンピューティングノード用に設定した AWS アカウント 特定の Amazon EC2 インスタンスタイプの の vCPU 制限に達したため、インスタンスを起動できませんでした。
+ **解決方法**

  静的ノードの場合は `clustermgtd` ファイルに `VcpuLimitExceeded` エラーがないか確認し、動的ノードの場合は `slurm_resume.log` ファイルで詳細を確認してください。この問題を解決するため、vCPU 制限の引き上げをリクエストできます。現在の制限を確認する方法と新しい制限をリクエストする方法の詳細については、「*Linux インスタンス用 Amazon Amazon Elastic Compute Cloud ユーザーガイド*」の「[Amazon Elastic Compute Cloud のサービスクォータ](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html)」を参照してください。

### `VolumeLimitErrors` が表示されている
<a name="troubleshooting-v3-cluster-health-metrics-volume-limit"></a>
+ **何が起きたのか。**

  で Amazon EBS ボリュームの制限に達しており AWS アカウント、エラーコード AWS ParallelCluster `InsufficientVolumeCapacity`または でインスタンスを起動できません`VolumeLimitExceeded`。
+ **解決方法**

  静的ノードの場合は `clustermgtd` ファイルを確認し、動的ノードの場合は `slurm_resume.log` ファイルでボリューム制限の詳細を確認してください。この問題を解決するには、別のボリュームを使用するか AWS リージョン、既存のボリュームを AWS クリーンアップするか、サポートセンターに連絡して Amazon EBS ボリューム制限の引き上げリクエストを送信してください。

### `InsufficientCapacityErrors` が表示されている
<a name="troubleshooting-v3-cluster-health-metrics-ice"></a>
+ **何が起きたのか。**

  AWS ParallelCluster には、Amazon EC2 インスタンスを起動してノードをバックアップするための十分な容量がありません。
+ **解決方法**

  静的ノードについては `clustermgtd` ファイルを確認し、動的ノードについては `slurm_resume.log` ファイルで容量不足エラーの詳細を確認してください。この問題のトラブルシューティングを行うには、[https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) のガイダンスに従ってください。

### `OtherInstanceLaunchFailures`
<a name="troubleshooting-v3-cluster-health-metrics-other-launch-failures"></a>
+ **何が起きたのか。**

  コンピューティングノードをバッキングするための Amazon EC2 インスタンスを `CreateFleet` または `RunInstance` API で起動できませんでした。
+ **解決方法**

  静的ノードについては `clustermgtd` ファイルを確認し、動的ノードについては `slurm_resume.log` ファイルでエラーの詳細を確認してください。

## 「**異常なインスタンスエラー**」グラフが表示されている
<a name="troubleshooting-v3-cluster-health-metrics-unhealthy-instance"></a>
+ **何が起きたのか。**

  多数のコンピューティングインスタンスが起動されたものの、後に異常として終了しました。
+ **解決方法**

  異常なノードのトラブルシューティングの詳細については、「[**予期しないノードの置換や終了のトラブルシューティング**](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations)」を参照してください。

### `InstanceBootstrapTimeoutError` が表示されている
<a name="troubleshooting-v3-cluster-health-metrics-bootstrap-timeout"></a>
+ **何が起きたのか。**

  インスタンスは `resume_timeout` (動的ノードの場合) または `node_replacement_timeout` (静的ノードの場合) 内のクラスターに参加できません。これは、コンピューティングノード用にネットワークが正しく設定されていない場合や、コンピューティングノードで実行されているカスタムスクリプトが終了するまでに時間がかかりすぎる場合に発生する可能性があります。
+ **解決方法**

  動的ノードの場合は、`clustermgtd` ログ (`/var/log/parallelcluster/clustermgtd`) でコンピューティングノードの IP アドレスと次のようなエラーを確認してください。

  ```
  Node bootstrap error: Resume timeout expires for node
  ```

  静的ノードの場合は、`clustermgtd` ログ (`/var/log/parallelcluster/clustermgtd`) でコンピューティングノードの IP アドレスと次のようなエラーを確認してください。

  ```
  Node bootstrap error: Replacement timeout expires for node ... in replacement.
  ```

  詳細については、`/var/log/cloud-init-output.log` ファイルでエラーを確認してください。問題のあるコンピューティングノードの IP アドレスは、`clustermgtd` および `slurm_resume` ログファイルから取得できます。

### `EC2HealthCheckErrors` が表示されている
<a name="troubleshooting-v3-cluster-health-metrics-ec2-check"></a>
+ **何が起きたのか。**

  インスタンスが Amazon EC2 ヘルスチェックに失敗しました。
+ **解決方法**

  この問題のトラブルシューティングについては、「[ステータスチェックに失敗したインスタンスのトラブルシューティング](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html)」を参照してください。

### `ScheduledEventHealthCheckErrors` が表示されている
<a name="troubleshooting-v3-cluster-health-metrics-ec2-scheduled-event"></a>
+ **何が起きたのか。**

  インスタンスが Amazon EC2 のスケジュールされたイベントのヘルスチェックに失敗し、正常ではありません。
+ **解決方法**

  この問題のトラブルシューティングについては、「[インスタンスの予定されたイベント](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html)」を参照してください。

### `NoCorrespondingInstanceErrors` が表示されている
<a name="troubleshooting-v3-cluster-health-metrics-missing-instances"></a>
+ **何が起きたのか。**

  AWS ParallelCluster はインスタンスバッキングノードを見つけることができません。ブートストラップ操作中にノードが自動的に終了した可能性があります。[`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)/[`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)/[`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart) \$1 [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured) スクリプト、またはネットワークエラーが、`NoCorrespondingInstanceErrors` を発生させている可能性があります。
+ **解決方法**

  詳細については、コンピューティングノードの `/var/log/cloud-init-output.log` を確認してください。

## **コンピューティングフリートのアイドル時間**グラフが表示されている
<a name="troubleshooting-v3-cluster-health-metrics-idle-time-errors"></a>

### **アイドル時間のスケールダウン**のしきい値よりも大幅に長い `MaxDynamicNodeIdleTime` が表示されている
<a name="troubleshooting-v3-cluster-health-idle-time-threshold"></a>
+ **何が起きたのか。**

  インスタンスが正しく終了していません。`MaxDynamicNodeIdleTime` は、Amazon EC2 インスタンスにバッキングされた動的ノードがアイドル状態になる最大時間 (秒) を示します。**アイドル時間スケールダウン**のしきい値は、クラスター設定の [`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime) パラメータから算出されます。コンピューティングノードが**アイドル時間スケールダウン**の秒数を超えてアイドル状態になると、 はノードSlurmの電源を切り、バッキングインスタンスを AWS ParallelCluster 終了します。この場合、何かがインスタンスの終了を妨げています。
+ **解決方法**

  この問題の詳細については、「[スケーリング問題のトラブルシューティング](troubleshooting-v3-scaling-issues.md)」の「[**問題のあるインスタンスやノードの置換、終了、電源オフ**](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3)」を参照してください。