

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 查看運算節點初始化中的錯誤
<a name="troubleshooting-fc-v3-compute-node-initialization-v3"></a>

下列各節提供當您在運算節點初始化中看到錯誤時的疑難排解秘訣。這包括引導錯誤、查看日誌中的錯誤，以及如果沒有任何案例適用於您的特定情況，應前往何處。

**Topics**
+ [在 `Node bootstrap error`中查看 `clustermgtd.log`](compute-node-initialization-bootstrap-error-v3.md)
+ [我設定隨需容量保留 ODCRs) 或區域預留執行個體](compute-node-initialization-odcr-v3.md)
+ [當我無法執行任務`An error occurred (VcpuLimitExceeded)``slurm_resume.log`時查看 ，或當我無法建立叢集時`clustermgtd.log`查看 。](compute-node-initialization-vpc-limit-v3.md)
+ [當我無法執行任務`An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`時查看 ，或當我無法建立叢集時`clustermgtd.log`查看 。](compute-node-initialization-ice-failure-v3.md)
+ [使用 查看節點處於 `DOWN` 狀態 `Reason (Code:InsufficientInstanceCapacity)...`](compute-node-initialization-down-nodes-v3.md)
+ [在 `cannot change locale (en_US.utf-8) because it has an invalid name`中查看 `slurm_resume.log`](compute-node-initialization-locale-v3.md)
+ [上述案例都不適用於我的情況](compute-node-initialization-not-found-v3.md)

# 在 `Node bootstrap error`中查看 `clustermgtd.log`
<a name="compute-node-initialization-bootstrap-error-v3"></a>

問題與運算節點無法引導有關。如需如何偵錯叢集保護模式問題的資訊，請參閱 [如何偵錯受保護模式](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3)。

# 我設定隨需容量保留 ODCRs) 或區域預留執行個體
<a name="compute-node-initialization-odcr-v3"></a>

## 包含具有多個網路介面的執行個體ODCRs，例如 P4d, P4de 和 AWS Trainium (Trn)
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

在叢集組態檔案中，檢查 `HeadNode` 是否位於公有子網路中，以及運算節點是否位於私有子網路中。

## ODCRs是目標 ODCRS
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### 遵循 中的指示，`Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.`即使我已經`/opt/slurm/etc/pcluster/run_instances_overrides.json`就地查看 [使用隨需容量預留 (ODCR) 啟動執行個體](launch-instances-odcr-v3.md)
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

如果您使用 3.1.1 到 3.2.1 AWS ParallelCluster 版搭配目標 ODCRs，而且您也使用[執行執行個體覆寫 JSON 檔案](launch-instances-odcr-v3.md)，則您的 JSON 檔案格式可能不正確。您可以在 中看到錯誤`clustermgtd.log`，如下所示：

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

執行下列動作來驗證 JSON 檔案格式是否正確：

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### 在叢集建立失敗`Found RunInstances parameters override.``clustermgtd.log`時查看 ，或在執行任務失敗`slurm_resume.log`時查看
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

如果您使用的是[執行執行個體覆寫 JSON 檔案](launch-instances-odcr-v3.md)，請檢查您是否在 `/opt/slurm/etc/pcluster/run_instances_overrides.json` 檔案中正確設定佇列名稱和運算資源名稱。

### 當我無法執行任務`An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`時查看 ，或當我無法建立叢集`clustermgtd.log`時查看 。
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### 使用 PG-ODCR （配置群組 ODCR)
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

使用相關聯的置放群組建立 ODCR 時，必須在組態檔案中使用相同的置放群組名稱。在叢集組態中設定對應的[置放群組名稱](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup)。

#### 使用區域預留執行個體
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

如果您在叢集組態`true`中使用區域預留執行個體搭配 `PlacementGroup` / `Enabled`到 ，您可能會看到錯誤，如下所示：

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

您可能會看到這種情況，因為區域預留執行個體未放置在相同的 UC （或脊椎） 中，這可能會在使用置放群組時導致容量不足錯誤 (ICEs)。您可以在叢集組態中停用`PlacementGroup`群組設定，以判斷叢集是否可以配置執行個體，藉此檢查此案例。

# 當我無法執行任務`An error occurred (VcpuLimitExceeded)``slurm_resume.log`時查看 ，或當我無法建立叢集時`clustermgtd.log`查看 。
<a name="compute-node-initialization-vpc-limit-v3"></a>

檢查您帳戶上的 vCPU 限制，了解您使用的特定 Amazon EC2 執行個體類型。如果您看到的 vCPUs比您請求的 vCPU 為零或更少，請請求提高限制。如需有關如何檢視目前限制和請求新限制的資訊，請參閱[《Amazon EC2 使用者指南》中的 Amazon EC2 服務配額](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html)。 *Amazon EC2 *

# 當我無法執行任務`An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`時查看 ，或當我無法建立叢集時`clustermgtd.log`查看 。
<a name="compute-node-initialization-ice-failure-v3"></a>

您遇到容量不足的問題。請遵循 [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)：//。

# 使用 查看節點處於 `DOWN` 狀態 `Reason (Code:InsufficientInstanceCapacity)...`
<a name="compute-node-initialization-down-nodes-v3"></a>

您遇到容量不足的問題。請遵循 [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)：//。如需 AWS ParallelCluster快速容量不足容錯移轉模式的詳細資訊，請參閱 [Slurm 叢集快速容量不足容錯移轉](slurm-short-capacity-fail-mode-v3.md)。

# 在 `cannot change locale (en_US.utf-8) because it has an invalid name`中查看 `slurm_resume.log`
<a name="compute-node-initialization-locale-v3"></a>

如果您的`yum`安裝程序失敗，使得地區設定處於不一致狀態，就會發生這種情況。例如，這可能會在使用者終止安裝程序時造成。

**若要驗證原因，請採取下列動作：**
+ 執行 `su - pcluster-admin`。

  shell 會顯示錯誤，例如 `cannot change locale...no such file or directory`。
+ 執行 `localedef --list`。

  傳回空白清單，或不包含預設地區設定。
+ 使用 `yum history`和 檢查最後一個`yum`命令`yum history info #ID`。最後一個 ID 是否具有 `Return-Code: Success`？

  如果最後一個 ID 沒有 `Return-Code: Success`，安裝後指令碼可能無法成功執行。

若要修正此問題，請嘗試使用 重建地區設定`yum reinstall glibc-all-langpacks`。重建之後，如果問題已修正， `su - pcluster-admin`不會顯示錯誤或警告。

# 上述案例都不適用於我的情況
<a name="compute-node-initialization-not-found-v3"></a>

若要疑難排解運算節點初始化問題，請參閱 [故障診斷節點初始化問題](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init)。

檢查 [GitHub 上的 GitHub 已知問題](https://github.com/aws/aws-parallelcluster/wiki)是否涵蓋您的案例 AWS ParallelCluster GitHub 。