本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。 # 查看運算節點初始化中的錯誤下列各節提供當您在運算節點初始化中看到錯誤時的疑難排解秘訣。這包括引導錯誤、查看日誌中的錯誤，以及如果沒有任何案例適用於您的特定情況，應前往何處。 **Topics** + [在 `Node bootstrap error`中查看 `clustermgtd.log`](compute-node-initialization-bootstrap-error-v3.md) + [我設定隨需容量保留 ODCRs) 或區域預留執行個體](compute-node-initialization-odcr-v3.md) + [當我無法執行任務`An error occurred (VcpuLimitExceeded)``slurm_resume.log`時查看，或當我無法建立叢集時`clustermgtd.log`查看。](compute-node-initialization-vpc-limit-v3.md) + [當我無法執行任務`An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`時查看，或當我無法建立叢集時`clustermgtd.log`查看。](compute-node-initialization-ice-failure-v3.md) + [使用查看節點處於 `DOWN` 狀態 `Reason (Code:InsufficientInstanceCapacity)...`](compute-node-initialization-down-nodes-v3.md) + [在 `cannot change locale (en_US.utf-8) because it has an invalid name`中查看 `slurm_resume.log`](compute-node-initialization-locale-v3.md) + [上述案例都不適用於我的情況](compute-node-initialization-not-found-v3.md) # 在 `Node bootstrap error`中查看 `clustermgtd.log` 問題與運算節點無法引導有關。如需如何偵錯叢集保護模式問題的資訊，請參閱 [如何偵錯受保護模式](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3)。 # 我設定隨需容量保留 ODCRs) 或區域預留執行個體 ## 包含具有多個網路介面的執行個體ODCRs，例如 P4d, P4de 和 AWS Trainium (Trn) 在叢集組態檔案中，檢查 `HeadNode` 是否位於公有子網路中，以及運算節點是否位於私有子網路中。 ## ODCRs是目標 ODCRS ### 遵循中的指示，`Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.`即使我已經`/opt/slurm/etc/pcluster/run_instances_overrides.json`就地查看 [使用隨需容量預留 (ODCR) 啟動執行個體](launch-instances-odcr-v3.md) 如果您使用 3.1.1 到 3.2.1 AWS ParallelCluster 版搭配目標 ODCRs，而且您也使用[執行執行個體覆寫 JSON 檔案](launch-instances-odcr-v3.md)，則您的 JSON 檔案格式可能不正確。您可以在中看到錯誤`clustermgtd.log`，如下所示： ``` Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd. ``` 執行下列動作來驗證 JSON 檔案格式是否正確： ``` $ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq ``` ### 在叢集建立失敗`Found RunInstances parameters override.``clustermgtd.log`時查看，或在執行任務失敗`slurm_resume.log`時查看如果您使用的是[執行執行個體覆寫 JSON 檔案](launch-instances-odcr-v3.md)，請檢查您是否在 `/opt/slurm/etc/pcluster/run_instances_overrides.json` 檔案中正確設定佇列名稱和運算資源名稱。 ### 當我無法執行任務`An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`時查看，或當我無法建立叢集`clustermgtd.log`時查看。 #### 使用 PG-ODCR （配置群組 ODCR) 使用相關聯的置放群組建立 ODCR 時，必須在組態檔案中使用相同的置放群組名稱。在叢集組態中設定對應的[置放群組名稱](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup)。 #### 使用區域預留執行個體如果您在叢集組態`true`中使用區域預留執行個體搭配 `PlacementGroup` / `Enabled`到，您可能會看到錯誤，如下所示： ``` We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f. ``` 您可能會看到這種情況，因為區域預留執行個體未放置在相同的 UC （或脊椎）中，這可能會在使用置放群組時導致容量不足錯誤 (ICEs)。您可以在叢集組態中停用`PlacementGroup`群組設定，以判斷叢集是否可以配置執行個體，藉此檢查此案例。 # 當我無法執行任務`An error occurred (VcpuLimitExceeded)``slurm_resume.log`時查看，或當我無法建立叢集時`clustermgtd.log`查看。檢查您帳戶上的 vCPU 限制，了解您使用的特定 Amazon EC2 執行個體類型。如果您看到的 vCPUs比您請求的 vCPU 為零或更少，請請求提高限制。如需有關如何檢視目前限制和請求新限制的資訊，請參閱[《Amazon EC2 使用者指南》中的 Amazon EC2 服務配額](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html)。 *Amazon EC2 * # 當我無法執行任務`An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`時查看，或當我無法建立叢集時`clustermgtd.log`查看。您遇到容量不足的問題。請遵循 [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)：//。 # 使用查看節點處於 `DOWN` 狀態 `Reason (Code:InsufficientInstanceCapacity)...` 您遇到容量不足的問題。請遵循 [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)：//。如需 AWS ParallelCluster快速容量不足容錯移轉模式的詳細資訊，請參閱 [Slurm 叢集快速容量不足容錯移轉](slurm-short-capacity-fail-mode-v3.md)。 # 在 `cannot change locale (en_US.utf-8) because it has an invalid name`中查看 `slurm_resume.log` 如果您的`yum`安裝程序失敗，使得地區設定處於不一致狀態，就會發生這種情況。例如，這可能會在使用者終止安裝程序時造成。 **若要驗證原因，請採取下列動作：** + 執行 `su - pcluster-admin`。 shell 會顯示錯誤，例如 `cannot change locale...no such file or directory`。 + 執行 `localedef --list`。傳回空白清單，或不包含預設地區設定。 + 使用 `yum history`和檢查最後一個`yum`命令`yum history info #ID`。最後一個 ID 是否具有 `Return-Code: Success`？如果最後一個 ID 沒有 `Return-Code: Success`，安裝後指令碼可能無法成功執行。若要修正此問題，請嘗試使用重建地區設定`yum reinstall glibc-all-langpacks`。重建之後，如果問題已修正， `su - pcluster-admin`不會顯示錯誤或警告。 # 上述案例都不適用於我的情況若要疑難排解運算節點初始化問題，請參閱 [故障診斷節點初始化問題](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init)。檢查 [GitHub 上的 GitHub 已知問題](https://github.com/aws/aws-parallelcluster/wiki)是否涵蓋您的案例 AWS ParallelCluster GitHub 。