

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 컴퓨팅 노드 초기화 오류가 표시되는 경우
<a name="troubleshooting-fc-v3-compute-node-initialization-v3"></a>

다음 섹션에서는 컴퓨팅 노드 초기화에 오류가 발생할 때의 문제 해결 팁을 제공합니다. 여기에는 부트스트랩 오류, 로그 오류 확인, 그리고 특정 상황에 적용되는 시나리오가 없는 경우 참조해야 할 항목이 포함됩니다.

**Topics**
+ [`clustermgtd.log`에서 `Node bootstrap error`가 표시되는 경우](compute-node-initialization-bootstrap-error-v3.md)
+ [온디맨드 용량 예약(ODCR) 또는 영역별 예약 인스턴스를 구성했습니다.](compute-node-initialization-odcr-v3.md)
+ [작업 실행 실패 시 `slurm_resume.log`에서 또는 클러스터 실행 실패 시 `clustermgtd.log`에서 `An error occurred (VcpuLimitExceeded)`이 표시되는 경우](compute-node-initialization-vpc-limit-v3.md)
+ [작업 실행 실패 시 `slurm_resume.log`에서 또는 클러스터 실행 실패 시 `clustermgtd.log`에서 `An error occurred (InsufficientInstanceCapacity)`이 표시되는 경우](compute-node-initialization-ice-failure-v3.md)
+ [노드가 `Reason (Code:InsufficientInstanceCapacity)...`으로 `DOWN` 상태로 표시되는 경우](compute-node-initialization-down-nodes-v3.md)
+ [`slurm_resume.log`에서 `cannot change locale (en_US.utf-8) because it has an invalid name`가 표시되는 경우](compute-node-initialization-locale-v3.md)
+ [이전 시나리오 중 어느 것도 제 상황에 적용되지 않습니다.](compute-node-initialization-not-found-v3.md)

# `clustermgtd.log`에서 `Node bootstrap error`가 표시되는 경우
<a name="compute-node-initialization-bootstrap-error-v3"></a>

이 문제는 컴퓨팅 노드의 부트스트랩 실패와 관련이 있습니다. 클러스터 보호 모드 문제를 디버깅하는 방법에 대한 자세한 내용은 [보호 모드를 디버깅하는 방법](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3) 항목을 참조하세요.

# 온디맨드 용량 예약(ODCR) 또는 영역별 예약 인스턴스를 구성했습니다.
<a name="compute-node-initialization-odcr-v3"></a>

## P4d, P4de 및 AWS Trainium(Trn)과 같이 여러 네트워크 인터페이스가 있는 인스턴스를 포함하는 ODCRs
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

클러스터 구성 파일에서 `HeadNode`가 퍼블릭 서브넷에 있고 컴퓨팅 노드가 프라이빗 서브넷에 있는지 확인합니다.

## ODCR이 대상으로 지정된 ODCR인 경우
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### [ODCR(온디맨드 용량 예약)로 인스턴스 시작](launch-instances-odcr-v3.md)에 나와 있는 지침을 따라 이미 `/opt/slurm/etc/pcluster/run_instances_overrides.json`를 설치했는데도 `Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.`가 표시되는 경우
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

대상 ODCRs과 함께 AWS ParallelCluster 버전 3.1.1\$13.2.1을 사용하고 [실행 인스턴스 재정의 JSON 파일](launch-instances-odcr-v3.md)도 사용하는 경우 JSON 파일의 형식이 올바르지 않을 수 있습니다. `clustermgtd.log`에서 다음과 같은 오류가 발생할 수 있습니다.

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

다음을 실행하여 JSON 파일 형식이 올바른지 확인합니다.

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### 클러스터 생성 실패 시 `clustermgtd.log`에서 또는 작업 실행 실패 시 `slurm_resume.log`에서 `Found RunInstances parameters override.`이 표시되는 경우
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

[실행 인스턴스 재정의 JSON 파일](launch-instances-odcr-v3.md)을 사용하는 경우 `/opt/slurm/etc/pcluster/run_instances_overrides.json` 파일에서 대기열 이름과 컴퓨팅 리소스 이름을 올바르게 설정했는지 확인하세요.

### 작업 실행 실패 시 `slurm_resume.log`에서 또는 클러스터 실행 실패 시 `clustermgtd.log`에서 `An error occurred (InsufficientInstanceCapacity)`이 표시되는 경우
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### PG-ODCR(배치 그룹 ODCR) 사용
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

연결된 배치 그룹이 있는 ODCR을 만들 때는 구성 파일에 동일한 배치 그룹 이름을 사용해야 합니다. 클러스터 구성에서 대응하는 [배치 그룹 이름](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup)을 설정합니다.

#### 영역 예약 인스턴스 사용
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

클러스터 구성에서 `PlacementGroup`/`Enabled`를 `true`로와 함께 영역 예약 인스턴스를 사용하는 경우 다음과 같은 오류가 표시될 수 있습니다.

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

영역 예약 인스턴스가 동일한 UC(또는 스파인)에 배치되지 않아 이러한 현상이 나타날 수 있으며, 배치 그룹을 사용할 때 용량 부족 오류(ICE)가 발생할 수 있습니다. 클러스터 구성에서 `PlacementGroup` 그룹 설정을 비활성화하여 클러스터가 인스턴스를 할당할 수 있는지 확인하면 이 경우를 확인할 수 있습니다.

# 작업 실행 실패 시 `slurm_resume.log`에서 또는 클러스터 실행 실패 시 `clustermgtd.log`에서 `An error occurred (VcpuLimitExceeded)`이 표시되는 경우
<a name="compute-node-initialization-vpc-limit-v3"></a>

사용 중인 특정 Amazon EC2 인스턴스 유형에 대한 계정의 vCPU 한도를 확인하세요. vCPU가 0개 또는 요청한 것보다 더 적으면 한도 증가를 요청하세요. 현재 한도를 확인하고 새 한도를 요청하는 방법에 대한 자세한 내용은 *Amazon EC2 사용 설명서*의 [Amazon EC2 서비스 할당량](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html)을 참조하세요.

# 작업 실행 실패 시 `slurm_resume.log`에서 또는 클러스터 실행 실패 시 `clustermgtd.log`에서 `An error occurred (InsufficientInstanceCapacity)`이 표시되는 경우
<a name="compute-node-initialization-ice-failure-v3"></a>

용량 부족 문제가 발생했습니다. [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)를 따라서 문제를 해결하세요.

# 노드가 `Reason (Code:InsufficientInstanceCapacity)...`으로 `DOWN` 상태로 표시되는 경우
<a name="compute-node-initialization-down-nodes-v3"></a>

용량 부족 문제가 발생했습니다. [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)를 따라서 문제를 해결하세요. AWS ParallelCluster의 빠른 용량 부족 장애 조치 모드에 대한 자세한 내용은 섹션을 참조하세요[Slurm 클러스터 빠른 용량 부족 장애 조치](slurm-short-capacity-fail-mode-v3.md).

# `slurm_resume.log`에서 `cannot change locale (en_US.utf-8) because it has an invalid name`가 표시되는 경우
<a name="compute-node-initialization-locale-v3"></a>

`yum` 설치 프로세스에 실패하여 로케일 설정이 일관되지 않은 상태로 남아 있는 경우 이 문제가 발생할 수 있습니다. 예를 들어, 사용자가 설치 프로세스를 종료할 때 이러한 문제가 발생할 수 있습니다.

**원인을 확인하려면 다음 작업을 수행합니다.**
+ `su - pcluster-admin`를 실행합니다.

  쉘에 `cannot change locale...no such file or directory`과 같은 오류가 표시됩니다.
+ `localedef --list`를 실행합니다.

  빈 목록을 반환하거나 기본 로케일을 포함하지 않습니다.
+ `yum history` 및 `yum history info #ID`를 사용하여 마지막 `yum` 명령을 확인합니다. 마지막 ID에 `Return-Code: Success`가 있나요?

  마지막 ID에 `Return-Code: Success`가 없으면 설치 후 스크립트가 성공적으로 실행되지 않았을 수 있습니다.

문제를 해결하려면 `yum reinstall glibc-all-langpacks`를 사용하여 로케일을 다시 빌드해 보세요. 다시 빌드한 후에 문제가 해결됐으면 `su - pcluster-admin`가 오류나 경고를 표시하지 않습니다.

# 이전 시나리오 중 어느 것도 제 상황에 적용되지 않습니다.
<a name="compute-node-initialization-not-found-v3"></a>

컴퓨팅 노드 초기화 문제를 해결하려면 [노드 초기화 문제 해결](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init)을 참조하세요.

시나리오가 [GitHub의에 있는 GitHub 알려진 문제](https://github.com/aws/aws-parallelcluster/wiki) AWS ParallelCluster 에서 다루어지는지 확인합니다. GitHub