기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 클러스터 상태 지표 문제 해결
<a name="troubleshooting-v3-cluster-health-metrics"></a>

클러스터 상태 지표는 AWS ParallelCluster 버전 3.6.0부터 AWS ParallelCluster Amazon CloudWatch 대시보드에 추가됩니다. 다음 섹션에서는 대시보드 상태 지표와 문제 해결을 위해 취할 수 있는 조치에 대해 알아볼 수 있습니다.

**Topics**
+ [**인스턴스 프로비저닝 오류** 그래프 참조](#troubleshooting-v3-cluster-health-metrics-instance-provisioning)
+ [**비정상 인스턴스 오류** 그래프 보기](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance)
+ [**컴퓨팅 플릿 유휴 시간** 그래프 보기](#troubleshooting-v3-cluster-health-metrics-idle-time-errors)

## **인스턴스 프로비저닝 오류** 그래프 참조
<a name="troubleshooting-v3-cluster-health-metrics-instance-provisioning"></a>

`Instance Provisioning Errors` 그래프에 0이 아닌 값이 표시되면 slurm 노드를 지원하는 Amazon EC2 인스턴스가 `CreateFleet` 또는 `RunInstance` API에서 시작되지 못한 것입니다.

### `IAMPolicyErrors` 확인
<a name="troubleshooting-v3-cluster-health-metrics-iam-policy"></a>
+ **어떻게 된 걸까요?**

  권한이 충분하지 않고 오류 코드 `UnauthorizedOperation`이 발생하여 여러 인스턴스가 시작되지 못했습니다.
+ **해결 방법은?**

  사용자 지정 [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole) 또는 [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile)을 구성한 경우, IAM 정책을 확인하고 올바른 보안 인증 정보를 사용하고 있는지 확인하세요.

  `clustermgtd` 파일에서 정적 노드 오류 세부 정보를 확인하세요. `slurm_resume.log` 파일에서 동적 노드 오류 세부 정보를 확인하세요. 세부 정보를 사용하여 추가해야 하는 누락된 권한에 대해 자세히 알아보세요.

### `VcpuLimitErrors` 확인
<a name="troubleshooting-v3-cluster-health-metrics-vcpu-limit"></a>
+ **어떻게 된 걸까요?**

  AWS ParallelCluster 클러스터 컴퓨팅 노드에 대해 구성한 특정 Amazon EC2 인스턴스 유형에 AWS 계정 대한의 vCPU 제한에 도달했기 때문에에서 인스턴스를 시작하지 못했습니다.
+ **해결 방법은?**

  정적 노드의 경우 `clustermgtd` 파일에서 `VcpuLimitExceeded` 오류를 확인하고, 추가 세부 정보를 보려면 동적 노드용 `slurm_resume.log` 파일을 확인하세요. 이 문제를 해결하려면 vCPU 한도 증가를 요청할 수 있습니다. 현재 한도를 확인하고 새 한도를 요청하는 방법에 대한 자세한 내용은 *Linux 인스턴스용 Amazon Elastic Compute Cloud 사용 설명서*의 [Amazon Elastic Compute Cloud 서비스 할당량](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html)을 참조하세요.

### `VolumeLimitErrors` 확인
<a name="troubleshooting-v3-cluster-health-metrics-volume-limit"></a>
+ **어떻게 된 걸까요?**

  에 대한 Amazon EBS 볼륨 한도에 도달 AWS 계정했으며 오류 코드 `InsufficientVolumeCapacity` 또는 로 인스턴스를 시작할 AWS ParallelCluster 수 없습니다`VolumeLimitExceeded`.
+ **해결 방법은?**

  `clustermgtd` 파일에 정적 노드가 있는지 확인하고 `slurm_resume.log` 파일에 동적 노드가 있는지 확인하여 추가 볼륨 제한 세부 정보를 확인하세요. 이 문제를 해결하려면 다른를 사용하거나 AWS 리전기존 볼륨을 AWS 정리하거나 지원 센터에 문의하여 Amazon EBS 볼륨 한도 증가 요청을 제출할 수 있습니다.

### `InsufficientCapacityErrors` 확인
<a name="troubleshooting-v3-cluster-health-metrics-ice"></a>
+ **어떻게 된 걸까요?**

  AWS ParallelCluster 에는 Amazon EC2 인스턴스를 백 노드로 시작하는 데 충분한 용량이 없습니다.
+ **해결 방법은?**

  `clustermgtd` 파일에서 정적 노드가 있는지 확인하고, `slurm_resume.log` 파일에 동적 노드가 있는지 확인하여 용량 부족 오류 세부 정보를 확인하세요. 문제를 해결하려면 [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) 지침을 따르세요.

### `OtherInstanceLaunchFailures`
<a name="troubleshooting-v3-cluster-health-metrics-other-launch-failures"></a>
+ **어떻게 된 걸까요?**

  컴퓨팅 노드를 지원하는 Amazon EC2 인스턴스가 `CreateFleet` 또는 `RunInstance` API로 시작되지 않았습니다.
+ **해결 방법은?**

  `clustermgtd` 파일에서 정적 노드가 있는지 확인하고, `slurm_resume.log` 파일에 동적 노드가 있는지 확인하여 오류 세부 정보를 확인하세요.

## **비정상 인스턴스 오류** 그래프 보기
<a name="troubleshooting-v3-cluster-health-metrics-unhealthy-instance"></a>
+ **어떻게 된 걸까요?**

  여러 컴퓨팅 인스턴스가 시작되었지만 나중에 비정상으로 종료되었습니다.
+ **해결 방법은?**

  비정상 노드 문제 해결에 대한 자세한 내용은 [예상치 못한 노드 교체 및 종료 문제 해결****](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations) 섹션을 참조하세요.

### `InstanceBootstrapTimeoutError` 확인
<a name="troubleshooting-v3-cluster-health-metrics-bootstrap-timeout"></a>
+ **어떻게 된 걸까요?**

  인스턴스는 `resume_timeout`(동적 노드의 경우) 또는 `node_replacement_timeout`(정적 노드의 경우) 내에서 클러스터에 조인할 수 없습니다. 이는 네트워크가 컴퓨팅 노드에 맞게 올바르게 구성되지 않은 경우 발생할 수 있으며, 컴퓨팅 노드에서 실행되는 사용자 지정 스크립트를 완료하는 데 시간이 너무 오래 걸리는 경우 발생할 수 있습니다.
+ **해결 방법은?**

  동적 노드의 경우 `clustermgtd` 로그(`/var/log/parallelcluster/clustermgtd`)에서 컴퓨팅 노드 IP 주소 및 다음과 같은 오류를 확인합니다.

  ```
  Node bootstrap error: Resume timeout expires for node
  ```

  정적 노드의 경우 `clustermgtd` 로그(`/var/log/parallelcluster/clustermgtd`) 에서 컴퓨팅 노드 IP 주소 및 다음과 같은 오류를 확인합니다.

  ```
  Node bootstrap error: Replacement timeout expires for node ... in replacement.
  ```

  더 자세한 내용은 `/var/log/cloud-init-output.log` 파일에서 오류를 확인하세요. `clustermgtd` 및 `slurm_resume` 로그 파일에서 문제가 있는 컴퓨팅 노드 IP 주소를 검색할 수 있습니다.

### `EC2HealthCheckErrors` 확인
<a name="troubleshooting-v3-cluster-health-metrics-ec2-check"></a>
+ **어떻게 된 걸까요?**

  인스턴스가 Amazon EC2 상태 확인에 실패했습니다.
+ **해결 방법은?**

  이 문제를 해결하는 방법에 대한 자세한 내용은 [상태 확인에 실패한 인스턴스 문제 해결](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html)을 참조하세요.

### `ScheduledEventHealthCheckErrors` 확인
<a name="troubleshooting-v3-cluster-health-metrics-ec2-scheduled-event"></a>
+ **어떻게 된 걸까요?**

  인스턴스가 Amazon EC2 예약 이벤트 상태 확인에 실패했으며 비정상입니다.
+ **해결 방법은?**

  이 문제를 해결하는 방법에 대한 자세한 내용은 [인스턴스의 예약 이벤트](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html)를 참조하세요.

### `NoCorrespondingInstanceErrors` 확인
<a name="troubleshooting-v3-cluster-health-metrics-missing-instances"></a>
+ **어떻게 된 걸까요?**

  AWS ParallelCluster 가 노드를 지원하는 인스턴스를 찾을 수 없습니다. 부트스트랩 작업 중에 노드가 자체 종료되었을 수 있습니다. [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)/[`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)/[`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart)\$1[`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured) 스크립트 또는 네트워크 오류가 `NoCorrespondingInstanceErrors`를 발생시킬 수 있습니다.
+ **해결 방법은?**

  자세한 내용은 컴퓨팅 노드의 `/var/log/cloud-init-output.log`을 확인하세요.

## **컴퓨팅 플릿 유휴 시간** 그래프 보기
<a name="troubleshooting-v3-cluster-health-metrics-idle-time-errors"></a>

### `MaxDynamicNodeIdleTime`이 **유휴 시간 스케일다운** 임계값보다 훨씬 긴 것으로 확인됨
<a name="troubleshooting-v3-cluster-health-idle-time-threshold"></a>
+ **어떻게 된 걸까요?**

  인스턴스가 제대로 종료되지 않습니다. `MaxDynamicNodeIdleTime`은 Amazon EC2 인스턴스가 지원하는 동적 노드가 유휴 상태인 최대 시간을 초 단위로 표시합니다. **유휴 시간 스케일다운** 임계값은 클러스터 구성 [`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime) 파라미터에서 파생됩니다. 컴퓨팅 노드가 유휴 **시간 스케일 다운 초 이상 유휴** 상태인 경우는 노드의 Slurm 전원을 끄고 백업 인스턴스를 AWS ParallelCluster 종료합니다. 이 경우, 무언가 인스턴스 종료를 방해하고 있습니다.
+ **해결 방법은?**

  이 문제에 대한 자세한 내용은 [규모 조정 문제 해결](troubleshooting-v3-scaling-issues.md)에서 [문제가 있는 인스턴스 및 노드 교체, 종료 또는 전원 끄기****](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3)를 참조하세요.