pcluster update-cluster 명령이 로컬에서 실행되지 않습니다.pcluster describe-cluster 명령으로 clusterStatus가 UPDATE_FAILED로 표시되는 경우 클러스터 업데이트 제한 시간이 초과되었습니다.

클러스터를 업데이트하려는 경우

다음 섹션에서는 클러스터를 업데이트하는 동안 발생할 수 있는 문제에 대한 가능한 문제 해결 솔루션을 제공합니다.

`pcluster update-cluster` 명령이 로컬에서 실행되지 않습니다.

로컬 파일 시스템의 ~/.parallelcluster/pcluster-cli.log에서 오류 세부 정보를 확인하세요.

`pcluster describe-cluster` 명령으로 `clusterStatus`가 `UPDATE_FAILED`로 표시되는 경우

근본 원인

장애의 근본 원인을 식별하기 위해 시작점은 헤드 노드/var/log/chef-client.log에서 클러스터 스택 이벤트 및를 살펴보는 것입니다.

가능한 원인은 하나 이상의 클러스터 노드가 업데이트를 적용하지 않았기 때문입니다. 로그/var/log/chef-client.log에서를 찾아 헤드 노드의에서 업데이트하지 못한 노드 목록을 검색할 수 Check cluster readiness 있습니다.

GitHub 알려진 문제에 문제가 언급되어 있는지 확인합니다. AWS ParallelCluster GitHub

방지

클러스터에 있는 하나 이상의 노드가 업데이트를 성공적으로 적용하지 못하면 클러스터 업데이트가 실패할 수 있습니다. 클러스터 업데이트 실패 위험을 줄이려면 업데이트를 시작하기 전에 손상된 노드를 종료하는 것이 좋습니다. 중단될 수 있는 노드의 예로는 예상 에픽 지속 시간보다 오래 COMPLETING 상태로 멈춘 컴퓨팅 노드가 있습니다. 이러한 노드를 감지하려면 다음 명령을 실행하여 필요에 맞게 threshold 값을 조정할 수 있습니다(값은 에픽에 대해 예상되는 최대 기간보다 커야 함).


$ scontrol show nodes --json | jq -r --argjson threshold 60 '
  .nodes[] | select(.state | index("COMPLETING")) |
  select((now - .last_busy.number) > $threshold) |
  .name
'

복구 중

업데이트가 실패하면 롤백은 클러스터의 상태를 복구할 것으로 예상되는 메커니즘입니다.

롤백에 실패한 경우 클러스터 상태는 결정적이지 않습니다. 이 경우 실패의 증폭을 방지하기 위해가 clustermgtd 중지되었을 수 있습니다. 헤드 노드에서 다음 명령을 실행하여 시작하는 것이 좋습니다. Python 버전을 버전과 함께 제공되는 AWS ParallelCluster 버전으로 조정합니다.


$ /opt/parallelcluster/pyenv/versions/3.12.11/envs/cookbook_virtualenv/bin/supervisorctl start clustermgtd

클러스터 업데이트 제한 시간이 초과되었습니다.

cfn-hup가 실행되지 않는 것과 관련된 문제일 수 있습니다. cfn-hup 대몬(daemon)이 외부 원인으로 종료되면 자동으로 다시 시작되지 않습니다. cfn-hup가 실행되고 있지 않으면 클러스터 업데이트 중에 CloudFormation 스택이 예상대로 업데이트 프로세스를 시작하지만 헤드 노드에서 업데이트 절차가 활성화되지 않아 결국 스택 배포 시간이 초과됩니다. cfn-hup이 실행 중이 아닐 때의 클러스터 업데이트 제한 시간 문제 해결에서 자세한 내용을 참조하여 문제를 해결하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

작업을 실행하려는 경우

스토리지에 액세스하려는 경우