기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
클러스터를 업데이트하려는 경우
다음 섹션에서는 클러스터를 업데이트하는 동안 발생할 수 있는 문제에 대한 가능한 문제 해결 솔루션을 제공합니다.
pcluster update-cluster 명령이 로컬에서 실행되지 않습니다.
로컬 파일 시스템의 ~/.parallelcluster/pcluster-cli.log에서 오류 세부 정보를 확인하세요.
pcluster describe-cluster 명령으로 clusterStatus가 UPDATE_FAILED로 표시되는 경우
근본 원인
장애의 근본 원인을 식별하기 위해 시작점은 헤드 노드/var/log/chef-client.log에서 클러스터 스택 이벤트 및를 살펴보는 것입니다.
가능한 원인은 하나 이상의 클러스터 노드가 업데이트를 적용하지 않았기 때문입니다. 로그/var/log/chef-client.log에서를 찾아 헤드 노드의에서 업데이트하지 못한 노드 목록을 검색할 수 Check cluster readiness 있습니다.
GitHub 알려진 문제에
방지
클러스터에 있는 하나 이상의 노드가 업데이트를 성공적으로 적용하지 못하면 클러스터 업데이트가 실패할 수 있습니다. 클러스터 업데이트 실패 위험을 줄이려면 업데이트를 시작하기 전에 손상된 노드를 종료하는 것이 좋습니다. 중단될 수 있는 노드의 예로는 예상 에픽 지속 시간보다 오래 COMPLETING 상태로 멈춘 컴퓨팅 노드가 있습니다. 이러한 노드를 감지하려면 다음 명령을 실행하여 필요에 맞게 threshold 값을 조정할 수 있습니다(값은 에픽에 대해 예상되는 최대 기간보다 커야 함).
$scontrol show nodes --json | jq -r --argjson threshold 60 ' .nodes[] | select(.state | index("COMPLETING")) | select((now - .last_busy.number) > $threshold) | .name '
복구 중
업데이트가 실패하면 롤백은 클러스터의 상태를 복구할 것으로 예상되는 메커니즘입니다.
롤백에 실패한 경우 클러스터 상태는 결정적이지 않습니다. 이 경우 실패의 증폭을 방지하기 위해가 clustermgtd 중지되었을 수 있습니다. 헤드 노드에서 다음 명령을 실행하여 시작하는 것이 좋습니다. Python 버전을 버전과 함께 제공되는 AWS ParallelCluster 버전으로 조정합니다.
$/opt/parallelcluster/pyenv/versions/3.12.11/envs/cookbook_virtualenv/bin/supervisorctl start clustermgtd
클러스터 업데이트 제한 시간이 초과되었습니다.
cfn-hup가 실행되지 않는 것과 관련된 문제일 수 있습니다. cfn-hup 대몬(daemon)이 외부 원인으로 종료되면 자동으로 다시 시작되지 않습니다. cfn-hup가 실행되고 있지 않으면 클러스터 업데이트 중에 CloudFormation 스택이 예상대로 업데이트 프로세스를 시작하지만 헤드 노드에서 업데이트 절차가 활성화되지 않아 결국 스택 배포 시간이 초과됩니다. cfn-hup이 실행 중이 아닐 때의 클러스터 업데이트 제한 시간 문제 해결에서 자세한 내용을 참조하여 문제를 해결하세요.