기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
MaxJobCount 제한으로 인한 작업 제출 실패 문제 해결
문제: 다음 오류 메시지와 함께 작업 제출이 실패합니다.
sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying
이 오류는 실행 중인 작업과 보류 중인 작업 수가 클러스터의 작업 한도보다 훨씬 낮은 것으로 보이는 경우에도 발생합니다.
원인: MaxJobCount 제한에는 실행 중이거나 보류 중인 작업뿐만 아니라 Slurm에서 추적하는 모든 작업이 포함됩니다. 완료된 작업은 제거되기 전에 일정 기간(기본적으로 5분) 동안 Slurm의 메모리에 남아 있습니다. 작업 처리량이 많은 기간에는 활성 작업과 최근에 완료된 작업의 총 수가 한도를 초과할 수 있습니다.
클러스터 노드에서 다음 명령을 실행하여 총 작업 수를 확인할 수 있습니다.
scontrol show jobs | grep -c JobId
여기에는 제거 대기 중인 완료된 작업을 포함하여 Slurm이 추적 중인 총 작업 수가 표시됩니다.
해결 방법: 다음 방법 중 하나를 고려합니다.
-
더 큰 클러스터 생성 - 워크로드에 지속적으로 더 많은 동시 작업이 필요한 경우 크기가 더 큰 새 클러스터를 생성합니다. 클러스터 크기 및 제한에 대한 자세한 내용은 섹션을 참조하세요AWS PCS의 클러스터 크기.
-
작업 제출률 감소 - 작업 제출 스크립트를 조정하여 느린 속도로 작업을 제출하므로 완료된 작업 시간을 Slurm의 추적에서 제거할 수 있습니다.