기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker HyperPod 태스크 거버넌스에서 그룹 예약 사용
분산 ML 훈련에서는 작업에 여러 포드가 포드 pod-to-pod 통신을 통해 노드 간에 동시에 실행되어야 하는 경우가 많습니다. HyperPod 태스크 거버넌스는 Kueue의 waitForPodsReady 기능을 사용하여 군 스케줄링을 구현합니다. 활성화하면 모든 포드가 준비될 때까지 Kueue에서 워크로드를 모니터링합니다. 즉, 예약, 실행 및 선택적 준비 프로브 전달을 의미합니다. 구성된 제한 시간 내에 워크로드의 모든 포드가 준비되지 않은 경우 워크로드가 제거되고 다시 대기열에 추가됩니다.
그룹 일정은 다음과 같은 이점을 제공합니다.
-
리소스 낭비 방지 - Kueue는 모든 포드가 준비되지 않으면 워크로드를 제거하고 다시 대기열에 추가하므로 부분적으로 실행 중인 워크로드가 리소스를 무기한 보관하지 않습니다.
-
교착 상태 방지 - 작업이 부분 리소스를 보유하고 서로 무기한 차단하는 것을 방지합니다.
-
자동 복구 - 제한 시간 내에 포드가 준비되지 않으면 워크로드가 제거되고 무기한 중단되지 않고 구성 가능한 지수 백오프로 다시 대기열에 추가됩니다.
그룹 일정 활성화
그룹 스케줄링을 활성화하려면 태스크 거버넌스 Amazon EKS 추가 기능이 설치된 HyperPod Amazon EKS 클러스터가 있어야 합니다. 추가 기능 상태는 Active 또는 여야 합니다Degraded.
참고
클러스터에서 Kueue 구성을 편집kubectl하여를 사용하여 직접 그룹 예약을 구성할 수도 있습니다.
그룹 일정 활성화(SageMaker AI 콘솔)
-
Amazon SageMaker AI 콘솔
을 열고 HyperPod 클러스터로 이동합니다. -
정책 관리 탭을 선택합니다.
-
작업 거버넌스 섹션에서 작업을 연 다음 그룹 일정 구성을 선택합니다.
-
에서 그룹 스케줄링을 전환하고 설정을 구성합니다.
-
저장을 선택합니다. Kueue 컨트롤러가 다시 시작되어 변경 사항을 적용합니다.
그룹 예약 구성 설정
다음 표에서는 그룹 예약에 대한 구성 설정을 설명합니다.
| 설정 | 설명 | 기본값 |
|---|---|---|
timeout |
Kueue가 워크로드를 제거하고 다시 대기열에 추가하기 전에 모든 포드가 준비될 때까지 기다리는 시간입니다. | 5m |
recoveryTimeout |
Kueue가 노드 장애 후 포드가 복구될 때까지 기다린 후 워크로드를 다시 대기열에 넣습니다. 비활성화0s하려면 로 설정합니다. 설정되지 않은 timeout 경우 기본값은 입니다. |
5m |
blockAdmission |
활성화하면 워크로드가 순차적으로 승인됩니다. 현재 포드의 모든 포드가 준비될 때까지 새 워크로드는 허용되지 않습니다. 리소스가 제한된 클러스터의 교착 상태를 방지합니다. | 꺼짐 |
requeuingStrategy timestamp |
재대기열 순서의 사용 여부Creation(원본 제출 시간, 대기열 위치 보존) 또는 사용 여부Eviction(마지막 제거 시간, 반복적으로 실패하는 작업의 우선순위를 효과적으로 해제). |
제거 |
requeuingStrategy backoffLimitCount |
Kueue가 워크로드를 영구적으로 비활성화하기 전에 최대 재대기열 시도 횟수입니다. 무제한 재시도에는 비워 둡니다. | 무제한 |
requeuingStrategy backoffBaseSeconds |
각 연속 제한 시간 이후에 워크로드를 다시 대기열에 넣을 때 지수 백오프의 기본 시간은 초 단위입니다. 지수는 2입니다. | 60초 |
requeuingStrategy backoffMaxSeconds |
지수 백오프 지연에 대한 한도입니다. 도달하면 Kueue는이 고정된 간격으로 다시 대기열에 추가됩니다. | 3600s |
참고
그룹 예약 설정을 수정하면 Kueue 컨트롤러가 다시 시작되어 작업 승인이 일시적으로 지연될 수 있습니다. 이는 값을 활성화, 비활성화 또는 업데이트하는지 여부에 관계없이 적용됩니다. 실행 중인 작업은 중단되지 않습니다.
참고
그룹 일정은 클러스터 전체입니다. 특정 팀이나 대기열뿐만 아니라 클러스터의 모든 Kueue 관리형 워크로드에 적용됩니다.