AWS Batch 서비스 작업 상태를 SageMaker AI 상태로 매핑 - AWS Batch

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Batch 서비스 작업 상태를 SageMaker AI 상태로 매핑

SubmitServiceJob을 사용하여 SageMaker 작업 대기열에 작업을 제출하면는 작업 수명 주기를 AWS Batch 관리하고 AWS Batch 작업 상태를 동등한 SageMaker 훈련 작업 상태로 매핑합니다. SageMaker 훈련 작업과 같은 서비스 작업은 기존 컨테이너 작업과 다른 상태 수명 주기를 따릅니다. 서비스 작업은 대부분의 상태를 컨테이너 작업과 공유하지만 SCHEDULED 상태를 사용하며 특히 대상 서비스의 용량 부족 오류 처리 등을 위해 다양한 재시도 동작을 보여줍니다.

다음 표에는 AWS Batch 작업 상태와 해당 SageMaker 상태/SecondaryStatus가 나와 있습니다.

Batch 상태 SageMaker AI 기본 상태 SageMaker AI 보조 상태 설명
SUBMITTED 해당 사항 없음 해당 사항 없음 작업이 대기열에 제출되었으며 스케줄러 평가를 기다리는 중입니다.
RUNNABLE 해당 사항 없음 해당 사항 없음 작업이 대기열에 있고 예약 준비가 되었습니다. 이 상태의 작업은 작업 대기열에 매핑된 서비스 환경에 충분한 리소스를 사용할 수 있게 되면 바로 시작됩니다. 사용 가능한 리소스가 충분하지 않으면 작업이 이 상태로 무기한 남아 있을 수 있습니다.
SCHEDULED InProgress Pending 서비스 작업이 SageMaker AI에 성공적으로 제출되었습니다.
STARTING InProgress Downloading SageMaker 훈련 작업이 데이터 및 이미지를 다운로드하는 중입니다. 훈련 작업 용량이 획득되고 작업 초기화가 시작됩니다.
RUNNING InProgress Training SageMaker 훈련 작업 실행 알고리즘
RUNNING InProgress Uploading SageMaker 훈련 작업이 훈련 완료 후 출력 아티팩트를 업로드하는 중입니다.
SUCCEEDED Completed Completed SageMaker 훈련 작업이 성공적으로 완료되었습니다. 출력 아티팩트의 업로드가 완료되었습니다.
FAILED Failed Failed SageMaker 훈련 작업에서 복구할 수 없는 오류가 발생했습니다.
FAILED Stopped Stopped StopTrainingJob을 사용하여 SageMaker 훈련 작업을 수동으로 중지했습니다.