기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker HyperPod 클러스터 관리
다음 주제에서는 SageMaker HyperPod 클러스터 로깅 및 관리에 대해 설명합니다.
SageMaker HyperPod 이벤트 로깅
SageMaker HyperPod의 모든 이벤트 및 로그는 로그 그룹 이름 /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]로 Amazon CloudWatch에 저장됩니다. CreateCluster API에 대한 모든 호출은 새 로그 그룹을 생성합니다. 다음 목록에는 각 로그 그룹에서 수집된 사용 가능한 모든 로그 스트림이 포함되어 있습니다.
| 로그 그룹 이름 | 로그 스트림 이름 |
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] |
LifecycleConfig/[instance-group-name]/[instance-id] |
인스턴스 수준에서 SageMaker HyperPod 로깅
클러스터 인스턴스 구성 중에 CloudWatch에 게시된 LifecycleScript 로그에 액세스할 수 있습니다. 생성된 클러스터 내의 모든 인스턴스는 LifecycleConfig/[instance-group-name]/[instance-id] 형식으로 구분 가능한 별도의 로그 스트림을 생성합니다.
/var/log/provision/provisioning.log에 기록된 모든 로그는 이전 CloudWatch 스트림에 업로드됩니다. 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configstdout 및 stderr를 이 위치로 리디렉션합니다. 사용자 지정 스크립트를 사용하는 경우 CloudWatch 에서 사용할 수 있는 /var/log/provision/provisioning.log 위치에 로그를 작성합니다.
수명 주기 스크립트 로그 마커
수명 주기 스크립트에 대한 CloudWatch 로그에는 실행 진행 상황을 추적하고 문제를 식별하는 데 도움이 되는 특정 마커가 포함되어 있습니다.
| 마커 | 설명 |
START |
Indicates the beginning of lifecycle script logs for the instance |
[SageMaker] Lifecycle scripts were provided, with S3 uri: |
Indicates the S3 location and entrypoint script that will be used |
[SageMaker] Downloading lifecycle scripts |
Indicates scripts are being downloaded from the specified S3 location |
[SageMaker] Lifecycle scripts have been downloaded |
Indicates scripts have been successfully downloaded from S3 |
[SageMaker] The lifecycle scripts succeeded |
Indicates successful completion of all lifecycle scripts |
[SageMaker] The lifecycle scripts failed |
Indicates failed execution of lifecycle scripts |
이러한 마커는 수명 주기 스크립트 실행 프로세스에서 문제가 발생한 위치를 빠르게 식별하는 데 도움이 됩니다. 실패 문제를 해결할 때 로그 항목을 검토하여 프로세스가 중지되거나 실패한 위치를 식별합니다.
수명 주기 스크립트 실패 메시지
수명 주기 스크립트가 존재하지만 실행 중에 실패하면 CloudWatch 로그 그룹 이름과 로그 스트림 이름이 포함된 오류 메시지가 표시됩니다. 여러 인스턴스에서 수명 주기 스크립트 오류가 발생하는 경우 오류 메시지는 실패한 인스턴스를 하나만 나타내지만 로그 그룹에는 모든 인스턴스에 대한 스트림이 포함되어야 합니다.
DescribeCluster API를 실행하거나 SageMaker 콘솔에서 클러스터 세부 정보 페이지를 확인하여 오류 메시지를 볼 수 있습니다. 콘솔에는 CloudWatch 로그 스트림으로 직접 이동하는 수명 주기 스크립트 로그 보기 버튼이 제공됩니다. 오류 메시지의 형식은 다음과 같습니다.
Instance[instance-id]failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs, visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’. If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.
리소스에 태그 지정
AWS 태깅 시스템은 리소스를 관리, 식별, 구성, 검색 및 필터링하는 데 도움이 됩니다. SageMaker HyperPod는 태그 지정을 지원하므로 클러스터를 AWS 리소스로 관리할 수 있습니다. 클러스터를 생성하거나 기존 클러스터를 편집하는 동안 클러스터에 대한 태그를 추가하거나 편집할 수 있습니다. 일반적인 태그 지정에 대한 자세한 내용은 AWS 리소스 태그 지정을 참조하세요.
SageMaker HyperPod 콘솔 UI 사용
새 클러스터 생성 및 클러스터 편집 시 태그를 추가, 편집 또는 제거할 수 있습니다.
SageMaker HyperPod API 사용
CreateCluster 또는 UpdateCluster API 요청 파일을 JSON 형식으로 작성할 때는 Tags 섹션을 편집합니다.
SageMaker AI에 태그 AWS CLI 지정 명령 사용
클러스터에 태그를 지정하려면
다음과 같이 aws sagemaker add-tags를 사용합니다.
aws sagemaker add-tags --resource-arncluster_ARN--tags Key=string,Value=string
클러스터의 태그를 해제하려면
다음과 같이 aws sagemaker delete-tags를 사용합니다.
aws sagemaker delete-tags --resource-arncluster_ARN--tag-keys"tag_key"
리소스에 대한 태그를 나열하려면
다음과 같이 aws sagemaker list-tags를 사용합니다.
aws sagemaker list-tags --resource-arncluster_ARN