기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다. # SageMaker 훈련 작업에 대한 훈련 계획 사용률 훈련 작업을 생성할 때 원하는 계획을 지정하여 훈련 작업에 SageMaker 훈련 계획을 사용할 수 있습니다. **참고** 훈련 계획을 훈련 작업에서 사용하려면 상태가 `Scheduled` 또는 `Active`여야 합니다. 훈련 작업에 필요한 용량을 즉시 사용할 수 없다면 작업은 가용 상태가 되거나 `StoppingCondition`이 충족되거나 작업이 2일 동안 용량에 대해 `Pending` 상태인 경우 중 가장 먼저 도래하는 시점까지 대기합니다. 중지 조건이 충족되면 작업이 중지됩니다. 작업이 2일 동안 보류 중이면 `InsufficientCapacityError`와 함께 종료됩니다. **중요** **예약 용량 종료 프로세스:** 사용자는 예약 용량 종료 시간 30분 전까지 모든 예약 인스턴스에 대한 전체 액세스 권한을 가집니다. 예약 용량에 30분이 남아 있는 경우 SageMaker 훈련 계획은 해당 예약 용량 내에서 실행 중인 인스턴스를 종료하는 프로세스를 시작합니다. 이러한 종료로 인해 진행 상황이 손실되지 않도록 훈련 작업에 체크포인트를 지정하는 것이 좋습니다. ## 훈련 작업 체크포인트 지정 SageMaker 훈련 작업에 SageMaker 훈련 계획을 사용할 때는 훈련 스크립트에서 체크포인트 지정을 구현해야 합니다. 이렇게 하면 예약 용량이 만료되기 전에 훈련 진행 상황을 저장할 수 있습니다. 예약 용량으로 작업할 때는 체크포인트 지정이 특히 중요합니다. 두 예약 용량 사이에 작업이 중단되거나 훈련 계획이 종료 날짜에 도달하면 마지막으로 저장된 시점부터 훈련을 재개할 수 있기 때문입니다. `SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP` 환경 변수를 사용하여 수행할 수 있습니다. 이 변수는 체크포인트 프로세스를 시작할 시기를 결정하는 데 도움이 됩니다. 이 로직을 훈련 스크립트에 통합하면 모델의 진행 상황을 적절한 간격으로 저장할 수 있습니다. 다음은 Python 훈련 스크립트에서 이 체크포인트 지정 로직을 구현하는 방법의 예입니다. ``` import os import time from datetime import datetime, timedelta def is_close_to_expiration(threshold_minutes=30): # Retrieve the expiration timestamp from the environment variable expiration_time_str = os.environ.get('SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP', '0') # If the timestamp is not set (default '0'), return False if expiration_time_str == '0': return False # Convert the timestamp string (in milliseconds) to a datetime object expiration_time = datetime(1970, 1, 1) + timedelta(milliseconds=int(expiration_time_str)) # Calculate the time difference between now and the expiration time time_difference = expiration_time - datetime.now() # Return True if we're within the threshold time of expiration return time_difference < timedelta(minutes=threshold_minutes) def start_checkpointing(): # Placeholder function for checkpointing logic print("Starting checkpointing process...") # TODO: Implement actual checkpointing logic here # For example: # - Save model state # - Save optimizer state # - Save current epoch and iteration numbers # - Save any other relevant training state # Main training loop num_epochs = 100 final_checkpointing_done = False for epoch in range(num_epochs): # TODO: Replace this with your actual training code # For example: # - Load a batch of data # - Forward pass # - Calculate loss # - Backward pass # - Update model parameters # Check if we're close to capacity expiration and haven't done final checkpointing if not final_checkpointing_done and is_close_to_expiration(): start_checkpointing() final_checkpointing_done = True # Simulate some training time (remove this in actual implementation) time.sleep(1) print("Training completed.") ``` **참고** 훈련 작업 프로비저닝은 선입선출(FIFO)의 순서를 따르지만, 더 큰 작업을 수행할 수 없는 경우 이전에 생성된 더 큰 클러스터 작업보다 나중에 생성된 더 작은 클러스터 작업에 용량이 할당될 수 있습니다. SageMaker 훈련 관리형 웜 풀은 SageMaker 훈련 계획과 호환됩니다. 클러스터 재사용의 경우 동일한 클러스터를 재사용하려면 후속 `CreateTrainingJob` 요청에서 동일한 `TrainingPlanArn` 값을 제공해야 합니다. **Topics** + [훈련 작업 체크포인트 지정](#training-jobs-checkpointing) + [SageMaker AI 콘솔을 사용하여 훈련 작업 생성](use-training-plan-for-training-jobs-using-console.md) + [API, AWS CLI SageMaker SDK를 사용하여 훈련 작업 생성](use-training-plan-for-training-jobs-using-api-cli-sdk.md) # SageMaker AI 콘솔을 사용하여 훈련 작업 생성 SageMaker AI UI를 사용하여 훈련 작업에 SageMaker 훈련 계획을 사용할 수 있습니다. 훈련 작업을 생성할 때 선택한 인스턴스와 리전이 사용 가능한 계획에 부합하는 경우 사용 가능한 계획이 제안됩니다. SageMaker 콘솔에서 훈련 계획의 예약 용량을 사용하여 훈련 작업을 생성하는 방법: 1. [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)에서 SageMaker AI 콘솔로 이동합니다. 1. 왼쪽 탐색 창에서 **훈련**을 선택한 후 **훈련 작업**을 선택합니다. 1. **훈련 작업 생성** 버튼을 선택합니다. 1. 훈련 작업에 대한 리소스를 구성할 때 **인스턴스 용량** 섹션을 찾습니다. 선택한 인스턴스 유형 및 리전과 일치하는 계획이 있는 경우 여기에 표시됩니다. 컴퓨팅 용량 요구 사항에 맞는 훈련 계획을 선택합니다. 적합한 계획이 없는 경우 인스턴스 유형 또는 리전을 조정하거나 훈련 계획을 사용하지 않고 진행할 수 있습니다. 1. 훈련 계획을 선택한 후 또는 훈련 계획 없이 진행하기로 선택한 후 나머지 훈련 작업 구성을 완료하고 **훈련 작업 생성**을 선택하여 프로세스를 시작합니다. ![\[새 훈련 작업을 생성하기 위한 SageMaker AI 콘솔 페이지입니다. 페이지에 작업 설정, 알고리즘 옵션, 리소스 구성, 훈련 계획 선택, 중지 조건 등 다양한 구성 옵션이 표시되어 있습니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/training-plans/tp-create-training-job.png) 작업을 검토하고 시작합니다. 훈련 계획이 `Active`가 되어 용량이 보류되는 즉시 작업이 실행되기 시작합니다. # API, AWS CLI SageMaker SDK를 사용하여 훈련 작업 생성 SageMaker 훈련 작업에 SageMaker 훈련 계획을 사용하려면 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html) API 작업을 직접적으로 호출할 때 `ResourceConfig`에서 원하는 계획의 `TrainingPlanArn` 파라미터를 지정합니다. 작업당 정확히 하나의 계획을 사용할 수 있습니다. **중요** `CreateTrainingJob` 요청의 `ResourceConfig` 섹션에 설정된 `InstanceType` 필드는 훈련 계획의 `InstanceType`과 일치해야 합니다. ## CLI를 사용하여 계획에서 훈련 작업 실행 다음 예제에서는 `create-training-job` AWS CLI 명령의 `TrainingPlanArn` 속성을 사용하여 SageMaker 훈련 작업을 생성하고 이를 제공된 훈련 계획과 연결하는 방법을 보여줍니다. AWS CLI [CreateTrainingJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html) 명령을 사용하여 훈련 작업을 생성하는 방법에 대한 자세한 내용은 섹션을 참조하세요[https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-training-job.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-training-job.html). ``` # Create a training job aws sagemaker create-training-job \ --training-job-name training-job-name \ ... --resource-config '{ "InstanceType": "ml.p5.48xlarge", "InstanceCount": 8, "VolumeSizeInGB": 10, "TrainingPlanArn": "training-plan-arn" } }' \ ... ``` 이 AWS CLI 예제 명령은 SageMaker AI에서 `--resource-config` 인수에 훈련 계획을 전달하는 새 훈련 작업을 생성합니다. ``` aws sagemaker create-training-job \ --training-job-name job-name \ --role-arn arn:aws:iam::111122223333:role/DataAndAPIAccessRole \ --algorithm-specification '{"TrainingInputMode": "File","TrainingImage": "111122223333.dkr.ecr.us-east-1.amazonaws.com/algo-image:tag", "ContainerArguments": [" "]}' \ --input-data-config '[{"ChannelName":"training","DataSource":{"S3DataSource":{"S3DataType":"S3Prefix","S3Uri":"s3://bucketname/input","S3DataDistributionType":"ShardedByS3Key"}}}]' \ --output-data-config '{"S3OutputPath": "s3://bucketname/output"}' \ --resource-config '{"VolumeSizeInGB":10,"InstanceCount":4,"InstanceType":"ml.p5.48xlarge", "TrainingPlanArn" : "arn:aws:sagemaker:us-east-1:111122223333:training-plan/plan-name"}' \ --stopping-condition '{"MaxRuntimeInSeconds": 1800}' \ --region us-east-1 ``` 훈련 작업을 생성한 후 `DescribeTrainingJob` API를 직접적으로 호출하여 훈련 계획에 제대로 할당되었는지 확인할 수 있습니다. ``` aws sagemaker describe-training-job --training-job-name training-job-name ``` ## SageMaker AI Python SDK를 사용하여 계획에서 훈련 작업 실행 다른 방법으로, [SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable/v2.html)를 사용하여 훈련 계획과 연결된 훈련 작업을 생성할 수 있습니다. Studio의 JupyterLab에서 SageMaker Python SDK를 사용하여 훈련 작업을 생성하는 경우 JupyterLab 애플리케이션을 실행하는 스페이스에서 사용하는 실행 역할에 SageMaker 훈련 계획을 사용하는 데 필요한 권한이 있어야 합니다. SageMaker 훈련 계획을 사용하는 데 필요한 권한에 대한 자세한 내용은 [SageMaker 훈련 계획용 IAM](training-plan-iam-permissions.md) 섹션을 참조하세요. 다음 예시에서는 SageMaker Python SDK를 사용할 때 `Estimator` 객체의 `training_plan` 속성을 사용하여 SageMaker 훈련 작업을 생성하고 제공된 훈련 계획과 연결하는 방법을 보여줍니다. SageMaker 예측기에 대한 자세한 내용은 [Use a SageMaker estimator to run a training job](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers-adapt-your-own-private-registry-estimator.html)을 참조하세요. ``` import sagemaker import boto3 from sagemaker import get_execution_role from sagemaker.estimator import Estimator from sagemaker.inputs import TrainingInput # Set up the session and SageMaker client session = boto3.Session() region = session.region_name sagemaker_session = session.client('sagemaker') # Get the execution role for the training job role = get_execution_role() # Define the input data configuration trainingInput = TrainingInput( s3_data='s3://input-path', distribution='ShardedByS3Key', s3_data_type='S3Prefix' ) estimator = Estimator( entry_point='train.py', image_uri="123456789123.dkr.ecr.{}.amazonaws.com/image:tag", role=role, instance_count=4, instance_type='ml.p5.48xlarge', training_plan="training-plan-arn", volume_size=20, max_run=3600, sagemaker_session=sagemaker_session, output_path="s3://output-path" ) # Create the training job estimator.fit(inputs=trainingInput, job_name=job_name) ``` 훈련 작업을 생성한 후 `DescribeTrainingJob` API를 직접적으로 호출하여 훈련 계획에 제대로 할당되었는지 확인할 수 있습니다. ``` # Check job details sagemaker_session.describe_training_job(TrainingJobName=job_name) ```