翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker トレーニングジョブのトレーニングプラン使用率
トレーニングジョブを作成する際に、選択したプランを指定することにより、トレーニングジョブに SageMaker トレーニングプランを使用できます。
注記
トレーニングジョブで使用するトレーニングプランのステータスは Scheduled または Active である必要があります。
トレーニングジョブに必要なキャパシティがすぐに利用できない場合、ジョブはキャパシティが利用可能になるまで、または StoppingCondition が満たされるまで、あるいはジョブがキャパシティが確保されるまで 2 日間 Pending となるまで、いずれか早い方まで待機します。停止条件が満たされると、ジョブは停止します。ジョブが 2 日間保留中の場合、ジョブは InsufficientCapacityError となり、終了します。
重要
リザーブドキャパシティの終了プロセス: リザーブドキャパシティの終了時刻の 30 分前まで、すべてのリザーブドインスタンスにフルアクセスできます。リザーブドキャパシティの残り時間が 30 分になると、SageMaker トレーニングプランはそのリザーブドキャパシティー内で実行中のインスタンスを終了するプロセスを開始します。
これらの終了によって進行状況が失われないように、トレーニングジョブのチェックポイントを設定することをお勧めします。
トレーニングジョブにチェックポイントを作成する
SageMaker トレーニングジョブに SageMaker トレーニングプランを使用する場合は、トレーニングスクリプトにチェックポイントを実装します。これにより、リザーブドキャパシティの有効期限が切れる前にトレーニングの進行状況を保存できます。チェックポイントは、リザーブドキャパシティを使用する場合に特に重要です。これは、ジョブが 2 つのリザーブドキャパシティ間で中断された場合、またはトレーニングプランが終了日に達した場合に、最後に保存された時点からトレーニングを再開できるためです。
SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP 環境変数を使用して、この値を指定できます。この変数は、チェックポイントプロセスを開始するタイミングを決定するのに役立ちます。このロジックをトレーニングスクリプトに組み込むことで、モデルの進行状況が適切な間隔で保存されるようにします。
Python トレーニングスクリプトでこのチェックポイントロジックを実装する方法の例を次に示します。
import os import time from datetime import datetime, timedelta def is_close_to_expiration(threshold_minutes=30): # Retrieve the expiration timestamp from the environment variable expiration_time_str = os.environ.get('SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP', '0') # If the timestamp is not set (default '0'), return False if expiration_time_str == '0': return False # Convert the timestamp string (in milliseconds) to a datetime object expiration_time = datetime(1970, 1, 1) + timedelta(milliseconds=int(expiration_time_str)) # Calculate the time difference between now and the expiration time time_difference = expiration_time - datetime.now() # Return True if we're within the threshold time of expiration return time_difference < timedelta(minutes=threshold_minutes) def start_checkpointing(): # Placeholder function for checkpointing logic print("Starting checkpointing process...") # TODO: Implement actual checkpointing logic here # For example: # - Save model state # - Save optimizer state # - Save current epoch and iteration numbers # - Save any other relevant training state # Main training loop num_epochs = 100 final_checkpointing_done = False for epoch in range(num_epochs): # TODO: Replace this with your actual training code # For example: # - Load a batch of data # - Forward pass # - Calculate loss # - Backward pass # - Update model parameters # Check if we're close to capacity expiration and haven't done final checkpointing if not final_checkpointing_done and is_close_to_expiration(): start_checkpointing() final_checkpointing_done = True # Simulate some training time (remove this in actual implementation) time.sleep(1) print("Training completed.")
注記
-
トレーニングジョブのプロビジョニングは先入れ先出し (FIFO) の順序に従いますが、大規模なジョブを実行できない場合は、先に作成された大規模なクラスタージョブよりも前に、後で作成された小規模なクラスタージョブにキャパシティが割り当てられる場合があります。
-
SageMaker トレーニングのマネージドウォームプールは、SageMaker トレーニングプランと互換性があります。クラスターを再利用するには、同じクラスターを再利用するために、後続の
CreateTrainingJobリクエストで同一のTrainingPlanArn値を指定する必要があります。