SageMaker トレーニングジョブでのトレーニングプランの使用

トレーニングジョブを作成する際に、選択したプランを指定することにより、トレーニングジョブに SageMaker トレーニングプランを使用できます。

注記

トレーニングジョブで使用するトレーニングプランのステータスは Scheduled または Active である必要があります。

トレーニングジョブに必要なキャパシティがすぐに利用できない場合、ジョブはキャパシティが利用可能になるまで、または StoppingCondition が満たされるまで、あるいはジョブがキャパシティが確保されるまで 2 日間 Pending となるまで、いずれか早い方まで待機します。停止条件が満たされると、ジョブは停止します。ジョブが 2 日間保留中の場合、ジョブは InsufficientCapacityError となり、終了します。

重要

リザーブドキャパシティの終了プロセス: リザーブドキャパシティの終了時刻の 30 分前まで、すべてのリザーブドインスタンスにフルアクセスできます。リザーブドキャパシティの残り時間が 30 分になると、SageMaker トレーニングプランはそのリザーブドキャパシティー内で実行中のインスタンスを終了するプロセスを開始します。

これらの終了によって進行状況が失われないように、トレーニングジョブのチェックポイントを設定することをお勧めします。

トレーニングジョブにチェックポイントを作成する

SageMaker トレーニングジョブに SageMaker トレーニングプランを使用する場合は、トレーニングスクリプトにチェックポイントを実装します。これにより、リザーブドキャパシティの有効期限が切れる前にトレーニングの進行状況を保存できます。チェックポイントは、リザーブドキャパシティを使用する場合に特に重要です。これは、ジョブが 2 つのリザーブドキャパシティ間で中断された場合、またはトレーニングプランが終了日に達した場合に、最後に保存された時点からトレーニングを再開できるためです。

SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP 環境変数を使用して、この値を指定できます。この変数は、チェックポイントプロセスを開始するタイミングを決定するのに役立ちます。このロジックをトレーニングスクリプトに組み込むことで、モデルの進行状況が適切な間隔で保存されるようにします。

Python トレーニングスクリプトでこのチェックポイントロジックを実装する方法の例を次に示します。


import os
import time
from datetime import datetime, timedelta

def is_close_to_expiration(threshold_minutes=30):
    # Retrieve the expiration timestamp from the environment variable
    expiration_time_str = os.environ.get('SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP', '0')
    
    # If the timestamp is not set (default '0'), return False
    if expiration_time_str == '0':
        return False
    
    # Convert the timestamp string (in milliseconds) to a datetime object
    expiration_time = datetime(1970, 1, 1) + timedelta(milliseconds=int(expiration_time_str))
    
    # Calculate the time difference between now and the expiration time
    time_difference = expiration_time - datetime.now()
    
    # Return True if we're within the threshold time of expiration
    return time_difference < timedelta(minutes=threshold_minutes)

def start_checkpointing():
    # Placeholder function for checkpointing logic
    print("Starting checkpointing process...")
    # TODO: Implement actual checkpointing logic here
    # For example:
    # - Save model state
    # - Save optimizer state
    # - Save current epoch and iteration numbers
    # - Save any other relevant training state

# Main training loop
num_epochs = 100
final_checkpointing_done = False
for epoch in range(num_epochs):
    # TODO: Replace this with your actual training code
    # For example:
    # - Load a batch of data
    # - Forward pass
    # - Calculate loss
    # - Backward pass
    # - Update model parameters
    
    # Check if we're close to capacity expiration and haven't done final checkpointing
    if not final_checkpointing_done and is_close_to_expiration():
        start_checkpointing()
        final_checkpointing_done = True
    
    # Simulate some training time (remove this in actual implementation)
    time.sleep(1)
print("Training completed.")

注記

トレーニングジョブのプロビジョニングは先入れ先出し (FIFO) の順序に従いますが、大規模なジョブを実行できない場合は、先に作成された大規模なクラスタージョブよりも前に、後で作成された小規模なクラスタージョブにキャパシティが割り当てられる場合があります。
SageMaker トレーニングのマネージドウォームプールは、SageMaker トレーニングプランと互換性があります。クラスターを再利用するには、同じクラスターを再利用するために、後続の CreateTrainingJob リクエストで同一の TrainingPlanArn 値を指定する必要があります。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

拡張履歴の表示

コンソール UI を使用してトレーニングジョブを作成する