View a markdown version of this page

トレーニングジョブまたは HyperPod クラスターのトレーニングプランを予約する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トレーニングジョブまたは HyperPod クラスターのトレーニングプランを予約する

Amazon SageMaker トレーニングプランは、大規模な AI モデルトレーニングワークロードで GPU キャパシティを予約して最大限に活用できる機能です。この機能により、最新の NVIDIA GPU テクノロジーや AWS Trainium チップなど、GPU アクセラレーションコンピューティングのさまざまなオプションをカバーする、人気の高いインスタンスタイプにアクセスできます。SageMaker トレーニングプランを使用すると、基盤となるインフラストラクチャを管理する必要なく、指定したタイムラインと予算内でこれらの需要が高く高パフォーマンスなコンピューティングリソースへの予測可能なアクセスを確保できます。このような柔軟性は、ミッションクリティカルな AI ワークロード向けにオーバーサブスクライブしたコンピューティングインスタンスを取得してスケジュールするという課題を抱える組織にとって、特に価値があります。

SageMaker トレーニングプランとは

SageMaker トレーニング プランを使用すると、SageMaker トレーニングジョブや SageMaker HyperPod クラスターなど、ターゲットリソースのニーズに合わせてコンピューティングキャパシティを予約できます。このサービスは、予約、高速コンピューティングリソースのプロビジョニング、インフラストラクチャのセットアップ、ワークロードの実行、インフラストラクチャの障害からの復旧を自動的に処理します。

SageMaker トレーニングプランは、単一または複数のリザーブドキャパシティブロックで構成され、それぞれ次のパラメータで定義されます。

  • 特定のインスタンスタイプ

  • インスタンスの数

  • アベイラビリティーゾーン (AZ)

  • 時間

  • 開始時刻と終了時刻

注記
  • トレーニングプランはターゲットリソース (SageMaker トレーニングジョブまたは SageMaker HyperPod) に固有であり、置き換えることはできません。

  • 単一のトレーニングプラン内の複数のリザーブドキャパシティブロックは不連続になる場合があります。つまり、リザーブドキャパシティブロック間でギャップが生じる可能性があります。

SageMaker トレーニングプランの利点

SageMaker トレーニングプランには、次の利点があります。

  • 予測可能なアクセス: 指定された期間で機械学習ワークロードの GPU キャパシティを予約できます。

  • コスト管理: 大規模なトレーニング要件の計画と予算を事前に策定できます。

  • 自動リソース管理: SageMaker トレーニングプランは、インフラストラクチャのプロビジョニングと管理を処理します。

  • 柔軟性: SageMaker トレーニングジョブや SageMaker HyperPod クラスターなど、さまざまなリソースのトレーニングプランを策定できます。

  • 耐障害性: SageMaker AI トレーニングジョブのインフラストラクチャ障害からの自動復旧とアベイラビリティーゾーン間のワークロード移行の利点が得られます。

SageMaker トレーニングプランの事前予約と柔軟な開始時刻

SageMaker トレーニングプランでは、柔軟な開始時刻と期間で、コンピューティングキャパシティを事前に予約できます。

  • 事前予約: トレーニングプランは、開始日の 8 週間 (56 日) 前に予約できます。

  • 最小リードタイム: SageMaker トレーニングプランの提供内容は、予約後 30 分以内に開始できます。ただし、空き状況によっては開始できない場合もあります。

    注記

    30 分以内にアクセス可能なプランを検索して購入できます。タイムリーなアクティベーションを確実に行うには、希望する開始時刻の少なくとも 5 分前に支払いトランザクションが正常に完了している必要があります。例えば、プランを午後 2 時に開始する場合は、直前検索を午後 1 時 30 分までに行い、午後 1 時 55 分までに購入を完了して、プランの準備が午後 2 時までに完了するようにします。

  • 予約期間とインスタンス数: SageMaker トレーニングプランでは、特定の期間と数のオプションを使用してインスタンスを予約できます。特定の、期間 AWS リージョン、数量オプションで使用可能なインスタンスタイプについては、「」を参照してくださいサポートされているインスタンスタイプ AWS リージョン、および料金

  • 終了時刻: トレーニングプランは常に予約の最終日の午前 11:30 UTC に終了します。

  • トレーニングプランの終了: トレーニングジョブをターゲットリソースとして使用していて、リザーブドキャパシティが 30 分残っている場合、SageMaker トレーニングプランは、次のリザーブドキャパシティがアクティブになるまで、そのブロック内で実行中のインスタンスを終了するプロセスを開始します。トレーニングプランへのフルアクセスは、最後のリザーブドキャパシティブロックの終了時刻の 30 分前まで保持されます。

    ターゲットリソースが SageMaker HyperPod クラスターの場合、この制限時間は 1 時間です。

SageMaker トレーニングプランのユーザーワークフロー

SageMaker トレーニングプランは、次の手順で進みます。

管理者の手順:

  1. 検索とレビュー: インスタンスタイプ、カウント、開始時刻、期間など、コンピューティング要件に合った利用可能なプランの提供内容を検索します。

  2. プランを作成する: 選択したプラン提供内容の ID を使用して、ニーズに合ったトレーニングプランを予約します。

  3. 支払いとスケジューリング: 前払いが正常に完了すると、プランのステータスは Scheduled になります。

プランのユーザー/ML エンジニアの手順:

  1. リソース割り当て: プランを使用して、SageMaker AI トレーニングジョブをキューに入れるか、SageMaker HyperPod クラスターインスタンスグループに割り当てます。

  2. アクティベーション: プラン開始日になると、Active になります。利用可能なリザーブドキャパシティに基づいて、SageMaker トレーニングプランはトレーニングジョブを自動的に起動するか、インスタンスグループをプロビジョンします。

注記

トレーニングプランのステータスは、リザーブドキャパシティ期間の開始時に Scheduled から Active に移行し、次のリザーブドキャパシティ期間の開始時に Scheduled に戻ります。

次の図は、SageMaker トレーニングプランがさまざまな target resources とやり取りする方法についての包括的な概要を示しており、プランのライフサイクルと、SageMaker トレーニングジョブと SageMaker HyperPod クラスターの両方に対するリソース割り当てにおける役割を説明しています。

  • SageMaker トレーニングジョブのトレーニングプラン: 最初の図は、トレーニングプランと SageMaker トレーニングジョブ間のやり取りのエンドツーエンドのワークフローを示しています。

    請求、トレーニングプランでのキャパシティ予約、SageMaker トレーニングジョブ トレーニングプランのライフサイクルと、管理者および ML エンジニアが管理するトレーニングジョブの状態の説明図
  • SageMaker HyperPod クラスターのトレーニングプラン: 2 番目の図は、トレーニングプランと SageMaker HyperPod インスタンスグループ間のインタラクションのエンドツーエンドのワークフローを説明しています。

    課金、トレーニングプランでのキャパシティ予約、インスタンスグループ管理のワークフロー 管理者と ML エンジニアが管理するトレーニングプランのライフサイクルとインスタンスグループの状態の説明図

サポートされているインスタンスタイプ AWS リージョン、および料金

トレーニングプランでは、以下の特定の高パフォーマンスインスタンスタイプの予約がサポートされています。各インスタンスタイプは、以下の一部の AWS リージョンで利用できます。

  • ml.p4d.24xlarge

  • ml.p5.48xlarge

  • ml.p5e.48xlarge

  • ml.p5en.48xlarge

  • ml.trn1.32xlarge

  • ml.trn2.48xlarge

  • ml.p6-b200.48xlarge

  • ml.c6i-32xlargesc

UltraServer

  • ml.p6e-gb200.36xlarge

  • ml.p6e-gb200.72xlarge

注記

インスタンスタイプの可用性は、時間の経過とともに変化する可能性があります。リージョンごとに利用可能なインスタンスタイプとそれぞれの料金の最新情報については、「SageMaker の料金」を参照してください。[オンデマンド料金][Amazon SageMaker HyperPod フレキシブルなトレーニングプラン] セクションまで下にスクロールします。リージョンを選択すると、使用可能なインスタンスタイプのリストが表示されます。

複数のリージョンにわたる可用性により、データレジデンシー要件や他の AWS サービスへの近接性などの要素を考慮して、ワークロードに最適な場所を選択できます。

重要
  • SageMaker トレーニングプランを使用すると、次の予約期間とインスタンス数量オプションでインスタンスを予約できます。

    • 予約期間は 1~182 日間で 1 日単位で利用できます。

    • 予約インスタンスの数量オプションは、1、2、4、8、16、32、64 です。

  • トレーニングジョブまたは HyperPod サービスのクォータで、プランで指定されているインスタンスの数を超えるインスタンスタイプあたりの最大インスタンス数が許可されていることを確認します。現在のクォータを表示したり、クォータの引き上げをリクエストしたりするには、「AWS マネジメントコンソールを使用して SageMaker トレーニングプランのクォータを表示する」を参照してください。

SageMaker AI での UltraServer

SageMaker AI での UltraServer は、高帯域幅のネットワークドメインを介して相互接続されたインスタンスのセットを提供します。例えば、P6e-GB200 UltraServer は、単一の NVIDIA NVLink ドメインに最大 18 個の p6e-gb200.36xlarge インスタンスを接続します。インスタンスあたり 4 つの NVIDIA Blackwell GPU を搭載し、各 P6e-GB200 UltraServer は 72 個の GPU をサポートするため、SageMaker AI で最大規模の AI ワークロードを高パフォーマンスで実行できます。

SageMaker AI で UltraServers を使用すると、SageMaker AI のマネージドインフラストラクチャ、組み込みの障害耐性機能、統合モニタリング機能、他の SageMaker AI および AWS サービスとのネイティブ統合とパフォーマンスが組み合わされます。この統合により、SageMaker AI が AI インフラストラクチャの管理という差別化につながらない作業を処理できるので、ユーザーはモデルの開発とデプロイに集中できます。

注記

UltraServer は、米国東部 (バージニア北部) リージョンの拡張であるダラスローカルゾーン (us-east-1-dfw-2a) でのみ使用できます。詳細については、「 の開始方法」を参照してください AWS ローカルゾーン。

考慮事項

SageMaker AI で UltraServer を使用する場合は、次の点を考慮する必要があります。

  • UltraServer は、SageMaker HyperPodジョブと SageMaker トレーニングジョブの両方で使用できます。

  • UltraServer はフルユニットでのみ購入できます。インスタンスと料金情報の詳細については、「Amazon SageMaker AI の料金」の「Amazon SageMaker HyperPod のフレキシブルなトレーニングプラン」を参照してください。

  • HyperPod で UltraServer を使用している場合、HyperPod はリソースの割り当てに役立つトポロジーラベルを自動的にリソースに追加します。詳細については、「Amazon SageMaker HyperPod でのトポロジー認識スケジューリングの使用」を参照してください。

  • SageMaker AI と UltraServer は、プリエンプティブチェックや自動障害検出と軽減など、ワークロードの耐障害性を強化するさまざまな機能を提供しています。問題に応じて、SageMaker AI は、インスタンスの再起動、障害が発生したインスタンスのスペア交換、障害が発生した UltraServer の交換など、ワークロードを復旧するためのアクションを実行できます。

  • 耐障害性を高めるために、UltraServer 内のインスタンスをスペアとして使用するように設定できます。UltraServer 内にスペアインスタンスを保持すると、SageMaker AI はジョブへの影響を最小限に抑えながら、インスタンスの障害に迅速に対応できます。UltraServer ごとに 1 つのスペアインスタンスを保持することをお勧めします。スペアインスタンスの予約は必須ではありませんが、スペアインスタンスがないと、サポートオプションが限定され、障害からの復旧が遅くなる可能性があります。UltraServer はまとめて購入するため、予約するスペアの数は料金に影響しません。

  • UltraServer 内のステータスとインスタンスを確認するには、ListTrainingPlans API オペレーションまたは AWS コンソールを使用してトレーニングプランを表示します。これらのツールを使用すると、使用可能なインスタンス、現在使用中のインスタンス、異常なインスタンス、設定されたスペアの数、その他の情報の合計数を確認できます。ヘルスステータスには、okimpairedinsufficient-data があります。

SageMaker トレーニングプランの検索動作

トレーニングプランの提供内容を検索する場合、SageMaker トレーニングプランは、需要が高くリザーブドキャパシティブロックが不足している場合でも、ユーザーのリソースの可用性と柔軟性を最大限に高めるために、以下のアプローチを使用します。

  • 最初の継続的検索: SageMaker トレーニングプランは最初に、ターゲットリソース、リクエストされたインスタンスタイプ、インスタンス数など、指定された他のすべての基準を満たしながら、開始日から終了日までの範囲内で指定された期間に一致する、リザーブドキャパシティの単一の連続ブロックを探します。

  • 2 ブロック検索: すべての条件を満たす 1 つの連続リザーブドキャパシティブロックが使用できない場合、SageMaker トレーニングプランは「キャパシティなし」の結果を返すことはありません。代わりに、2 つの異なるリザーブドキャパシティブロックを使用してリクエストを自動的に処理し、合計期間を 2 つの時間セグメントに分割します。

    この 2 ブロック アプローチにより、リソース割り当ての柔軟性が向上し、この方法でななければ利用できない需要の高いインスタンスを確保できる可能性を生み出します。

注記

SageMaker トレーニングプランは、1 つまたは 2 つのセグメントの提供内容を最大 3 つ返します。例えば、48 時間の期間プランの場合、SageMaker トレーニングプランは、2 つの 24 時間ブロック、1 つの連続 48 時間ブロック、2 つの不均等な期間を持つプランを提供する場合があります。

考慮事項

重要
  • 購入後にトレーニングプランを変更することはできません。

  • トレーニングプランは、 AWS アカウント間または組織内で AWS 共有することはできません。

  • トレーニングプランの提供内容を検索する場合、SageMaker トレーニングプランは target resources に基づいて検索戦略を調整します。

    SageMaker HyperPod クラスター:

    • 提供内容は単一のアベイラビリティーゾーン (AZ) に制限されます。

    • これにより、クラスター内での一貫したネットワークパフォーマンスとデータローカル性が確保されます。

    SageMaker トレーニングジョブ:

    • 提供内容は、複数のアベイラビリティーゾーンにまたがることができます。

    • これは特に、プランの提供内容に複数の不連続なリザーブドキャパシティが含まれている場合に当てはまります。

    • 例えば、あるリザーブドキャパシティブロックの AZ-A のキャパシティと、別のリザーブドキャパシティブロックの AZ-B のキャパシティをプランに含めることができます。SageMaker トレーニングプランは、リソースの可用性に基づいて、アベイラビリティーゾーン (AZ) 間でワークロードを自動的に移動できます。

      トレーニングジョブに対するこのマルチ AZ アプローチにより、リソース割り当ての柔軟性が向上し、ワークロードに適したキャパシティが見つかる可能性が高まります。ただし、ジョブは予約期間のさまざまな部分で異なる AZ で実行される可能性があることに注意が必要です。

  • 2 ブロックの提供内容が提示される場合、ユーザーはこの分割配分がワークロード要件を満たしているかどうかを慎重に検討する必要があります。この場合、予約の非連続的な特質に対応するために、ジョブのスケジュールまたはワークロードの分散の調整が必要になる場合があります。