

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon SageMaker AI でのマネージドスポットトレーニング
<a name="model-managed-spot-training"></a>

Amazon SageMaker AI では、マネージド型の Amazon EC2 スポットインスタンスを使用して機械学習モデルを簡単にトレーニングできます。マネージド型のスポットトレーニングでは、オンデマンドインスタンスと比較して、トレーニングモデルのコストを最大 90% 抑えることができます。SageMaker AI は、ユーザーに代わって、スポットの中断を管理します。

マネージドスポットトレーニングでは、オンデマンドインスタンスではなく Amazon EC2 スポットインスタンスを使用してトレーニングジョブを実行します。スポットインスタンスを使用するトレーニングジョブと、Amazon EC2 スポットインスタンスを使用して SageMaker AI がジョブの実行を待機する時間を指定する停止条件を指定できます。トレーニングの実行中に生成されたメトリクスとログは、CloudWatch にあります。

Amazon SageMaker AI の自動モデルチューニング (ハイパーパラメータチューニングとも呼ばれる) にはマネージドスポットトレーニングを使用できます。自動モデルチューニングの詳細については、「[SageMaker AI の自動モデルチューニング](automatic-model-tuning.md)」を参照してください。

スポットインスタンスは中断されることがあります。その場合、ジョブの開始または終了に時間がかかる場合があります。チェックポイントを使用するように、マネージドスポットトレーニングジョブを設定できます。SageMaker AI は、チェックポイントデータをローカルパスから Amazon S3 にコピーします。ジョブが再開されると、SageMaker AI は、Amazon S3 からローカルパスにデータを再度コピーします。その結果、トレーニングジョブは最初からではなく、最後のチェックポイントから再開できます。チェックポイントの詳細については、[Amazon SageMaker AI のチェックポイント](model-checkpoints.md)を参照してください。

**注記**  
トレーニングジョブがすぐに完了しない限り、マネージド型のスポットトレーニングでチェックポイントを使用することをお勧めします。チェックポイントを使用しない SageMaker AI 組み込みアルゴリズムおよびマーケットプレイスアルゴリズムは、現在 3,600 秒 (60 分) の `MaxWaitTimeInSeconds` に制限されています。

マネージド型スポットトレーニングを使用するには、トレーニングジョブを作成します。`EnableManagedSpotTraining` を `True` に設定し、`MaxWaitTimeInSeconds` を指定します。`MaxWaitTimeInSeconds` は、`MaxRuntimeInSeconds` より大きい値にする必要があります。トレーニングジョブの作成の詳細については、「[DescribeTrainingJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html)」を参照してください。

削減率を計算するには、式 `(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100` を使用して、マネージド型スポットトレーニングを使用します。例えば、`BillableTimeInSeconds` が 100 で `TrainingTimeInSeconds` が 500 の場合、トレーニングジョブは 500 秒間実行されたが、請求されたのは 100 秒だけであることを意味します。節約できたのは、(1 - (100/500)) \* 100 = 80% です。

Amazon SageMaker AI スポットインスタンスでトレーニングジョブを実行する方法、マネージドスポットトレーニングの仕組み、請求対象時間を短縮する方法については、次のサンプルノートブックを参照してください。
+ [TensorFlow を使ったマネージドスポットトレーニング](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-python-sdk/managed_spot_training_tensorflow_estimator/managed_spot_training_tensorflow_estimator.html)
+ [PyTorch を使ったマネージドスポットトレーニング](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training/blob/main/pytorch_managed_spot_training_checkpointing/pytorch_managed_spot_training_checkpointing.ipynb)
+ [XGBoost を使ったマネージドスポットトレーニング](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/xgboost_abalone/xgboost_managed_spot_training.html)
+ [MXNet を使ったマネージドスポットトレーニング](https://github.com/aws/amazon-sagemaker-examples-community/blob/215215eb25b40eadaf126d055dbb718a245d7603/training/sagemaker-debugger/mxnet-spot-training-with-sagemakerdebugger.ipynb#L41)
+ [Amazon SageMaker AI マネージドスポットトレーニングの例 (GitHub リポジトリ)](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training)