翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon SageMaker でモデルをトレーニングする
<a name="how-it-works-training"></a>

Amazon SageMaker Training は、SageMaker が提供するフルマネージド機械学習 (ML) サービスであり、さまざまな ML モデルを大規模かつ効率的にトレーニングするのに役立ちます。SageMaker AI ジョブの中核は、ML ワークロードのコンテナ化と AWS コンピューティングリソースを管理する機能です。SageMaker Training プラットフォームは、ML トレーニングワークロードのインフラストラクチャのセットアップと管理に関連する負荷の大きい作業に対応します。SageMaker Training を使用すると、モデルの開発、トレーニング、ファインチューニングに集中できます。このページでは、SageMaker でモデルのトレーニングを開始するための 3 つの推奨方法を紹介し、次に検討できる追加のオプションを紹介します。

**ヒント**  
生成 AI の基盤モデルのトレーニングに関する詳細については、「[Amazon SageMaker Studio での SageMaker JumpStart 基盤モデルの使用](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-use-studio-updated.html)」を参照してください。

## Amazon SageMaker Training 内の機能の選択
<a name="choose-a-feature-of-sagemaker-training"></a>

SageMaker AI 内で ML モデルをトレーニングする主なユースケースは、3 つあります。このセクションでは、これらのユースケースと、ユースケースごとに推奨される SageMaker AI の機能について説明します。

複雑な深層学習モデルをトレーニングする場合も、より小さな機械学習アルゴリズムを実装する場合も、SageMaker Training は、ユースケースの要件を満たす合理化されたコスト効率の高いソリューションを提供します。

### ユースケース
<a name="choose-use-cases-sagemaker-training"></a>

SageMaker AI 内で ML モデルをトレーニングする主なユースケースを次に示します。
+ **ユースケース 1**: ローコード環境またはノーコード環境で機械学習モデルを開発する。
+ **ユースケース 2**: コードを使用して、柔軟性と制御性に優れた機械学習モデルを開発する。
+ **ユースケース 3**: 最大限の柔軟性と制御を備えた大規模な機械学習モデルを開発する。

### 推奨機能
<a name="choose-recommended-features-of-sagemaker-training"></a>

次の表は、ML モデルのトレーニングにおける 3 つの一般的なシナリオと、SageMaker Training の利用を開始するにあたっての対応するオプションを示しています。


| Descriptor | ユースケース 1 | ユースケース 2 | ユースケース 3 | 
| --- | --- | --- | --- | 
| SageMaker AI の機能 | [Amazon SageMaker Canvas を使用してモデルを構築します](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)。 | [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html#xgboost-modes) や [Task-Specific Models by SageMaker JumpStart](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-models.html) などの [SageMaker AI 組み込み ML アルゴリズム](https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html)のいずれかを SageMaker Python SDK とともに使用して、モデルをトレーニングします。 | SageMaker AI の[スクリプトモード](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-script-mode/sagemaker-script-mode.html)または[カスタムコンテナ](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers-adapt-your-own.html)を活用して、最大限の柔軟性でモデルを大規模にトレーニングします。 | 
| 説明 | 独自のデータを使用します。SageMaker AI は、ML モデルの構築、およびトレーニングインフラストラクチャとリソースのセットアップの管理に役立ちます。 |  独自のデータを使用し、SageMaker AI が提供する組み込み ML アルゴリズムのいずれかを選択します。SageMaker Python SDK を使用して、モデルのハイパーパラメータ、出力メトリクス、基本的なインフラストラクチャ設定をセットアップします。SageMaker Training プラットフォームは、トレーニングインフラストラクチャとリソースのプロビジョニングに役立ちます。  |  独自の ML コードを開発し、1 つのスクリプトまたは一連のスクリプトとして SageMaker AI に持ち込みます。詳細については、「[SageMaker による分散コンピューティングのベストプラクティス](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-training-options.html#distributed-training-options-2)」を参照してください。さらに、[独自の Docker コンテナを持ち込む](https://docs.aws.amazon.com/sagemaker/latest/dg/adapt-training-container.html#byoc-training-step2)こともできます。SageMaker Training プラットフォームは、カスタム設定に基づいて、トレーニングインフラストラクチャとリソースを大規模にプロビジョニングするのに役立ちます。  | 
| 最適化の対象 |  トレーニングデータセットを使用した迅速な実験による、ローコード/ノーコードおよび UI 主導型のモデル開発。[カスタムモデルを構築する](canvas-build-model.md)と、データに基づいてアルゴリズムが自動的に選択されます。アルゴリズムの選択などの高度なカスタマイズオプションについては、「[Advanced model building configurations](canvas-advanced-settings.md)」を参照してください。  |  ハイパーパラメータ、インフラストラクチャ設定、ML フレームワークとエントリポイントスクリプトを直接使用して柔軟性を高める機能について、高度なカスタマイズを使用して ML モデルをトレーニングします。[Amazon SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable) を使用し、組み込みアルゴリズム、事前トレーニング済みモデル、JumpStart モデルを使用して ML モデルを開発します。詳細については、「[Low-code deployment with the JumpStart class](https://sagemaker.readthedocs.io/en/stable/overview.html#low-code-deployment-with-the-jumpstartmodel-class)」を参照してください。  |  複数のインスタンスと最大限の柔軟性を必要とする、大規模な ML トレーニングワークロード。「[SageMaker による分散コンピューティングのベストプラクティス](distributed-training-options.md)」を参照してください。SageMaker AI は Docker イメージを使用して、すべてのモデルのトレーニングとサービスをホストします。SageMaker AI または外部のアルゴリズムを使用し、[Docker コンテナを使用してモデルを構築](docker-containers.md)できます。  | 
| 考慮事項 |  Amazon SageMaker Canvas が提供するモデルをカスタマイズする柔軟性は最小限です。  |  SageMaker Python SDK が提供するインターフェイスは、詳細な設定が可能な SageMaker Training API と比較して、簡素化されており、設定オプションが少なくなります。  |   AWS インフラストラクチャと分散トレーニングオプションに関する知識が必要です。[SageMaker Training ツールキット](https://docs.aws.amazon.com/sagemaker/latest/dg/amazon-sagemaker-toolkits.html)を使用した「[Create your own training container](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html)」も参照してください。  | 
| 推奨環境 | [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html#canvas-prerequisites) を使用します。セットアップ方法については、「[SageMaker Canvas の開始方法](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html)」を参照してください。 | [Amazon SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html) 内で [SageMaker AI JupyterLab](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-jl.html) を使用します。セットアップ方法については、「[Amazon SageMaker Studio を起動する](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html)」を参照してください。 | [Amazon SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html) 内で [SageMaker JupyterLab](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-jl.html) を使用します。セットアップ方法については、「[Amazon SageMaker Studio を起動する](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html)」を参照してください。 | 

## 追加オプション
<a name="choose-additional-options-for-sagemaker-training"></a>

SageMaker AI では、ML モデルをトレーニングするための以下の追加オプションが用意されています。

**トレーニング機能を提供する SageMaker AI の機能**
+ **[SageMaker JumpStart](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html)**: SageMaker JumpStart では、一般公開されている最新の独自開発の基盤モデル (FM) を含む SageMaker AI パブリックモデルハブにアクセスできます。これらのモデルを Amazon SageMaker Studio 内でファインチューニング、評価、デプロイできます。SageMaker JumpStart は、生成 AI ユースケース向けに基盤モデルを活用するプロセスを合理化し、ガバナンスガードレールを適用し、組織が承認されたモデルにのみアクセスできるようにしながら、基盤モデルを使用するプライベートモデルハブを作成できます。SageMaker JumpStart の使用を開始するには、「[SageMaker JumpStart Foundation Models](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models.html)」を参照してください。
+ **[SageMaker HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod.html)**: SageMaker HyperPod は、大規模な機械学習 (ML) ワークロードや最先端の基盤モデル (FM) 用に回復力のあるクラスターを必要とするユースケース向けの永続クラスターサービスです。 AWS Trainium や NVIDIA A100 や H100 Graphical Processing Units (GPUs。 H100 Slurm on HyperPod などのワークロードマネージャーソフトウェアを使用できます。

**SageMaker Training のその他の機能**
+ **[ハイパーパラメータチューニング](https://docs.aws.amazon.com/sagemaker/latest/dg/automatic-model-tuning.html)**: この SageMaker AI 機能を利用すると、モデルのハイパーパラメータのセットを定義し、1 つのデータセットで多くのトレーニングジョブを起動できます。ハイパーパラメータ値によっては、モデルトレーニングのパフォーマンスが異なる場合があります。この機能は、検索するように設定した特定のハイパーパラメータの範囲内で、最高のパフォーマンスのハイパーパラメータのセットを提供します。
+ **[分散トレーニング](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-training.html)**: PyTorch、NVIDIA CUDA、その他の PyTorch ベースのフレームワークで構築された FM を、事前トレーニングまたはファインチューニングします。GPU インスタンスを効率的に活用するには、SageMaker AI 分散トレーニングライブラリを使用します。このライブラリは、一括通信オペレーションと、 AWS インフラストラクチャに最適化されたエキスパート並列処理や共有データ並列処理などのさまざまなモデル並列処理手法を提供します。
+ **オブザーバビリティ機能**: SageMaker Training のプロファイリングおよびデバッグ機能を使用して、モデルトレーニングワークロード、モデルパフォーマンス、リソース使用率に関するインサイトを取得します。詳細については、「[Debug and improve model performance](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debug-and-improve-model-performance.html)」および「[Profile and optimize computational performance](https://docs.aws.amazon.com/sagemaker/latest/dg/train-profile-computational-performance.html)」を参照してください。
+ **コスト削減と効率的なインスタンスのオプション**: トレーニングインスタンスのプロビジョニングにおけるコンピューティングコストと効率を最適化するには、[異種クラスター](https://docs.aws.amazon.com/sagemaker/latest/dg/train-heterogeneous-cluster.html)、[マネージドスポットインスタンス](https://docs.aws.amazon.com/sagemaker/latest/dg/model-managed-spot-training.html)、[マネージドウォームプール](https://docs.aws.amazon.com/sagemaker/latest/dg/train-warm-pools.html)を使用します。