

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon SageMaker AI でモデルをデプロイして推論を取得するためのオプションを理解する
<a name="deploy-model-get-started"></a>

SageMaker AI で推論を始めるには、次のセクションを参照してください。SageMaker AI でモデルをデプロイし、推論を取得するための選択肢について説明しています。「[Amazon SageMaker AI の推論オプション](deploy-model-options.md)」セクションを参考にして、推論のユースケースに最適な機能を判断することができます。

トラブルシューティングや参考情報、使い始めるのに役立つブログや例、よく寄せられるよくある質問については、[リソース](inference-resources.md)セクションを参照してください。

**Topics**
+ [

## [開始する前に]
](#deploy-model-prereqs)
+ [

## モデルをデプロイするための手順
](#deploy-model-steps)
+ [

# Amazon SageMaker AI の推論オプション
](deploy-model-options.md)
+ [

# Amazon SageMaker AI を使用した推論用の高度なエンドポイントオプション
](deploy-model-advanced.md)
+ [

# Amazon SageMaker AI による推論の次のステップ
](deploy-model-next-steps.md)

## [開始する前に]
<a name="deploy-model-prereqs"></a>

これらのトピックは、1 つ以上の機械学習モデルを構築およびトレーニングし、それらのモデルをデプロイする準備ができていることを前提としています。SageMaker AI にモデルをデプロイして推論を得るために、SageMaker AI でモデルをトレーニングする必要はありません。独自のモデルがない場合は、SageMaker AI の[組み込みアルゴリズムまたは事前トレーニング済みモデル](https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html)を使用することもできます。

SageMaker AI を使用するのが初めてで、まだデプロイするモデルを決めていない場合は、「[Get Started with Amazon SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/gs.html)」チュートリアルの手順を一通り実行してください。このチュートリアルを通じて、SageMaker AI がデータサイエンスプロセスを管理する仕組みや、モデルデプロイを処理する仕組みを理解できます。モデルトレーニングの詳細については、「[モデルのトレーニング](https://docs.aws.amazon.com/sagemaker/latest/dg/train-model.html)」を参照してください。

追加情報、リファレンス、および例については、「[リソース](inference-resources.md)」を参照してください。

## モデルをデプロイするための手順
<a name="deploy-model-steps"></a>

推論エンドポイントの一般的なワークフローは以下のとおりです。
+ Amazon S3 に保存されているモデルアーティファクトとコンテナイメージを指定して、SageMaker AI Inference でモデルを作成します。
+ 推論オプションを選択します。詳細については、「[Amazon SageMaker AI の推論オプション](deploy-model-options.md)」を参照してください。
+ エンドポイントの背後に必要なインスタンスタイプとインスタンス数を選択して、SageMaker AI Inference エンドポイント設定を作成します。[Amazon SageMaker Inference Recommender](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html) を使用すると、インスタンスタイプに関する推奨事項を取得できます。サーバーレス推論の場合は、モデルサイズに基づいて必要なメモリ設定を指定するだけです。
+ SageMaker AI Inference エンドポイントを作成します。
+ エンドポイントを呼び出して、推論をレスポンスとして受け取ります。

次の図は、ここまでのワークフローを示しています。

![\[前の段落で説明したワークフロー。SageMaker AI から推論を取得する方法を示しています。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/inference-workflow-flowchart.png)


これらのアクションは、 AWS コンソール、 AWS SDKs、SageMaker Python SDK、 CloudFormation または を使用して実行できます AWS CLI。

バッチ変換によるバッチ推論の場合は、モデルアーティファクトと入力データを指定し、バッチ推論ジョブを作成します。SageMaker AI は、推論用のエンドポイントをホストする代わりに、選択した Amazon S3 の場所に推論結果を出力します。

# Amazon SageMaker AI の推論オプション
<a name="deploy-model-options"></a>

SageMaker AI は複数の推論オプションを提供しているため、ワークロードに最適なオプションを選択できます。
+ [リアルタイム推論](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html): **リアルタイム推論は、低レイテンシや高スループットが要求されるオンライン推論に最適です。リアルタイム推論は、選択したインスタンスタイプに基づいて持続的なトラフィックを処理できる、永続的でフルマネージド型のエンドポイント (REST API) に使用します。リアルタイム推論では、最大 25 MB のペイロードサイズと、通常のレスポンスの場合は 60 秒、ストリーミングレスポンスの場合は 8 分の処理時間をサポートできます。
+ [サーバーレス推論](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html): サーバーレス推論は**、断続的またはまれなトラフィックパターンを伴う処理に最適です。SageMaker AI は、基盤となるインフラストラクチャをすべて管理するため、インスタンスやスケーリングポリシーを管理する必要はありません。使用した分のみに課金され、アイドル時間に対する支払いはありません。サーバーレス推論は、最大 4 MB のペイロードサイズと最大 60 秒の処理時間のワークロードに対応できます。
+ [バッチ変換](https://docs.aws.amazon.com/sagemaker/latest/dg/batch-transform.html): バッチ変換は**、大量のデータが事前に利用可能で、永続的なエンドポイントが必要ない場合のオフライン処理に適しています。また、データセットの前処理にも使用できます。バッチ変換は、サイズが GB 単位で、処理時間が何日にも及ぶ大規模なデータセットにも対応できます。
+ [非同期推論](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html): 非同期推論は**、リクエストをキューに入れる必要がある推論、および大きなペイロードサイズや長時間の処理を要する推論に最適です。非同期推論は、最大 1 GB のペイロードと最大 1 時間の長い処理時間のワークロードに対応できます。処理するリクエストがない場合は、エンドポイントを 0 にスケールダウンすることもできます。

# Amazon SageMaker AI を使用した推論用の高度なエンドポイントオプション
<a name="deploy-model-advanced"></a>

リアルタイム推論では、以下の高度な推論オプションを使用してパフォーマンスとコストをさらに最適化できます。
+ [マルチモデルエンドポイント](multi-model-endpoints.md) – 同じフレームワークを使用するモデルが複数あり、コンテナを共有できる場合は、このオプションを使用します。このオプションは、エンドポイントの利用率を高め、デプロイのオーバーヘッドを減らすことでコストを最適化するのに役立ちます。
+ [マルチコンテナエンドポイント](multi-container-endpoints.md) – 複数のモデルで異なるフレームワークを使用していて、それぞれに独自のコンテナが必要な場合は、このオプションを使用します。マルチモデルエンドポイントの多くの利点を享受でき、さまざまなフレームワークやモデルをデプロイできます。
+ [シリアル推論パイプライン](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipelines.html) – 前処理と後処理のロジックが組み込まれたモデルをエンドポイントの背後でホストする場合は、このオプションを使用します。推論パイプラインは SageMaker AI によって完全に管理され、すべてのコンテナが同じ Amazon EC2 インスタンスでホストされるため、レイテンシーが低くなります。

# Amazon SageMaker AI による推論の次のステップ
<a name="deploy-model-next-steps"></a>

エンドポイントを用意し、一般的な推論ワークフローを理解したら、SageMaker AI の以下の機能を使用して推論ワークフローを改善させることができます。

## モニタリング
<a name="deploy-model-next-steps-monitoring"></a>

モデルの精度やドリフトなどの指標を使用してモデルを時系列的に追跡するには、Model Monitor を使用します。Model Monitor では、モデルの品質に偏差がある場合に通知するアラートを設定できます。詳細については、 [モデルモニタードキュメント](https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor.html)を参照してください。

モデルのデプロイおよびエンドポイントを変更するイベントの監視に使用できるツールの詳細については、「[Monitor Amazon SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-overview.html)」を参照してください。たとえば、Amazon CloudWatch メトリクスを使用して、呼び出しエラーやモデルレイテンシーなどのメトリクスによりエンドポイントの状態を監視できます。[SageMaker AI エンドポイント呼び出しメトリクス](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-endpoint-invocation)は、エンドポイントのパフォーマンスに関する貴重な情報を提供できます。

## モデルのデプロイのための CI/CD
<a name="deploy-model-next-steps-cicd"></a>

SageMaker AI の機械学習ソリューションをまとめるには、[SageMaker AI MLOps](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-projects.html) を使用します。この機能を使用すると、機械学習ワークフローのステップを自動化して、CI/CD を実践できます。[MLOps プロジェクトテンプレート](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-projects-templates.html)を使用すると、SageMaker AI MLOps プロジェクトのセットアップと実装に役立ちます。SageMaker AI では、CI/CD システムを作成するための独自の[サードパーティ Git リポジトリ](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-projects-walkthrough-3rdgit.html)を使用に対応しています。

ML パイプラインについては、[モデルレジストリ](https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry.html)を使用してモデルバージョンとモデルのデプロイと自動化を管理します。

## デプロイガードレール
<a name="deploy-model-next-steps-guardrails"></a>

本番環境に影響を与えずに本番稼働中にモデルを更新する場合、デプロイガードレールを使用できます。デプロイガードレールは、本番環境で機械学習モデルを更新するための SageMaker AI 推論の一連のモデルデプロイオプションです。このフルマネージドデプロイオプションを使うと、本番環境の現在のモデルから新しいモデルへの切り替えをコントロールできます。トラフィックシフトモードを使用すると、トラフィックシフトプロセスをきめ細かく制御できます。また、自動ロールバックなどの組み込みの保護機能により、問題を早期に発見できます。

デプロイガードレールの詳細については、[デプロイガードレールのドキュメント](https://docs.aws.amazon.com/sagemaker/latest/dg/deployment-guardrails.html)を参照してください。

## Inferentia
<a name="deploy-model-next-steps-inferentia"></a>

大規模な機械学習や深層学習のアプリケーションを実行する必要がある場合は、リアルタイムエンドポイントを備えた `Inf1` インスタンスを使用できます。このインスタンスタイプは、画像や音声の認識、自然言語処理 (NLP)、パーソナライゼーション、予測、不正検出などのユースケースに適しています。

`Inf1` インスタンスは、機械学習推論アプリケーションをサポートし、Inferentia チップを搭載するように構築されています。 AWS `Inf1`インスタンスは、GPU ベースのインスタンスよりもスループットが高く、推論あたりのコストが低くなります。

`Inf1` インスタンスにモデルをデプロイするには、SageMaker Neo でモデルをコンパイルし、デプロイオプションとして `Inf1` インスタンスを選択します。詳細については、「[Optimize model performance using SageMaker Neo (SageMaker Neo を使用してモデルのパフォーマンスを最適化する)](https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html)」を参照してください。

## モデルパフォーマンスの最適化
<a name="deploy-model-next-steps-optimize"></a>

SageMaker AI は、機械学習モデルを導入する際にリソースを管理し、推論性能を最適化する機能を提供します。SageMaker AI の[組み込みアルゴリズムおよび構築済みモデル](https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html)のほか、機械学習用に開発された構築済みの [Docker イメージ](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers-prebuilt.html)も使用できます。

モデルをトレーニングし、デプロイ用に最適化するには、「[Prebuilt Docker images](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers-prebuilt.html)」および「[Optimize model performance using SageMaker Neo](https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html)」を参照してください。SageMaker Neo では、TensorFlow、Apache MXNet、PyTorch、ONNX、XGBoost のモデルをトレーニングし、最適化して ARM、Intel、および Nvidia プロセッサ上にデプロイできます。

## 自動スケーリング
<a name="deploy-model-next-steps-autoscaling"></a>

エンドポイントへのトラフィックの量が変化する場合は、オートスケーリングを試してください。例えば、ピーク時には、リクエストを処理するためにインスタンス数を増やす必要がありますが、トラフィックが少ない時間帯には、コンピューティングリソースの使用を減らしたい場合が考えられます。ワークロードの変動に応じて、プロビジョニングされたインスタンスの数を動的に調整するには、[Amazon SageMaker AI モデルの自動スケーリング](endpoint-auto-scaling.md) を参照してください。

トラフィックパターンを予測できない場合や、スケーリングポリシーを設定しない場合は、エンドポイントに対してサーバーレス推論を使用することもできます。その場合は、SageMaker AI が自動スケーリングを管理します。SageMaker AI は、トラフィックが少ない期間にはエンドポイントをスケールダウンし、トラフィックが増加すると、エンドポイントをスケールアップします。詳細については、[Amazon SageMaker Serverless Inference を使用してモデルをデプロイする](serverless-endpoints.md) ドキュメントを参照してください。