翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# モデルホスティングに関するよくある質問
<a name="hosting-faqs"></a>

SageMaker AI 推論ホスティングに関してよく寄せられる質問への回答については、以下の FAQ 項目を参照してください。

## ホスティング全般
<a name="hosting-faqs-general"></a>

以下の FAQ 項目は、SageMaker AI 推論に関する一般的な質問に回答しています。

### Q: Amazon SageMaker AI にはどのようなデプロイオプションがありますか。
<a name="hosting-faqs-general-1"></a>

A: モデルを構築してトレーニングしたら、Amazon SageMaker AI には予測を開始できるようにデプロイするための 4 つのオプションが用意されています。リアルタイム推論は、ミリ秒単位のレイテンシー要件、最大 25 MB のペイロードサイズ、通常の応答の場合は最長 60 秒、ストリーミング応答の場合は最長 8 分の処理時間を必要とするワークロードに適しています。バッチ変換は、事前に利用可能な大量のデータをオフラインで予測する場合に最適です。非同期推論は、1 秒未満のレイテンシーを必要とせず、ペイロードサイズが最大 1 GB、処理時間が最長 60 分のワークロード向けに設計されています。サーバーレス推論では、基盤となるインフラストラクチャを設定したり管理したりすることなく、推論用の機械学習モデルを迅速にデプロイできます。また、推論リクエストの処理に使用したコンピューティング能力に対してのみ支払いが発生するため、断続的なワークロードに最適です。

### Q: SageMaker AI でモデルデプロイオプションを選択する方法を教えてください。
<a name="hosting-faqs-general-2"></a>

リクエストをバッチ処理する場合は、バッチ変換を選択するとよいでしょう。それ以外の場合、モデルへのリクエストごとに推論を受け取りたい場合は、非同期推論、サーバーレス推論、またはリアルタイム推論を選択するとよいでしょう。処理時間が長い場合やペイロードが大きく、リクエストをキューに入れる場合は、非同期推論を選択できます。ワークロードに予測不能なトラフィックや断続的なトラフィックがある場合は、サーバーレス推論を選択できます。持続的なトラフィックで、リクエストのレイテンシーを低く一定に抑える必要がある場合は、リアルタイム推論を選択できます。

### Q: SageMaker AI 推論はコストが高いと聞きました。モデルをホストする際、コストを最適化する最善の方法は何ですか。
<a name="hosting-faqs-general-3"></a>

A: SageMaker AI 推論の使用でコストを最適化するには、ユースケースに適したホスティングオプションを選択する必要があります。[Amazon SageMaker AI Savings Plans](https://aws.amazon.com/savingsplans/ml-pricing/)、[SageMaker Neo](https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html) によるモデル最適化、[マルチモデルエンドポイント](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html)と[マルチコンテナエンドポイント](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html)、オートスケーリングなどの推論機能も使用できます。推論コストを最適化する方法のヒントについては、「[推論コスト最適化のベストプラクティス](inference-cost-optimization.md)」を参照してください。

### Q: Amazon SageMaker 推論レコメンダーを使うべきなのはなぜですか。
<a name="hosting-faqs-general-4"></a>

A: パフォーマンスを向上させコストを削減するために適切なエンドポイント設定に関する推奨事項が必要な場合は、Amazon SageMaker 推論レコメンダーを使用する必要があります。以前は、モデルをデプロイするデータサイエンティストは、手動でベンチマークを実行して適切なエンドポイント設定を選択する必要がありました。まず、70 種類以上のインスタンスタイプの中からモデルのリソース要件とサンプルペイロードに基づいて適切な機械学習インスタンスタイプを選択し、次に異なるハードウェアに合わせてモデルを最適化する必要がありました。次に、広範囲にわたる負荷テストを実施して、レイテンシーとスループットの要件が満たされていること、およびコストが低いことを検証する必要がありました。推論レコメンダーは、以下のことを行うのに役立つため、このような複雑さを解消できます。
+ インスタンスレコメンデーションがあれば数分で始められます。
+ インスタンスタイプ全体で負荷テストを実施して、エンドポイント設定に関する推奨事項を数時間以内に取得します。
+ コンテナとモデルサーバーのパラメーターを自動的に調整し、特定のインスタンスタイプに合わせてモデル最適化を実行します。

### Q: モデルサーバーとは何ですか。
<a name="hosting-faqs-general-5"></a>

A: SageMaker AI エンドポイントは、モデルサーバーを含むコンテナ化されたウェブサーバーを使用する HTTP REST エンドポイントです。これらのコンテナは、機械学習モデルのリクエストをロードして処理します。これらにはポート 8080 の `/invocations` と `/ping` に応答するウェブサーバーを実装する必要があります。

一般的なモデルサーバーには、TensorFlow Serving、TorchServe、マルチモデルサーバーがあります。SageMaker AI フレームワークコンテナには、これらのモデルサーバーが組み込まれています。

### Q: Amazon SageMaker AI への独自のコンテナの持ち込みとは何ですか。
<a name="hosting-faqs-general-6"></a>

A: SageMaker AI 推論の内容はすべてコンテナ化されています。SageMaker AI は、TensorFlow、SKlearn、HuggingFace などの一般的なフレームワーク用のマネージドコンテナを提供しています。これらのイメージの包括的な最新リストについては、「[Available Images](https://github.com/aws/deep-learning-containers/blob/master/available_images.md)」を参照してください。

 カスタムフレームワークによっては、そのためにコンテナを構築する必要がある場合があります。このアプローチは、「独自のコンテナの持ち込み」または「BYOC」と呼ばれています。****BYOC アプローチでは、Docker イメージを提供してフレームワークまたはライブラリを設定します。その後、Amazon Elastic Container Registry (Amazon ECR) に、イメージを SageMaker AI で使えるようにプッシュします。

イメージをゼロから構築する代わりに、コンテナを拡張することもできます。SageMaker AI が提供するベースイメージの 1 つを取得し、Dockerfile でその上に依存関係を追加できます。

### Q: SageMaker AI エンドポイントでホストするには、SageMaker AI でモデルをトレーニングする必要がありますか。
<a name="hosting-faqs-general-7"></a>

A: SageMaker AI には、SageMaker AI の外部でトレーニングした独自のトレーニング済みフレームワークモデルを持ち込み、任意の SageMaker AI ホスティングオプションにデプロイする機能があります。

SageMaker AI では、モデルを `model.tar.gz` ファイルにパッケージ化し、特定のディレクトリ構造にする必要があります。各フレームワークには独自のモデル構造があります (構造の例については、次の質問を参照してください)。詳細については、「[TensorFlow](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/deploying_tensorflow_serving.html#deploying-directly-from-model-artifacts)」、「[PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#bring-your-own-model)」、および「[MXNet](https://sagemaker.readthedocs.io/en/stable/frameworks/mxnet/using_mxnet.html#deploy-endpoints-from-model-data)」の SageMaker Python SDK ドキュメントを参照してください。

TensorFlow、PyTorch、MXNet などの事前構築済みのフレームワークイメージから選択してトレーニング済みモデルをホストできますが、独自のコンテナを構築してトレーニング済みモデルを SageMaker AI エンドポイントでホストすることもできます。チュートリアルについては、Jupyter ノートブックの例「[Building your own algorithm container](https://github.com/aws/amazon-sagemaker-examples/blob/main/advanced_functionality/scikit_bring_your_own/scikit_bring_your_own.ipynb)」を参照してください。

### Q: SageMaker AI にはデプロイしたいが、SageMaker AI ではトレーニングしたくない場合、モデルをどのように構成すればよいですか。
<a name="hosting-faqs-general-8"></a>

A: SageMaker AI では、モデルアーティファクトを `.tar.gz` ファイルまたは tarball に圧縮する必要があります。**SageMaker AI は、この `.tar.gz` ファイルをコンテナ内の `/opt/ml/model/` ディレクトリに自動的に抽出します。tarball にはシンボリックリンクや不要なファイルが含まれていてはなりません。TensorFlow、PyTorch、MXNet などのフレームワークコンテナのいずれかを使用している場合、コンテナは TAR 構造が次のようになることを想定しています。

**TensorFlow**

```
model.tar.gz/
             |--[model_version_number]/
                                       |--variables
                                       |--saved_model.pb
            code/
                |--inference.py
                |--requirements.txt
```

**PyTorch**

```
model.tar.gz/
             |- model.pth
             |- code/
                     |- inference.py
                     |- requirements.txt  # only for versions 1.3.1 and higher
```

**MXNet**

```
model.tar.gz/
            |- model-symbol.json
            |- model-shapes.json
            |- model-0000.params
            |- code/
                    |- inference.py
                    |- requirements.txt # only for versions 1.6.0 and higher
```

### Q: SageMaker AI エンドポイントを呼び出すときに、`ContentType` および `Accept` MIME タイプを指定できます。送受信されるデータ型を識別するのに使用するのはどれですか。
<a name="hosting-faqs-general-10"></a>

A: `ContentType` は、リクエスト本文の入力データの MIME タイプ (エンドポイントに送信するデータの MIME タイプ) です。モデルサーバーは `ContentType` を使用して、指定されたタイプを処理できるかどうかを判断します。

`Accept` は、推論レスポンスの MIME タイプ (エンドポイントが返すデータの MIME タイプ) です。モデルサーバーは `Accept` タイプを使用して、指定されたタイプを返す処理ができるかどうかを判断します。

一般的な MIME タイプには `text/csv`、`application/json`、`application/jsonlines` などがあります。

### Q: SageMaker AI 推論ではどのようなデータ形式がサポートされていますか。
<a name="hosting-faqs-general-12"></a>

A: SageMaker AI はすべてのリクエストを変更せずにモデルコンテナに渡します。コンテナにはリクエストを逆シリアル化するロジックが含まれている必要があります。組み込みアルゴリズムに定義されている形式については、「[Common Data Formats for Inference](https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-inference.html)」を参照してください。独自のコンテナを構築する場合や SageMaker AI フレームワークコンテナを使用している場合は、選択したリクエスト形式を受け入れるロジックを含めることができます。

同様に、SageMaker AI もレスポンスを変更せずに返すので、クライアントはレスポンスを逆シリアル化する必要があります。組み込みアルゴリズムの場合は、特定の形式でレスポンスが返されます。独自のコンテナを構築する場合や SageMaker AI フレームワークコンテナを使用している場合は、選択した形式でレスポンスを返すロジックを含めることができます。

### Q: 動画やイメージなどのバイナリデータを使用してエンドポイントを呼び出すにはどうすればよいですか。
<a name="hosting-faqs-general-11"></a>

[Invoke Endpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) API 呼び出しを使用して、エンドポイントに対する推論を行います。

入力をペイロードとして `InvokeEndpoint` API に渡すときは、モデルが必要とする正しいタイプの入力データを提供する必要があります。`InvokeEndpoint` API 呼び出しでペイロードを渡すと、リクエストバイトはモデルコンテナに直接転送されます。例えば、イメージの場合は、`ContentType` に `application/jpeg` を使用して、モデルがこのタイプのデータに対して推論を実行できることを確認できます。これは JSON、CSV、動画、または処理対象となるその他の種類の入力に当てはまります。

考慮すべきもう 1 つの要素は、ペイロードサイズの制限です。ペイロードの制限は、リアルタイムエンドポイントの場合は 25 MB、サーバーレスエンドポイントの場合は 4 MB です。動画を複数のフレームに分割し、フレームごとにエンドポイントを個別に呼び出すことができます。ユースケースが許せば、最大 1 GB のペイロードをサポートする非同期エンドポイントを使用して、ペイロード内の動画全体を送信することもできます。

非同期推論を使用して大きな動画でコンピュータービジョン推論を実行する方法を示す例については、こちらの[ブログ記事](https://aws.amazon.com/blogs/machine-learning/run-computer-vision-inference-on-large-videos-with-amazon-sagemaker-asynchronous-endpoints/)を参照してください。

## リアルタイム推論
<a name="hosting-faqs-real-time"></a>

以下の FAQ 項目は、SageMaker AI リアルタイム推論に関する一般的な質問に回答しています。

### Q: SageMaker AI エンドポイントを作成する方法を教えてください。
<a name="hosting-faqs-real-time-1"></a>

A: SDK、SageMaker Python AWS SDKs、、 AWS マネジメントコンソール AWS CloudFormationなどの AWSサポートされているツールを通じて SageMaker AI エンドポイントを作成できます AWS Cloud Development Kit (AWS CDK)。

エンドポイントの作成には、SageMaker AI モデル、SageMaker AI エンドポイント設定、および SageMaker AI エンドポイントの 3 つの重要なエンティティがあります。SageMaker AI モデルは、使用しているモデルデータとイメージを指します。エンドポイント設定は、インスタンスタイプやインスタンス数を含む本番稼働用バリアントを定義します。その後、SageMaker AI の [create\$1endpoint](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_endpoint) API コールまたは [.deploy()](https://sagemaker.readthedocs.io/en/stable/api/inference/model.html) コールのいずれかを使用して、モデルとエンドポイント設定のメタデータを使用するエンドポイントを作成できます。

### Q: SageMaker Python SDK を使ってエンドポイントを作成または呼び出す必要がありますか。
<a name="hosting-faqs-real-time-2"></a>

A: いいえ。さまざまな AWS SDKs[「呼び出し](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#API_runtime_InvokeEndpoint_SeeAlso)/[作成](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html#API_CreateEndpoint_SeeAlso)」を参照）、対応するウェブ APIsを直接呼び出すこともできます。 SDKs

### Q: マルチモデルエンドポイント (MME) とマルチモデルサーバー (MMS) の違いは何ですか。
<a name="hosting-faqs-real-time-3"></a>

A: マルチモデルエンドポイントは SageMaker AI が提供するリアルタイム推論オプションです。マルチモデルエンドポイントを使用すると、1 つのエンドポイントで数千のモデルをホストできます。[マルチモデルサーバー](https://github.com/awslabs/multi-model-server)は、機械学習モデルを提供するためのオープンソースフレームワークです。このライブラリは、1 つのコンテナ内で複数のモデルをホストし、コンテナに対してモデルを動的にロードおよびアンロードするために、マルチモデルエンドポイントに必要になる HTTP フロントエンドおよびモデル管理機能を備え、指定されてロードされたモデルで推論を実行します。

### Q: リアルタイム推論では、どのようなモデルデプロイアーキテクチャがサポートされていますか。
<a name="hosting-faqs-real-time-4"></a>

A: SageMaker AI リアルタイム推論は、マルチモデルエンドポイント、マルチコンテナエンドポイント、シリアル推論パイプラインなど、さまざまなモデルデプロイアーキテクチャをサポートしています。

[マルチモデルエンドポイント (MME)](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html) – MME を使用すると、高度にパーソナライズされた何千ものモデルを費用対効果の高い方法でデプロイできます。すべてのモデルは共有リソースフリートにデプロイされます。MME は、モデルのサイズとレイテンシーが似ていて、同じ ML フレームワークに属している場合に最も効果的です。これらのエンドポイントは、常に同じモデルを呼び出す必要がない場合に最適です。各モデルを SageMaker AI エンドポイントに動的に読み込んで、リクエストを処理できます。

[マルチコンテナエンドポイント (MCE)](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html) – MCE では、お客様は 1 つの SageMaker エンドポイントのみを使用しながら、コールドスタートなしで多様な ML フレームワークと機能を備えた 15 種類のコンテナをデプロイできます。これらのコンテナは直接呼び出すことができます。MCE は、すべてのモデルをメモリ内に保持したい場合に最適です。

[シリアル推論パイプライン (SIP)](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipelines.html) – SIP を使用すると、1 つのエンドポイントに 2～15 個のコンテナをつなぎ合わせることができます。SIP は、前処理とモデル推論を 1 つのエンドポイントにまとめる場合や、低レイテンシーの操作に最も適しています。

## サーバーレス推論
<a name="hosting-faqs-serverless"></a>

以下の FAQ 項目は、Amazon SageMaker サーバーレス推論に関する一般的な質問に回答しています。

### Q: Amazon SageMaker サーバーレス推論とは何ですか。
<a name="hosting-faqs-serverless-1"></a>

A: [Amazon SageMaker Serverless Inference を使用してモデルをデプロイする](serverless-endpoints.md) は、ML モデルのデプロイとスケーリングを容易にする専用のサーバーレスモデルサービスオプションです。サーバーレス推論エンドポイントは、コンピューティングリソースを自動的に開始し、トラフィックに応じてスケールインおよびスケールアウトできるため、インスタンスタイプを選択したり、プロビジョンドキャパシティを実行したり、スケーリングを管理したりする必要がなくなります。オプションで、サーバーレスエンドポイントのメモリ要件を指定できます。課金されるのは、推論コードの実行期間と処理されたデータ量だけで、アイドル期間には課金されません。

### Q: サーバーレス推論を使うべきなのはなぜですか。
<a name="hosting-faqs-serverless-2"></a>

A: サーバーレス推論を使用すると、事前に容量をプロビジョニングしたり、スケーリングポリシーを管理したりする必要がなくなるため、開発者のエクスペリエンスが簡素になります。サーバーレス推論は、使用パターンに基づいて数秒で数十から数千の推論まで瞬時にスケーリングできるため、トラフィックが断続的または予測不可能な ML アプリケーションに最適です。例えば、給与処理会社が使用するチャットボットサービスでは、月末には問い合わせが増え、その月の残りの期間はトラフィックが断続的に発生するとします。このようなシナリオでは、1 か月分のインスタンスをプロビジョニングしても、結局はアイドル期間分の料金を支払うことになるため、費用対効果が高くありません。

サーバーレス推論は、トラフィックを事前に予測したり、スケーリングポリシーを管理したりすることなく、すぐに自動的かつ迅速にスケーリングできるため、このようなユースケースに対処するのに役立ちます。さらに、推論コードの実行とデータ処理にかかるコンピューティング時間に対してのみ支払いが発生するため、トラフィックが断続的に発生するワークロードに最適です。

### Q: サーバーレスエンドポイントに適したメモリサイズを選択する方法を教えてください。
<a name="hosting-faqs-serverless-3"></a>

A: サーバーレスエンドポイントの最小 RAM サイズは 1024 MB（1 GB） で、選択できる最大 RAM サイズは 6144 MB（6 GB）です。選択できるメモリサイズは、1024 MB、2048 MB、3072 MB、4096 MB、5120 MB、6144 MBです。サーバーレス推論は、選択したメモリに比例してコンピューティングリソースを自動的に割り当てます。より大きなメモリサイズを選択すると、コンテナはより多くの vCPUs にアクセスできます。

モデルサイズに応じて、エンドポイントのメモリサイズを選択します。一般に、メモリサイズは少なくともモデルサイズと同じ大きさである必要があります。レイテンシー SLA に基づいてモデルに適したメモリを選択するために、ベンチマークが必要になる場合があります。メモリサイズの増分には、異なる料金体系があります。詳細は、「[Amazon SageMaker の料金](https://aws.amazon.com/sagemaker/pricing/)」ページを参照してください。

## バッチ変換
<a name="hosting-faqs-batch"></a>

以下の FAQ 項目は、SageMaker AI バッチ変換に関する一般的な質問に回答しています。

### Q: バッチ変換はデータをどのように分割しますか。
<a name="hosting-faqs-batch-1"></a>

A: CSV、RecordIO、TFRecord などの特定のファイル形式の場合、SageMaker AI はデータをシングルレコードまたは複数レコードのミニバッチに分割し、これをペイロードとしてモデルコンテナに送信できます。`[BatchStrategy](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#sagemaker-CreateTransformJob-request-BatchStrategy)` の値が `MultiRecord` である場合、SageMaker AI は各リクエストごとの `MaxPayloadInMB` を上限とした最大数を送信します。`BatchStrategy` の値が `SingleRecord` である場合、SageMaker AI は各リクエストごとに個々のレコードを送信します。

### Q: 1 つのレコードのバッチ変換の最大タイムアウトとペイロード制限はどのくらいですか。
<a name="hosting-faqs-batch-2"></a>

A: バッチ変換の最大タイムアウトは 3600 秒です。レコード (ミニバッチあたり) の[最大ペイロードサイズ](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#sagemaker-CreateTransformJob-request-MaxPayloadInMB)は 100 MB です。

### Q: バッチ変換ジョブをスピードアップする方法を教えてください。
<a name="hosting-faqs-batch-3"></a>

A: `[CreateTransformJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html)` API を使用している場合、`[MaxPayloadInMB](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-MaxPayloadInMB)`、`[MaxConcurrentTransforms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-MaxConcurrentTransforms)`、`[BatchStrategy](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-BatchStrategy)` などのパラメータに最適値を使用することで、バッチ変換ジョブの完了にかかる時間を短縮できます。`MaxConcurrentTransforms` の理想的な値は、バッチ変換ジョブに含まれるコンピューティングワーカーの数と同じです。SageMaker AI コンソールを使用する場合は、**[バッチ変換ジョブの設定]** ページの **[追加設定]** で、これらの最適なパラメータ値を指定できます。SageMaker AI は、組み込みアルゴリズムの最適なパラメータ設定を自動的に探します。カスタムアルゴリズムの場合は、これらの値を [execution-parameters](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-batch-code.html#your-algorithms-batch-code-how-containe-serves-requests) エンドポイントを通じて指定します。

### Q: バッチ変換でネイティブにサポートされているデータ形式は何ですか。
<a name="hosting-faqs-batch-4"></a>

A: バッチ変換は CSV と JSON をサポートしています。

## 非同期推論
<a name="hosting-faqs-async"></a>

以下の FAQ 項目は、SageMaker AI 非同期推論に関する一般的な質問に回答しています。

### Q: Amazon SageMaker 非同期推論とは何ですか。
<a name="hosting-faqs-async-1"></a>

非同期推論を使用して、受信した推論リクエストをキューに入れて非同期に処理します。このオプションは、ペイロードサイズが大きいリクエストや、到着時に処理する必要があるリクエストの処理時間が長いリクエストに最適です。オプションで、リクエストをアクティブに処理していないときにインスタンス数をゼロにスケールダウンするように Auto Scaling 設定を構成できます。

### Q: トラフィックがないときにエンドポイントを 0 にスケールする方法を教えてください。
<a name="hosting-faqs-async-2"></a>

A: Amazon SageMaker AI では、非同期エンドポイントの自動的なスケーリング (オートスケーリング) がサポートされています。自動スケーリングは、ワークロードの変動に応じて、モデルにプロビジョニングされたインスタンスの数を動的に調整します。SageMaker AI がサポートしている他のホストモデルとは異なり、非同期推論を使用すると、非同期エンドポイントのインスタンスをゼロにスケールダウンすることもできます。インスタンスがゼロの場合に受信されるリクエストは、エンドポイントがスケールアップされると処理のためにキューに入れられます。詳細については、「[Autoscale an asynchronous endpoint](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-autoscale.html)」を参照してください。

Amazon SageMaker サーバーレス推論も自動的にゼロまでスケールダウンします。SageMaker AI はサーバーレスエンドポイントのスケーリングを管理するため、このようなことは表示されませんが、トラフィックがまったく発生していない場合は同じインフラストラクチャが適用されます。