翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# マルチモデルエンドポイントのデプロイの CloudWatch メトリクス
<a name="multi-model-endpoint-cloudwatch-metrics"></a>

Amazon SageMaker AI はエンドポイントのメトリクスを提供するため、キャッシュヒットレート、ロードされたモデルの数のほか、マルチモデルエンドポイントでのモデルのロード、ダウンロード、アップロードの際に生じる待機時間をモニタリングできます。CPU と GPU ベースのマルチモデルエンドポイントではメトリクスの一部が異なるため、以下のセクションでは、マルチモデルエンドポイントの種類ごとに使用できる Amazon CloudWatch メトリクスについて説明します。

メトリクスの詳細については、「[Amazon CloudWatch における Amazon SageMaker AI メトリクス](monitoring-cloudwatch.md)」の「**Multi-Model Endpoint Model Loading Metrics**」と「**Multi-Model Endpoint Model Instance Metrics**」を参照してください。モデル単位のメトリクスはサポートされていません。

## CPU ベースのマルチモデルエンドポイントの CloudWatch メトリクス
<a name="multi-model-endpoint-cloudwatch-metrics-cpu"></a>

CPU ベースのマルチモデルエンドポイントでは、以下のメトリクスをモニタリングできます。

`AWS/SageMaker` 名前空間には、[InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) の呼び出しからの次のモデル読み込みメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「*GetMetricStatistics*」を参照してください。[https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)

**マルチモデルエンドポイントモデルのロードメトリクス**


| メトリクス | 説明 | 
| --- | --- | 
| ModelLoadingWaitTime  |  推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelUnloadingTime  |  コンテナの `UnloadModel` API コールを介してモデルをアンロードするのにかかった時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelDownloadingTime |  Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelLoadingTime  |  コンテナの `LoadModel` API コールを介してモデルをロードするのにかかった時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelCacheHit  |  モデルが既にロードされているマルチモデルエンドポイントに送信された `InvokeEndpoint` リクエストの数。 Average 統計は、モデルが既にロードされていたリクエストの比率を示します。 単位: なし 有効な統計: Average、Sum、Sample Count  | 

**マルチモデルエンドポイントモデルのロードメトリクスのディメンション**


| ディメンション | 説明 | 
| --- | --- | 
| EndpointName, VariantName |  指定のエンドポイントおよびバリアントの `ProductionVariant` のエンドポイント呼び出しメトリクスをフィルタリングします。  | 

`/aws/sagemaker/Endpoints` 名前空間には、[InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) の呼び出しからの次のインスタンスメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「*GetMetricStatistics*」を参照してください。[https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)

**マルチモデルエンドポイントモデルのインスタンスメトリクス**


| メトリクス | 説明 | 
| --- | --- | 
| LoadedModelCount  |  マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。 1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。 Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。 モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。 単位: なし 有効な統計: Average、Sum、Min、Max、Sample Count  | 
| CPUUtilization  |  個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0～100 です。例えば、CPU が 4 つの場合、`CPUUtilization` の範囲は 0%～400% になります。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。 単位: パーセント  | 
| MemoryUtilization |  インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%～100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。 単位: パーセント  | 
| DiskUtilization |  インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%～100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。 単位: パーセント  | 

## GPU マルチモデルエンドポイントのデプロイの CloudWatch メトリクス
<a name="multi-model-endpoint-cloudwatch-metrics-gpu"></a>

GPU ベースのマルチモデルエンドポイントでは、以下のメトリクスを監視できます。

`AWS/SageMaker` 名前空間には、[InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) の呼び出しからの次のモデル読み込みメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「*GetMetricStatistics*」を参照してください。[https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)

**マルチモデルエンドポイントモデルのロードメトリクス**


| メトリクス | 説明 | 
| --- | --- | 
| ModelLoadingWaitTime  |  推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機する時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelUnloadingTime  |  コンテナの `UnloadModel` API コールを介してモデルをアンロードするのにかかった時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelDownloadingTime |  Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelLoadingTime  |  コンテナの `LoadModel` API コールを介してモデルをロードするのにかかった時間間隔。 単位: マイクロ秒  有効な統計: Average、Sum、Min、Max、Sample Count   | 
| ModelCacheHit  |  モデルが既にロードされているマルチモデルエンドポイントに送信された `InvokeEndpoint` リクエストの数。 Average 統計は、モデルが既にロードされていたリクエストの比率を示します。 単位: なし 有効な統計: Average、Sum、Sample Count  | 

**マルチモデルエンドポイントモデルのロードメトリクスのディメンション**


| ディメンション | 説明 | 
| --- | --- | 
| EndpointName, VariantName |  指定のエンドポイントおよびバリアントの `ProductionVariant` のエンドポイント呼び出しメトリクスをフィルタリングします。  | 

`/aws/sagemaker/Endpoints` 名前空間には、[InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html) の呼び出しからの次のインスタンスメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「*GetMetricStatistics*」を参照してください。[https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)

**マルチモデルエンドポイントモデルのインスタンスメトリクス**


| メトリクス | 説明 | 
| --- | --- | 
| LoadedModelCount  |  マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。 1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。 Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。 モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。 単位: なし 有効な統計: Average、Sum、Min、Max、Sample Count  | 
| CPUUtilization  |  個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0～100 です。例えば、CPU が 4 つの場合、`CPUUtilization` の範囲は 0%～400% になります。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。 単位: パーセント  | 
| MemoryUtilization |  インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%～100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。 単位: パーセント  | 
| GPUUtilization |  インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0～100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、`GPUUtilization` の範囲は 0%～400% になります。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU 使用率の合計です。 単位: パーセント  | 
| GPUMemoryUtilization |  インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0～100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、`GPUMemoryUtilization` の範囲は 0%～400% になります。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU メモリ使用率の合計です。 単位: パーセント  | 
| DiskUtilization |  インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%～100% です。 エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。 単位: パーセント  |