翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 非同期エンドポイントからメトリクスを追跡するためのアラームとログ
<a name="async-inference-monitor"></a>

Amazon CloudWatch を使用して SageMaker AI をモニタリングすることで、raw データを収集し、リアルタイムに近い読み取り可能なメトリクスに加工できます。Amazon CloudWatch を使用し、履歴情報にアクセスして、ウェブアプリケーションやサービスのパフォーマンスをより的確に把握できます。Amazon CloudWatch の詳細については、「[Amazon CloudWatch とは](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)」を参照してください。

## CloudWatch によるモニタリング
<a name="async-inference-monitor-cloudwatch"></a>

次のメトリクスは、非同期エンドポイントに対するメトリクスの網羅的なリストで、`AWS/SageMaker` 名前空間にあります。エンドポイントが非同期推論のために有効化されている場合、以下にリストされていないメトリクスは発行されません。該当するメトリクスは以下の通りです (ただし、以下に限定されません)。
+ OverheadLatency
+ Invocations
+ InvocationsPerInstance

### 共通のエンドポイントメトリクス
<a name="async-inference-monitor-cloudwatch-common"></a>

これらのメトリクスは、現在リアルタイムエンドポイントについて発行されるメトリクスと同じです。Amazon CloudWatch の他のメトリクスについては、「[Monitor SageMaker AI with Amazon CloudWatch](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html)」を参照してください。


| メトリクス名 | 説明 | 単位/統計 | 
| --- | --- | --- | 
| `Invocation4XXErrors` | 4xx HTTP レスポンスコードを返したモデルの リクエスト数。各 4xx レスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。 | 単位: なし有効な統計: 合計、平均 | 
| `Invocation5XXErrors` | モデルが 5xx HTTP レスポンスコードを返した InvokeEndpoint リクエストの数。各 5xx レスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。 | 単位: なし有効な統計: 合計、平均 | 
| `ModelLatency` | SageMaker AI から見た、モデルが応答するのにかかる時間間隔。この間隔には、リクエストを送信し、モデルのコンテナからレスポンスを取得するのにかかるローカル通信時間と、コンテナ内で推論を完了するのにかかる時間が含まれます。 | 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count | 

### 非同期推論エンドポイントメトリクス
<a name="async-inference-monitor-cloudwatch-async"></a>

これらのメトリクスが、非同期推論が有効なエンドポイントについて発行されます。次のメトリクスは、`EndpointName` ディメンションで発行されます。


| メトリクス名 | 説明 | 単位/統計 | 
| --- | --- | --- | 
| `ApproximateBacklogSize` | 現在処理中またはまだ処理されていないエンドポイントに対するキュー内の項目の数。 | 単位: カウント 有効な統計: Average、Max、Min  | 
| `ApproximateBacklogSizePerInstance` | キュー内の項目数をエンドポイントの背後にあるインスタンス数で割った値。このメトリクスは主に、非同期対応エンドポイントに対するアプリケーションのオートスケーリングの設定に使用されます。 | 単位: カウント有効な統計: Average、Max、Min | 
| `ApproximateAgeOfOldestRequest` | キュー内の最も古いリクエストの経過時間。 | 単位: 秒有効な統計: Average、Max、Min | 
| `HasBacklogWithoutCapacity` | このメトリクスの値は、キューにリクエストがあるが、エンドポイントの後ろにゼロインスタンスがあるとき、`1` になります。それ以外の場合は、値は `0` です。このメトリクスを使用して、キュー内の新しいリクエストを受信し、エンドポイントをゼロインスタンスからオートスケーリングできます。 | 単位: カウント有効な統計: 平均 | 

次のメトリクスは、`EndpointName` と `VariantName` ディメンションで発行されます。


| メトリクス名 | 説明 | 単位/統計 | 
| --- | --- | --- | 
| `RequestDownloadFailures` | Amazon S3 からのリクエストのダウンロードの問題により推論障害が発生した場合。 | 単位: カウント有効な統計: Sum | 
| `ResponseUploadFailures` | Amazon S3 へのレスポンスのアップロードの問題により推論障害が発生した場合。 | 単位: カウント有効な統計: Sum | 
| `NotificationFailures` | 通知の発行で問題が発生した場合。 | 単位: カウント有効な統計: Sum | 
| `RequestDownloadLatency` | リクエストペイロードのダウンロードの合計時間。 | 単位: マイクロ秒有効な統計: Average、Sum、Min、Max、Sample Count | 
| `ResponseUploadLatency` | レスポンスペイロードのアップロードの合計時間。 | 単位: マイクロ秒 有効な統計: Average、Sum、Min、Max、Sample Count | 
| `ExpiredRequests` | 指定されたリクエスト TTL に到達したために失敗したキュー内のリクエストの数。 | 単位: カウント有効な統計: Sum | 
| `InvocationFailures` | 何らかの理由で呼び出しが失敗した場合。 | 単位: カウント有効な統計: Sum | 
| `InvocationsProcesssed` | エンドポイントによって処理された非同期呼び出しの数。 | 単位: カウント有効な統計: Sum | 
| `TimeInBacklog` | リクエストが処理される前にキューに入れられた合計時間。これには、実際の処理時間 (ダウンロード時間、アップロード時間、モデルのレイテンシーなど) は含まれません。 | 単位: ミリ秒有効な統計: Average、Sum、Min、Max、Sample Count | 
| `TotalProcessingTime` | SageMaker AI が推論リクエストを受け取ってから、リクエストの処理が終了するまでの時間。これには、バックログの時間、レスポンス通知をアップロードして送信する時間 (ある場合) が含まれます。 | 単位: ミリ秒有効な統計: Average、Sum、Min、Max、Sample Count | 

Amazon SageMaker 非同期推論には、ホストレベルのメトリクスも含まれます。ホストレベルのメトリクスの詳細については、「[SageMaker AI のジョブとエンドポイントのメトリクス](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-jobs)」を参照してください。

## ログ
<a name="async-inference-monitor-logs"></a>

お使いのアカウントの Amazon CloudWatch に発行される[モデルのコンテナログ](https://docs.aws.amazon.com/sagemaker/latest/dg/logging-cloudwatch.html)に加えて、推論リクエストをトレースおよびデバッグするための新しいプラットフォームログも取得します。

新しいログはエンドポイントロググループ下で発行されます。

```
/aws/sagemaker/Endpoints/[EndpointName]
```

ログストリーム名は次の値で構成されます。

```
[production-variant-name]/[instance-id]/data-log.
```

ログの行にはリクエストの推論 ID が含まれているため、エラーを特定のリクエストに簡単にマッピングできます。