

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 從非同步端點追蹤指標的警示和日誌
<a name="async-inference-monitor"></a>

您可以使用 Amazon CloudWatch 監控 SageMaker AI，由 Amazon CloudWatch 收集原始資料，並將該資料處理成近乎即時的可讀取指標。有了 Amazon CloudWatch，您可取得歷程資訊，更清楚掌握 Web 應用程式或服務的執行效能。如需 Amazon CloudWatch 的詳細資訊，請參閱 [Amazon CloudWatch 是什麼？](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)

## 使用 CloudWatch 進行監控
<a name="async-inference-monitor-cloudwatch"></a>

以下指標位於`AWS/SageMaker`命名空間，是非同步端點的完整指標清單。如果端點已啟用非同步推論，則不會發布下方未列出的任何計量資料。這類指標包括 (但不限於)：
+ 額外負荷延遲
+ 調用
+ InvocationsPerInstance

### 常用端點指標
<a name="async-inference-monitor-cloudwatch-common"></a>

這些指標與目前針對即時端點發布的指標相同。如需 Amazon CloudWatch 中其他指標的更多資訊，請參閱[使用 Amazon CloudWatch 監控 SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html)。


| 指標名稱 | 說明 | 單位/統計資料 | 
| --- | --- | --- | 
| `Invocation4XXErrors` | 請求的數量，模型傳回 4xx HTTP 回應代碼。對於每個 4xx 回應，將傳送 1，否則傳送 0。 | 單位：無<br />有效的統計資訊：平均、總和 | 
| `Invocation5XXErrors` | 模型傳回 5xx HTTP 回應代碼之 InvokeEndpoint 請求的數量。對於每個 5xx 回應，將傳送 1，否則傳送 0。 | 單位：無<br />有效的統計資訊：平均、總和 | 
| `ModelLatency` | 從 SageMaker AI 角度檢視，模型回應的時間間隔。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間，以及在容器中完成推論的時間。 | 單位：微秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 

### 非同步推論端點指標
<a name="async-inference-monitor-cloudwatch-async"></a>

啟用非同步推論的端點會發布這些指標。以下指標發布時包含 `EndpointName` 維度：


| 指標名稱 | 說明 | 單位/統計資料 | 
| --- | --- | --- | 
| `ApproximateBacklogSize` | 目前正在處理或尚未處理之端點佇列中的項目數。 | 單位：Count<br />有效的統計資料：平均、上限、下限 | 
| `ApproximateBacklogSizePerInstance` | 佇列中的項目數除以端點後面的執行個體數目。此指標主要用於為啟用異步的端點設定應用程式自動擴充。 | 單位：Count<br />有效的統計資料：平均、上限、下限 | 
| `ApproximateAgeOfOldestRequest` | 佇列中最舊要求的年齡。 | 單位：秒<br />有效的統計資料：平均、上限、下限 | 
| `HasBacklogWithoutCapacity` | 佇列中有要求，但端點後面沒有執行個體時，這個指標的值是 `1`。所有其他時間，這個值是 `0`。使用這個指標時，佇列一收到新請求，就會從零執行個體自動擴充端點。 | 單位：計數<br />有效的統計資訊：平均 | 

以下指標發布時包含 `EndpointName` 和 `VariantName` 維度：


| 指標名稱 | 說明 | 單位/統計資料 | 
| --- | --- | --- | 
| `RequestDownloadFailures` | 從 Amazon S3 下載請求時發生問題，因此發生推論失敗。 | 單位：計數<br />有效的統計資訊：總和 | 
| `ResponseUploadFailures` | 將回應上傳到 Amazon S3 時有問題，因此推論失敗。 | 單位：計數<br />有效的統計資訊：總和 | 
| `NotificationFailures` | 發生問題時發布通知。 | 單位：計數<br />有效的統計資訊：總和 | 
| `RequestDownloadLatency` | 下載請求承載的總時間。 | 單位：微秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 
| `ResponseUploadLatency` | 上傳回應承載的總時間。 | 單位：微秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 
| `ExpiredRequests` | 佇列中因到達指定要求 TTL 而失敗的要求數目。 | 單位：計數<br />有效的統計資訊：總和 | 
| `InvocationFailures` | 如果調用由於任何原因失敗。 | 單位：計數<br />有效的統計資訊：總和 | 
| `InvocationsProcesssed` | 端點處理的非同步調用數目。 | 單位：計數<br />有效的統計資訊：總和 | 
| `TimeInBacklog` | 要求處理前排入佇列的總時間。這不包括實際處理時間 (即下載時間』上傳時間』模型延遲)。 | 單位：毫秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 
| `TotalProcessingTime` | SageMaker AI 收到推論請求到請求完成處理的時間。這包括排入待處理項目的時間，以及上傳和傳送回應通知 (如果有) 的時間。 | 單位：毫秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 

Amazon SageMaker 非同步推論也包含主機層級指標。有關主機級別指標的資訊，請參閱 [SageMaker AI 作業和端點指標](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-jobs)。

## 日誌
<a name="async-inference-monitor-logs"></a>

除了帳戶中發布到 Amazon CloudWatch 的[模型容器日誌](https://docs.aws.amazon.com/sagemaker/latest/dg/logging-cloudwatch.html)，您還可以取得用於追蹤和偵錯推論請求的新平台日誌。

新日誌以端點日誌群組的名義發布：

```
/aws/sagemaker/Endpoints/{{[EndpointName]}}
```

日誌串流名稱包含：

```
{{[production-variant-name]}}/{{[instance-id]}}/data-log.
```

日誌行包含請求的推論 ID，因此輕輕鬆鬆即可將錯誤對應到特定請求。