

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon CloudWatch 中的 Amazon SageMaker AI 指標
<a name="monitoring-cloudwatch"></a>

您可以使用 Amazon CloudWatch 監控 Amazon SageMaker AI，由 Amazon CloudWatch 收集原始資料，並將該資料處理成近乎即時的可讀取指標。這些統計資料會保留 15 個月。透過它們，您可以存取歷史資訊，並更清楚 Web 應用程式或服務的執行效能。不過，Amazon CloudWatch 主控台僅限搜尋過去 2 週內更新的指標。此限制可確保您的命名空間顯示最新的任務。

若要繪製指標圖形，但不使用搜尋，請在來源檢視中指定其確切名稱。您也可以設定留意特定閾值的警示，當滿足這些閾值時傳送通知或採取動作。如需詳細資訊，請參閱 [Amazon CloudWatch 使用者指南](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/)。



**Topics**
+ [SageMaker AI 端點指標](#cloudwatch-metrics-endpoints)
+ [SageMaker AI 端點調用指標](#cloudwatch-metrics-endpoint-invocation)
+ [SageMaker AI 推論元件指標](#cloudwatch-metrics-inference-component)
+ [SageMaker AI 多模型端點指標](#cloudwatch-metrics-multimodel-endpoints)
+ [SageMaker AI 任務指標](#cloudwatch-metrics-jobs)
+ [SageMaker 推論建議程式任務指標](#cloudwatch-metrics-inference-recommender)
+ [SageMaker Ground Truth 指標](#cloudwatch-metrics-ground-truth)
+ [Amazon SageMaker Feature Store 指標](#cloudwatch-metrics-feature-store)
+ [SageMaker 管道指標](#cloudwatch-metrics-pipelines)

## SageMaker AI 端點指標
<a name="cloudwatch-metrics-endpoints"></a>

`/aws/sagemaker/Endpoints` 命名空間包含端點執行個體的下列指標。

指標是以 1 分鐘的頻率提供。

**注意**  
Amazon CloudWatch 支援[高解析度自訂指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html)，其最佳解析度為 1 秒。然而，解析度越好，CloudWatch 指標的壽命就越短。對於 1 秒頻率解析度，CloudWatch 指標的可用時間為 3 小時。有關 CloudWatch 指標的分辨率和使用壽命的詳細資訊，請參閱[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)在*Amazon CloudWatch API 參考*。


**端點指標**  

| 指標 | Description | 
| --- | --- | 
| CPUReservation | 執行個體上容器保留的 CPU 總和。<br />此指標僅適用於託管作用中推論元件的端點。<br />值的範圍介於 0%–100% 之間。在推論元件的設定中，您可以使用 `NumberOfCpuCoresRequired` 參數設定 CPU 保留。例如，如果有 4 個 CPU，其中 2 個被保留，則指標為，則 `CPUReservation` 指標為 50%。 | 
| CPUUtilization | 每個個別 CPU 核心使用率的總和。每個核心範圍的 CPU 利用率為 0 到 100。例如，如果有四個 CPU，則 `CPUUtilization` 的範圍為 0% 到 400%。<br />對於端點變體，值為執行個體上主要容器與輔助容器的 CPU 利用率總和。<br />單位：百分比 | 
| CPUUtilizationNormalized | 每個個別 CPU 核心使用率的標準化總和。<br />此指標僅適用於託管作用中推論元件的端點。<br />值的範圍介於 0%–100% 之間。例如，如果有四個 CPU，且 `CPUUtilization` 指標為 200%，則 `CPUUtilizationNormalized` 指標為 50%。 | 
| DiskUtilization | 執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。針對端點變體，值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。<br />單位：百分比 | 
| GPUMemoryUtilization | 執行個體上的容器使用的 GPU 記憶體的百分比。取值為 0 - 100 ，並乘以 GPU 數量。例如，如有四個 GPU，`GPUMemoryUtilization` 的範圍為 0%–400%。<br />對於端點變體，值為執行個體上主要容器與輔助容器的 GPU 記憶體利用率總和。<br />單位：百分比 | 
| GPUMemoryUtilizationNormalized | 執行個體上的容器使用的 GPU 記憶體的標準化百分比。<br />此指標僅適用於託管作用中推論元件的端點。<br />值的範圍介於 0%–100% 之間。例如，如果有四個 GPU，且 `GPUMemoryUtilization` 指標為 200%，則 `GPUMemoryUtilizationNormalized` 指標為 50%。 | 
| GPUReservation | 執行個體上容器保留的 GPU 總和。<br />此指標僅適用於託管作用中推論元件的端點。<br />值的範圍介於 0%–100% 之間。在推論元件的設定中，您透過 `NumberOfAcceleratorDevicesRequired` 設定 GPU 保留。例如，如果有 4 個 GPU，其中 2 個被保留，則 `GPUReservation` 指標為 50%。 | 
| GPUUtilization | 執行個體上的容器使用的 GPU 單位的百分比。該值的範圍在 0 和 100 之間，並乘以 GPU 數量。例如，如有四個 GPU，`GPUUtilization` 的範圍為 0%–400%。<br />對於端點變體，值為執行個體上主要容器與輔助容器的 GPU 利用率總和。<br />單位：百分比 | 
| GPUUtilizationNormalized | 執行個體上的容器使用的 GPU 單位的標準化百分比。<br />此指標僅適用於託管作用中推論元件的端點。<br />值的範圍介於 0%–100% 之間。例如，如果有四個 GPU，且 `GPUUtilization` 指標為 200%，則 `GPUUtilizationNormalized` 指標為 50%。 | 
| MemoryReservation | 執行個體上容器保留的記憶體總和。<br />此指標僅適用於託管作用中推論元件的端點。<br />值的範圍介於 0%–100% 之間。在推論元件的設定中，您可以使用 `MinMemoryRequiredInMb` 參數設定記憶體保留。例如，如果 32 GiB 執行個體保留 1024 MB，`MemoryReservation` 指標將為 3.125%。 | 
| MemoryUtilization | 執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。<br />對於端點變體，值為執行個體上主要容器與輔助容器的記憶體利用率總和。<br />單位：百分比 | 


**端點指標的維度**  

| 維度 | Description | 
| --- | --- | 
| EndpointName, VariantName | 篩選指定端點和變體之 `ProductionVariant` 的端點指標。 | 

## SageMaker AI 端點調用指標
<a name="cloudwatch-metrics-endpoint-invocation"></a>

`AWS/SageMaker` 命名空間包含從呼叫到 [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) 的下列請求指標。

指標是以 1 分鐘的頻率提供。

下圖顯示 SageMaker AI 端點如何與 Amazon SageMaker AI 執行期 API 互動。發送請求到端點和接收回應之間的總時間，取決於下列三個要素。
+ 網路延遲 — 向 SageMaker 執行期執行期 API 發出請求和接收回應之間所需的時間。
+ 額外負荷延遲 — 將請求傳送到模型容器並將回應傳回 SageMaker 執行期執行期 API 所需的時間。
+ 模型延遲 — 模型容器處理請求，並傳回回應所花費的時間。

![顯示總延遲為網路、額外負荷和模型延遲之總和的範例。](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/cloudwatch-latency-types.png)


如需有關總延遲的更多相關資訊，請參閱[載入測試 Amazon SageMaker AI 即時推論端點的最佳實務](https://aws.amazon.com/blogs/machine-learning/best-practices-for-load-testing-amazon-sagemaker-real-time-inference-endpoints/)。如需 Amazon CloudWatch 指標保留時間長度的相關資訊，請參閱 *Amazon CloudWatch API 參考*中的 [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)。


**端點叫用指標**  

| 指標 | Description | 
| --- | --- | 
| ConcurrentRequestsPerCopy | 推論元件接收的並行請求數量，由推論元件的每個副本標準化。<br />有效統計資訊：Min、Max | 
| ConcurrentRequestsPerModel | 模型正在接收的並行請求數量。<br />有效統計資訊：Min、Max | 
| Invocation4XXErrors | `InvokeEndpoint` 請求的數量，模型傳回 4xx HTTP 回應代碼。對於每個 4xx 回應，將傳送 1，否則傳送 0。<br />單位：無<br />有效的統計資訊：平均、總和 | 
| Invocation5XXErrors | `InvokeEndpoint` 請求的數量，模型傳回 5xx HTTP 回應代碼。對於每個 5xx 回應，將傳送 1，否則傳送 0。<br />單位：無<br />有效的統計資訊：平均、總和 | 
| InvocationModelErrors | 未產生 2XX HTTP 回應的模型調用請求數。這包含 4XX/5XX 狀態碼、低階插槽錯誤、格式錯誤的 HTTP 回應，以及要求逾時。對於每個錯誤回應，將傳送 1，否則傳送 0。<br />單位：無<br />有效的統計資訊：平均、總和 | 
| Invocations | 傳送到模型端點的 `InvokeEndpoint` 請求數。<br />若要取得傳送至模型端點的請求總數量，請使用總和統計。<br />單位：無<br />有效的統計資訊：總和 | 
| InvocationsPerCopy | 每個推論元件複本標準化的調用次數。<br />有效的統計資訊：總和 | 
| InvocationsPerInstance | 傳送至每個 ProductionVariant 模型的調用次數，以 `InstanceCount` 標準化。每個請求會傳送 1/`numberOfInstances` 作為值。`numberOfInstances` 是請求時端點上的 ProductionVariant 的作用中執行個體數目。<br />單位：無<br />有效的統計資訊：總和 | 
| ModelLatency | 模型回應 SageMaker 執行期 API 請求所花費的時間間隔。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間。它還包括在容器中完成推論所需的時間。<br />單位：微秒<br />有效的統計資料：平均、總和、下限、上限、樣本計數與百分位數 | 
| ModelSetupTime | 為無伺服器端點啟動新運算資源的所需時間。時間可能有所差異，取決於模型大小、下載模型的所需時間以及容器的啟動時間。<br />單位：微秒<br />有效的統計資料：平均、下限、上限、樣本計數與百分位數 | 
| OverheadLatency | 因 SageMaker AI 額外負荷而新增到回應用戶端請求所需時間的時間間隔。此間隔的計算方式是從 SageMaker AI 收到請求到傳回用戶端回應，再減去 `ModelLatency`。額外負荷造成的延遲隨各種因素而變，包括請求和回應承載大小、請求頻率和請求的驗證/授權。<br />單位：微秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 
|  MidStreamErrors  | 將初始回應傳送給客戶之後，在回應串流期間發生的錯誤數目。<br />單位：無<br />有效的統計資訊：平均、總和 | 
|  FirstChunkLatency  | 從請求到達 SageMaker AI 端點到回應的第一個區塊傳送給客戶所經過的時間。此指標適用於雙向串流推論請求。<br />單位：微秒<br />有效的統計資料：平均、總和、下限、上限、樣本計數與百分位數 | 
|  FirstChunkModelLatency  | 模型容器處理請求並傳回回應的第一個區塊所花費的時間。這是從將請求傳送到模型容器時開始測量，直到從模型接收到第一個位元組為止。此指標適用於雙向串流推論請求。<br />單位：微秒<br />有效的統計資料：平均、總和、下限、上限、樣本計數與百分位數 | 
|  FirstChunkOverheadLatency  | 第一個區塊的額外負荷延遲，不包括模型處理時間。計算方式為`FirstChunkLatency`減 `FirstChunkModelLatency`，表示在 SageMaker AI 平台內進行路由、預先處理和後置處理操作所花費的時間。額外負荷延遲可能會因多個因素而有所不同，包括請求頻率、負載和請求的身分驗證/授權。此指標適用於雙向串流推論請求。<br />單位：微秒<br />有效統計資料：平均、總和、最小值、最大值、範例計數、百分位數 | 


**端點調用指標的維度**  

| 維度 | Description | 
| --- | --- | 
| EndpointName, VariantName | 針對指定端點與變體的 `ProductionVariant` 篩選端點調用指標。 | 
| InferenceComponentName | 篩選推論元件調用指標。 | 

## SageMaker AI 推論元件指標
<a name="cloudwatch-metrics-inference-component"></a>

`/aws/sagemaker/InferenceComponents` 命名空間包含託管推論元件之端點的 [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) 呼叫的下列指標。

指標是以 1 分鐘的頻率提供。


**推論元件指標**  

| 指標 | Description | 
| --- | --- | 
| CPUUtilizationNormalized | 每個推論元件複本所報告的 `CPUUtilizationNormalized` 指標值。值的範圍介於 0%–100% 之間。如果您在推論元件複本的設定中設定 `NumberOfCpuCoresRequired` 參數，指標會顯示保留的使用率。否則，指標會顯示超過限制的使用率。 | 
| GPUMemoryUtilizationNormalized | 每個推論元件複本所報告的 `GPUMemoryUtilizationNormalized` 指標值。 | 
| GPUUtilizationNormalized | 每個推論元件複本所報告的 `GPUUtilizationNormalized` 指標值。如果您在推論元件複本的設定中設定 `NumberOfAcceleratorDevicesRequired` 參數，指標會顯示保留的使用率。否則，指標會顯示超過限制的使用率。 | 
| MemoryUtilizationNormalized | 每個推論元件複本所報告的 `MemoryUtilizationNormalized` 指標值。如果您在推論元件複本的設定中設定 `MinMemoryRequiredInMb` 參數，指標會顯示保留的使用率。否則，指標會顯示超過限制的使用率。 | 


**推論元件指標的維度**  

| 維度 | Description | 
| --- | --- | 
| InferenceComponentName | 篩選推論元件指標。 | 

## SageMaker AI 多模型端點指標
<a name="cloudwatch-metrics-multimodel-endpoints"></a>

`AWS/SageMaker` 命名空間包含下列從呼叫到 [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) 的模型載入指標。

指標是以 1 分鐘的頻率提供。

如需資訊了解 CloudWatch 指標的保留期間，請參閱 *Amazon CloudWatch API 參考*的 [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)。


**多模型端點模型載入指標**  

| 指標 | Description | 
| --- | --- | 
| ModelLoadingWaitTime  | 調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。<br />單位：微秒 <br />有效的統計資訊：平均、總和、下限、上限與範例計數  | 
| ModelUnloadingTime  | 透過容器 `UnloadModel` API 呼叫取消載入模型所花費的時間間隔。<br />單位：微秒 <br />有效的統計資訊：平均、總和、下限、上限與範例計數  | 
| ModelDownloadingTime | 從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。<br />單位：微秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數  | 
| ModelLoadingTime  | 透過容器 `LoadModel` API 呼叫載入模型所花費的時間間隔。<br />單位：微秒 <br />有效的統計資訊：平均、總和、下限、上限與範例計數  | 
| ModelCacheHit  | 傳送到已載入模型之多模型端點的 `InvokeEndpoint` 請求數目。<br />平均統計資料會顯示已載入模型的請求比率。<br />單位：無<br />有效的統計資料：平均、總和、範例計數 | 


**多模型端點模型載入指標的維度**  

| 維度 | Description | 
| --- | --- | 
| EndpointName, VariantName | 針對指定端點與變體的 `ProductionVariant` 篩選端點調用指標。 | 

`/aws/sagemaker/Endpoints` 命名空間包含下列從呼叫到 [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) 的執行個體指標。

指標是以 1 分鐘的頻率提供。

如需資訊了解 CloudWatch 指標的保留期間，請參閱 *Amazon CloudWatch API 參考*的 [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)。


**多模型端點模型執行個體指標**  

| 指標 | Description | 
| --- | --- | 
| LoadedModelCount  | 多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。<br />週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。<br />總和統計資料會說明端點的所有執行個體中所載入的模型總數目。<br />此指標追蹤的模型不一定是唯一的，因為模型可能會在端點的多個容器中載入。<br />單位：無<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 


**多模型端點模型載入指標的維度**  

| 維度 | Description | 
| --- | --- | 
| EndpointName, VariantName | 針對指定端點與變體的 `ProductionVariant` 篩選端點調用指標。 | 

## SageMaker AI 任務指標
<a name="cloudwatch-metrics-jobs"></a>

`/aws/sagemaker/ProcessingJobs`、 `/aws/sagemaker/TrainingJobs`和 `/aws/sagemaker/TransformJobs`命名空間包含下列處理任務、訓練任務和批次轉換任務的指標。

指標是以 1 分鐘的頻率提供。

**注意**  
Amazon CloudWatch 支援[高解析度自訂指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html)，其最佳解析度為 1 秒。然而，解析度越好，CloudWatch 指標的壽命就越短。對於 1 秒頻率解析度，CloudWatch 指標的可用時間為 3 小時。有關 CloudWatch 指標的分辨率和使用壽命的詳細資訊，請參閱[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)在*Amazon CloudWatch API 參考*。

**提示**  
若想以更精細的解析度 (最小到 100 毫秒) (0.1 秒) 的粒度來分析訓練任務，並隨時在 Amazon S3 中無限期存放訓練指標以進行自訂分析，請考慮使用 [Amazon SageMaker Debugger](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debugger.html)。SageMaker Debugger 提供內建規則，可自動偵測常見的訓練問題。它可偵測硬體資源使用率問題 (例如 CPU、GPU 和 I/O 瓶頸)。它也能偵測非收斂模型問題 (例如過度擬合、梯度消失和張量爆炸)。SageMaker Debugger 也會透過 Studio Classic 及其分析報告提供視覺效果。要瀏覽 Debugger 視覺化效果，請參閱 [SageMaker 除錯器見解儀表板演練](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio-insights.html)、[除錯器性能分析報告演練](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-report.html)，以及[使用 SMDebug 用戶端資料庫分析資料](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-analyze-data.html)。


**處理任務、訓練任務和批次轉換任務指標**  

| 指標 | Description | 
| --- | --- | 
| CPUUtilization | 每個個別 CPU 核心使用率的總和。每個核心範圍的 CPU 利用率為 0 到 100。例如，如果有四個 CPU，則 CPUUtilization 的範圍為 0% 到 400%。針對處理任務，值為執行個體上處理容器的 CPU 使用率。針對訓練任務，值為執行個體上演算法容器的 CPU 利用率總和。<br />針對批次轉換任務，值為執行個體上轉換容器的 CPU 利用率總和。 若為多執行個體任務，則每個執行個體會報告 CPU 利用率指標。但是，在 CloudWatch 的預設檢視，會顯示在所有執行個體中平均 CPU 利用率。 <br />單位：百分比 | 
| DiskUtilization | 執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。批次轉換任務不支援這個指標。針對處理任務，值為執行個體上處理容器的磁碟空間使用率。<br />針對訓練任務，值為執行個體上演算法容器的磁碟空間利用率總和。<br />單位：百分比 若為多執行個體任務，則每個執行個體會報告磁碟使用率指標。但是，在 CloudWatch 的預設檢視，會顯示在所有執行個體中平均磁碟使用率。  | 
| GPUMemoryUtilization | 執行個體上的容器使用的 GPU 記憶體的百分比。取值為 0 - 100 ，並乘以 GPU 數量。例如，如有四個 GPU，`GPUMemoryUtilization` 的範圍為 0%–400%。針對處理任務，值為執行個體上處理容器的 GPU 記憶體使用率。<br />針對訓練任務，值為執行個體上演算法容器的 GPU 記憶體利用率總和。<br />針對批次轉換任務，值為執行個體上轉換容器的 GPU 記憶體利用率總和。 若為多執行個體任務，則每個執行個體會報告 GPU 記憶體使用率指標。不過， 的預設檢視會顯示所有執行個體的平均 GPU 記憶體使用率。 <br />單位：百分比 | 
| GPUUtilization | 執行個體上的容器使用的 GPU 單位的百分比。該值的範圍在 0 和 100 之間，並乘以 GPU 數量。例如，如有四個 GPU，`GPUUtilization` 的範圍為 0%–400%。針對處理任務，值為執行個體上處理容器的 GPU 使用率。<br />針對訓練任務，值為執行個體上演算法容器的 GPU 利用率總和。<br />針對批次轉換任務，值為執行個體上轉換容器的 GPU 利用率總和。 若為多執行個體任務，則每個執行個體會報告 GPU 使用率指標。但是，在 CloudWatch 的預設檢視，會顯示在所有執行個體中平均 CPU 利用率。 <br />單位：百分比 | 
| MemoryUtilization | 執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。針對處理任務，值為執行個體上處理容器的記憶體使用率。<br />針對訓練任務，值為執行個體上演算法容器的記憶體利用率總和。<br />針對批次轉換任務，值為執行個體上轉換容器的記憶體利用率總和。<br />單位：百分比 若為多執行個體任務，則每個執行個體會報告記憶體使用率指標。但是，在 CloudWatch 的預設檢視，會顯示在所有執行個體中平均記憶體利用率。  | 


**任務指標的維度**  

| 維度 | Description | 
| --- | --- | 
| Host | 針對訓練任務，此維度的值格式為 `[processing-job-name]/algo-[instance-number-in-cluster]`。使用此維度來篩選所指定處理任務和執行個體的執行個體指標。此維度格式只會在 `/aws/sagemaker/ProcessingJobs` 命名空間中顯示。<br />對於訓練任務，此維度的值格式為 `[training-job-name]/algo-[instance-number-in-cluster]`。使用此維度來篩選所指定訓練任務和執行個體的執行個體指標。此維度格式只會在 `/aws/sagemaker/TrainingJobs` 命名空間中顯示。<br />針對批次轉換任務，此維度的值格式為 `[transform-job-name]/[instance-id]`。使用此維度來篩選指定批次轉換任務和執行個體的執行個體指標。此維度格式只會在 `/aws/sagemaker/TransformJobs` 命名空間中顯示。 | 

## SageMaker 推論建議程式任務指標
<a name="cloudwatch-metrics-inference-recommender"></a>

`/aws/sagemaker/InferenceRecommendationsJobs` 命名空間包含下列推論建議程式的任務指標。


**Inference Recommender 指標**  

| 指標 | Description | 
| --- | --- | 
| ClientInvocations | 根據推論建議程式觀察所得，傳送至模型端點的`InvokeEndpoint`請求數。<br />單位：無<br />有效的統計資訊：總和 | 
| ClientInvocationErrors | 根據推論建議程式觀察所得，傳送至模型端點的失敗`InvokeEndpoint`請求數。<br />單位：無<br />有效的統計資訊：總和 | 
| ClientLatency | 推論建議程式所觀察到的傳送`InvokeEndpoint`呼叫與接收回應之間所花費的時間間隔。請注意，時間以毫秒為單位，而`ModelLatency`端點調用指標以微秒為單位。<br />單位：毫秒<br />有效的統計資料：平均、總和、下限、上限、樣本計數與百分位數 | 
| NumberOfUsers | 傳送`InvokeEndpoint`請求至模型端點的使用者並行數。<br />單位：無<br />有效的統計資料：上限、下限、平均 | 


**Inference Recommender 任務指標的維度**  

| 維度 | Description | 
| --- | --- | 
| JobName | 篩選推論建議程式任務的指定推論建議程式任務指標。 | 
| EndpointName | 篩選指定端點的推論建議程式任務指標。 | 

## SageMaker Ground Truth 指標
<a name="cloudwatch-metrics-ground-truth"></a>


**Ground Truth 指標**  

| 指標 | Description | 
| --- | --- | 
| ActiveWorkers | 私有工作團隊中，單一使用中工作者已提交、釋放或拒絕任務。若要取得使用中工作者的總數，請使用總和統計資料。Ground Truth 嘗試提供每個個別的 `ActiveWorkers` 事件一次。如果此傳送失敗，此指標可能不會報告使用中工作者的總數。<br />單位：無<br />有效統計資訊：總和、範例數量 | 
| DatasetObjectsAutoAnnotated | 標籤工作中自動註釋的資料集物件數量。這個指標只會在啟用自動化標籤時發出。請使用上限指標檢視標籤工作進度。<br />單位：無<br />有效統計資訊：Max | 
| DatasetObjectsHumanAnnotated | 標籤工作中人工註釋的資料集物件數量。請使用上限指標檢視標籤工作進度。<br />單位：無<br />有效統計資訊：Max | 
| DatasetObjectsLabelingFailed | 標籤工作中無法標籤的資料集物件數量。請使用上限指標檢視標籤工作進度。<br />單位：無<br />有效統計資訊：Max | 
| JobsFailed | 單一標籤工作失敗。請使用總和統計資料取得失敗的標籤工作總數量。<br />單位：無<br />有效統計資訊：總和、範例數量 | 
| JobsSucceeded | 單一標籤工作成功。請使用總和統計資料取得成功的標籤工作總數量。<br />單位：無<br />有效統計資訊：總和、範例數量 | 
| JobsStopped | 單一標籤工作已停止。請使用總和統計資料取得已停止的標籤工作總數量。<br />單位：無<br />有效統計資訊：總和、範例數量 | 
| TasksAccepted | 工作者接受了單一任務。若要取得工作者接受的任務數量，請使用總和的統計資料。Ground Truth 嘗試提供每個個別的`TaskAccepted`事件一次。如果此傳送失敗，此指標可能不會報告已接受的總任務數量。<br />單位：無 <br />有效統計資訊：總和、範例數量 | 
| TasksDeclined | 工作者拒絕了單一任務。若要取得工作者拒絕的任務數量，請使用總和的統計資料。Ground Truth 嘗試提供每個個別的`TasksDeclined`事件一次。如果此傳送失敗，此指標可能不會報告已拒絕的總任務數量。<br />單位：無<br />有效統計資訊：總和、範例數量 | 
| TasksReturned | 傳回單一任務。若要取得工作者已傳回的任務數量，請使用總和統計資料。Ground Truth 嘗試提供每個個別的`TasksReturned`事件一次。如果此傳送失敗，此指標可能不會報告已傳回的總任務數量。<br />單位：無 <br />有效統計資訊：總和、範例數量 | 
| TasksSubmitted | 單一任務是由私有工作者提交/完成的。若要取得工作者已提交的任務數量，請使用總和的統計資料。Ground Truth 嘗試提供每個個別的`TasksSubmitted`事件一次。如果此傳送失敗，此指標可能不會報告已提交的總任務數量。<br />單位：無<br />有效統計資訊：總和、範例數量 | 
| TimeSpent | 私有工作者完成任務所花費的時間。此量度不包含工作者暫停或休息的時間。Ground Truth 嘗試傳遞`TimeSpent`事件一次。如果此傳送失敗，此指標可能不會報告已花費的總時數。<br />單位：秒<br />有效統計資訊：總和、範例數量 | 
| TotalDatasetObjectsLabeled | 標籤工作中成功標籤的資料集物件數量。請使用上限指標檢視標籤工作進度。<br />單位：無<br />有效統計資訊：Max | 


**資料集物件指標的維度**  

| 維度 | Description | 
| --- | --- | 
| LabelingJobName | 標籤工作的篩選條件資料集物件計數指標。 | 

## Amazon SageMaker Feature Store 指標
<a name="cloudwatch-metrics-feature-store"></a>


**特徵商店耗用量指標**  

| 指標 | Description | 
| --- | --- | 
| ConsumedReadRequestsUnits | 在指定期間內，消耗的讀取單位數量。您可以擷取 Feature Store 執行期操作，及其對應的特徵群組所消耗的讀取單位。<br />單位：無<br />有效的統計資訊：All | 
| ConsumedWriteRequestsUnits | 在指定期間內，消耗的寫入單位數量。您可以擷取 Feature Store 執行期操作，及其對應特徵群組的所消耗的寫入單位。<br />單位：無<br />有效的統計資訊：All | 
| ConsumedReadCapacityUnits | 在指定期間內消耗的佈建讀取容量單位數量。您可以擷取 Feature Store 執行期操作，及其對應的特徵群組所消耗的讀取容量單位。<br />單位：無<br />有效的統計資訊：All | 
| ConsumedWriteCapacityUnits | 在指定期間內消耗的佈建寫入容量單位數量。您可以擷取 Feature Store 執行期操作，及其對應特徵群組的所消耗的寫入容量單位。<br />單位：無<br />有效的統計資訊：All | 


**Feature Store 耗用量指標的維度**  

| 維度 | Description | 
| --- | --- | 
| FeatureGroupName, OperationName | 篩選所指定的 Feature Store 執行期使用量指標及特徵群組。 | 


**Feature Store 操作指標**  

| 指標 | Description | 
| --- | --- | 
| Invocations | 指定期間內對 Feature Store 執行期操作發出的請求數。<br />單位：無<br />有效的統計資訊：總和 | 
| Operation4XXErrors | 對 Feature Store 執行期操作發出的請求數，其中操作會傳回 4xx HTTP 回應碼。對於每個 4xx 回應，將傳送 1，否則傳送 0。<br />單位：無<br />有效的統計資訊：平均、總和 | 
| Operation5XXErrors | 對 Feature Store 執行期操作發出的請求數，其中操作會傳回 5xx HTTP 回應碼。對於每個 5xx 回應，將傳送 1，否則傳送 0。<br />單位：無<br />有效的統計資訊：平均、總和 | 
| ThrottledRequests | 在 Feature Store 執行期操作中受節制的請求數。對於每個調節請求，將傳送 1，否則傳送 0。<br />單位：無<br />有效的統計資訊：平均、總和 | 
| Latency | 處理對 Feature Store 執行期操作發出請求的時間間隔。此間隔的計算方式是從 SageMaker AI 收到請求到傳回用戶端回應。<br />單位：微秒<br />有效的統計資料：平均、總和、下限、上限、樣本計數與百分位數 | 


**Feature Store 操作指標的維度**  

| 維度 | Description | 
| --- | --- | 
| `FeatureGroupName`, `OperationName` | 篩選所指定的 Feature Store 執行期操作指標及特徵群組。您可以將這些維度用於非批次作業，例如 GetRecord、PutRecord 和 DeleteRecord。 | 
| OperationName | 篩選指定操作的 Feature Store 執行期操作指標。您可以將此維度使用於批次作業，例如批次取得記錄。 | 

## SageMaker 管道指標
<a name="cloudwatch-metrics-pipelines"></a>

`AWS/Sagemaker/ModelBuildingPipeline` 命名空間包含下列管道執行的指標。

有兩種管道執行指標可用：
+  **所有管道執行指標** — 帳戶層級管道執行指標 (適用於目前帳戶中的所有管道)
+  **依管道分類的執行指標** — 每個管道的管道執行指標

指標是以 1 分鐘的頻率提供。


**管道執行指標**  

| 指標 | Description | 
| --- | --- | 
| ExecutionStarted | 管道執行啟動的數量。<br />單位：Count<br />有效的統計資訊：平均、總和 | 
| ExecutionFailed | 管道執行失敗的數量。<br />單位：Count<br />有效的統計資訊：平均、總和 | 
| ExecutionSucceeded | 管道執行成功的數量。<br />單位：Count<br />有效的統計資訊：平均、總和 | 
| ExecutionStopped | 管道執行已停止的數量。<br />單位：Count<br />有效的統計資訊：平均、總和 | 
| ExecutionDuration | 管道執行的持續時間 (以毫秒為單位)。<br />單位：毫秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 


**管道執行指標的維度**  

| 維度 | Description | 
| --- | --- | 
| PipelineName | 篩選指定管道的管道執行指標。 | 

`AWS/Sagemaker/ModelBuildingPipeline` 命名空間包含下列管道步驟的指標。

指標是以 1 分鐘的頻率提供。


**管道步驟指標**  

| 指標 | Description | 
| --- | --- | 
| StepStarted | 已啟動的步驟數。<br />單位：Count<br />有效的統計資訊：平均、總和 | 
| StepFailed | 已失敗的步驟數。<br />單位：Count<br />有效的統計資訊：平均、總和 | 
| StepSucceeded | 已成功的步驟數。<br />單位：Count<br />有效的統計資訊：平均、總和 | 
| StepStopped | 已停止的步驟數。<br />單位：Count<br />有效的統計資訊：平均、總和 | 
| StepDuration | 步驟執行的持續時間 (以毫秒為單位)。<br />單位：毫秒<br />有效的統計資訊：平均、總和、下限、上限與範例計數 | 


**管道步驟指標的維度**  

| 維度 | Description | 
| --- | --- | 
| PipelineName, StepName | 篩選指定管道和步驟的步驟指標。 | 