

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 指標參考
<a name="canvas-metrics"></a>

下列各節描述每個模型類型在 Amazon SageMaker Canvas 中可用的指標。

## 數值預測的指標
<a name="canvas-numeric-metrics"></a>

以下清單定義 SageMaker Canvas 中數值預測的指標，並提供有關如何使用它們的資訊。
+ InferenceLatency - 提出模型預測請求後，到從部署模型的即時端點接收模型預測之間的大約時間。此指標以秒為單位進行測量，僅適用於使用 **Ensembling** 模式建置的模型。
+ MAE - 絕對平均值錯誤。平均而言，目標欄的預測與實際值相比為 \$1/-\$1MAE\$1。

  測量預測值和實際值在所有值上取平均值時的差異。MAE 常用於數值預測，以了解模型預測誤差。如果預測為線性，MAE 表示從預測線到實際值的平均距離。MAE 被定義為絕對值誤差的總和，除以觀測值的數量。其數值範圍從 0 到無限大，數字越小，表示模型越適合資料。
+ MAPE - 平均絕對百分比誤差。平均而言，目標欄的預測與實際值相比為 \$1/- \$1MAPE\$1 %。

  MAPE 是實際值與預測或預估值之間絕對差的平均值，除以實際值並以百分比表示。較低的 MAPE 表示更好的效能，因為它表示預測值或預估值更接近實際值。
+ MSE - 均方誤差 (MSE) 是預測值與實際值之間平方差的平均值。

  MSE 值始終為正值。MSE 值越小，模型預測實際值的能力越好。
+ R2 - 目標欄中的差異百分比，可由輸入目標欄說明。

  量化模型可以解釋相依變數的變異程度。數值的範圍從一 (1) 到負一 (-1)。數字越高表示解釋變異性的分數越高。接近零 (0) 的值表示模型只能解釋極少的相依變數。負值表示與資料契合度不佳，且常數函式 (或水平線) 的效能優於模型。
+ RMSE – 均方根誤差或誤差的標準差。

  測量預測值與實際值之間平方差的平方根，並對所有值進行平均。它是用來了解模型預測誤差，也是指出是否存在較大模型誤差與極端值的重要指標。其數值範圍從零 (0) 到無限大，數字越小，表示模型越適合資料。RMSE 取決於規模，不應用來比較不同類型的資料集。

## 用於分類預測的指標
<a name="canvas-categorical-metrics"></a>

本節定義 SageMaker Canvas 中分類預測的指標，並為您提供如何使用它們的相關資訊。

以下是 2 類別預測的可用指標清單。
+ 準確性 - 正確預測的百分比。

  或者，正確預測項目數與總預測數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美的準確性，0 表示完全不準確。
+ AUC - 介於 0 到 1 之間的值，表示您的模型能夠在資料集中分隔類別的程度。值 1 表示它能夠完美地分隔類別。
+ BalancedAccuracy - 測量準確預測與所有預測的比率。

  這個比率是把真陽性 (TP) 和真陰性 (TN)，按照陽性 (P) 和陰性 (N) 的總數標準化之後計算出來的。其定義如下：`0.5*((TP/P)+(TN/N))`，值範圍從 0 到 1。當不平衡資料集中的正值或負值數量彼此相差很大時，例如只有 1% 的電子郵件是垃圾郵件時，平衡的準確性指標可提供更好的準確性測量。
+ F1 - 準確度的平衡衡量，其會考慮類別平衡。

  這是精確度和召回分數的調和平均值，定義如下：`F1 = 2 * (precision * recall) / (precision + recall)`。F1 評分在 0 和 1 之間變化。評分 1 表示效能已達可能性的上限，0 表示最差。
+ InferenceLatency - 提出模型預測請求後，到從部署模型的即時端點接收模型預測之間的大約時間。此指標以秒為單位進行測量，僅適用於使用 **Ensembling** 模式建置的模型。
+ LogLoss - 對數損失，也稱為跨熵損失，是一種用於評估機率輸出品質的指標，而不是輸出本身。對數損失是一項重要指標，能指出模型何時有高機率發生錯誤預測。其數值介於 0 到無限大之間。如數值為 0，代表完美預測資料的模型。
+ 精確度 - 在預測 \$1category x\$1 的所有時間中，預測正確的時間為 \$1precision\$1%。

  精確度衡量演算法在所有找到的陽性結果中，預測出真陽性 (TP) 的成效。其定義如下：`Precision = TP/(TP+FP)`，其值範圍從零 (0) 到一 (1)。當假陽性的成本高時，精確度是一個重要的指標。舉例來說，一個飛機安全系統被錯誤地判定為可安全飛行，這個假陽性的成本就非常高。假陽性 (FP) 反映了資料中實際上是陰性的陽性預測。
+ 召回率 - 當 \$1target\$1column\$1 實際上是 \$1category x\$1 時，模型正確預測為 \$1category x\$1 的比率為 \$1recall\$1%。

  召回率衡量演算法在資料集內，正確預測所有的真陽性 (TP) 的表現。真陽性代表其為一個陽性預測，同時也是資料中的實際陽性。召回率定義如下：`Recall = TP/(TP+FN)`，值範圍從 0 到 1。分數越高，代表模型在資料中預測出真陽性 (TP) 的能力越好。請注意，通常只測量召回率是不夠的，因為只要預測每個輸出都是真陽性，就能獲得完美的召回率分數。

以下是 3\$1 類別預測的可用指標清單。
+ 準確性 - 正確預測的百分比。

  或者，正確預測項目數與總預測數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美的準確性，0 表示完全不準確。
+ BalancedAccuracy - 測量準確預測與所有預測的比率。

  這個比率是把真陽性 (TP) 和真陰性 (TN)，按照陽性 (P) 和陰性 (N) 的總數標準化之後計算出來的。其定義如下：`0.5*((TP/P)+(TN/N))`，值範圍從 0 到 1。當不平衡資料集中的正值或負值數量彼此相差很大時，例如只有 1% 的電子郵件是垃圾郵件時，平衡的準確性指標可提供更好的準確性測量。
+ F1macro - F1macro 分數透過計算精確度和召回率來套用 F1 評分，然後取其諧波平均值來計算每個類別的 F1 分數。然後，F1macro 會平均個別分數以取得 F1macro 分數。F1macro 在 0 與 1 之間變化。評分 1 表示效能已達可能性的上限，0 表示最差。
+ InferenceLatency - 提出模型預測請求後，到從部署模型的即時端點接收模型預測之間的大約時間。此指標以秒為單位進行測量，僅適用於使用 **Ensembling** 模式建置的模型。
+ LogLoss - 對數損失，也稱為跨熵損失，是一種用於評估機率輸出品質的指標，而不是輸出本身。對數損失是一項重要指標，能指出模型何時有高機率發生錯誤預測。其數值介於 0 到無限大之間。如數值為 0，代表完美預測資料的模型。
+ PrecisionMacro - 測量精確度，方法是計算每個類別的精確度，並平均分數來取得數個類別的精確度。分數範圍從零 (0) 到一 (1)。分數高表示這個模型在所有找到的陽性結果中，預測出真陽性 (TP) 的成效顯著，而且是在好幾個類別裡平均算出來的。
+ RecallMacro - 測量召回率，方法是計算每個類別的召回率，並平均分數來取得數個類別的召回率。分數範圍從 0 到 1。分數越高，就表示這模型預測出資料集裡的真陽性 (TP) 能力越強。真陽性指的是其預測是陽性，而在資料裡實際上也是陽性。通常只測量召回率是不夠的, 因為只要預測每個輸出都是真陽性，就能獲得完美的召回率分數。

請注意，對於 3\$1 類別預測，您也會收到平均 F1、準確性、精確度和召回率指標。這些指標的分數只是所有類別的平均指標分數。

## 用於影像和文字預測的指標
<a name="canvas-cv-nlp-metrics"></a>

以下是影像預測與文字預測的可用指標清單。
+ 準確性 - 正確預測的百分比。

  或者，正確預測項目數與總預測數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美的準確性，0 表示完全不準確。
+ F1 - 準確度的平衡衡量，其會考慮類別平衡。

  這是精確度和召回分數的調和平均值，定義如下：`F1 = 2 * (precision * recall) / (precision + recall)`。F1 評分在 0 和 1 之間變化。評分 1 表示效能已達可能性的上限，0 表示最差。
+ 精確度 - 在預測 \$1category x\$1 的所有時間中，預測正確的時間為 \$1precision\$1%。

  精確度衡量演算法在所有找到的陽性結果中，預測出真陽性 (TP) 的成效。其定義如下：`Precision = TP/(TP+FP)`，其值範圍從零 (0) 到一 (1)。當假陽性的成本高時，精確度是一個重要的指標。舉例來說，一個飛機安全系統被錯誤地判定為可安全飛行，這個假陽性的成本就非常高。假陽性 (FP) 反映了資料中實際上是陰性的陽性預測。
+ 召回率 - 當 \$1target\$1column\$1 實際上是 \$1category x\$1 時，模型正確預測為 \$1category x\$1 的比率為 \$1recall\$1%。

  召回率衡量演算法在資料集內，正確預測所有的真陽性 (TP) 的表現。真陽性代表其為一個陽性預測，同時也是資料中的實際陽性。召回率定義如下：`Recall = TP/(TP+FN)`，值範圍從 0 到 1。分數越高，代表模型在資料中預測出真陽性 (TP) 的能力越好。請注意，通常只測量召回率是不夠的，因為只要預測每個輸出都是真陽性，就能獲得完美的召回率分數。

請注意，對於預測 3 個或更多類別的影像和文字預測模型，您也會收到*平均* F1、準確性、精確度和召回率指標。這些指標的分數只是所有類別的指標分數平均值。

## 時間序列預測的指標
<a name="canvas-time-series-forecast-metrics"></a>

以下內容定義 Amazon SageMaker Canvas 中時間序列預測的進階指標，並提供有關如何使用它們的資訊。
+ 平均加權分位數損失 (WQL) - 透過平均 P10、P50 和 P90 分位數的準確度來評估預測。較低的值表示較精確的模型。
+ 加權絕對誤差百分比 (WAPE) – 絕對誤差的總和，由絕對目標的總和標準化，測量預測值與觀測值的整體偏差。較低的值表示更精確的模型，其中 WAPE = 0 是沒有錯誤的模型。
+ 均方根誤差 (RMSE) - 平均平方誤差的平方根。較低的 RMSE 表示更精確的模型，其中 RMSE = 0 是沒有錯誤的模型。
+ 平均絕對百分比誤差 (MAPE) - 所有時間點的平均誤差百分比 (平均預測值與實際值的百分比差異)。較低的值表示更精確的模型，其中 MAPE = 0 是沒有錯誤的模型。
+ 平均絕對縮放誤差 (MASE) - 由簡單基準預測方法的平均絕對誤差標準化的預測的平均絕對誤差。值越低表示模型越準確，其中 MASE < 1 估計值比基準更好，MASE > 1 估計值比基準較差。