

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 指标参考
<a name="canvas-metrics"></a>

以下各节介绍了 Amazon SageMaker Canvas 中针对每种模型类型提供的指标。

## 数值预测的指标
<a name="canvas-numeric-metrics"></a>

以下列表定义了 SageMaker Canvas 中数值预测的指标，并提供了有关如何使用这些指标的信息。
+ InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。此指标以秒为单位，仅适用于使用**集合**模式创建的模型。
+ MAE – 平均绝对误差。平均而言，目标列的预测值与实际值相差 \$1/- \$1MAE\$1。

  用于衡量在所有值上将预测值与实际值的差值取平均数时有多大的差异。MAE 通常用于数值预测，以了解模型预测误差。如果预测是线性的，则 MAE 表示预测值与实际值之间的平均距离。MAE 定义为绝对误差之和除以观察数据的数量。值的范围从 0 到无穷大，数字越小表示模型对数据的拟合效果越好。
+ MAPE - 平均绝对误差百分比。平均而言，目标列的预测值与实际值相差 \$1/- \$1MAPE\$1 %。

  MAPE 是实际值与预测值或估计值之间绝对差异的平均值，除以实际值，以百分比表示。MAPE 越低，表示性能越好，因为这意味着预测值或估计值更接近实际值。
+ MSE：均方误差，即预测值与实际值之间平方差的平均值。

  MSE 值始终为正值。模型在预测实际值方面的表现越好，MSE 值就越小。
+ R2 - 输入列可以解释的目标列差异百分比。

  量化模型在多大程度上可以解释因变量方差。值范围从一（1）到负一（-1）。数字越大，说明解释的可变性比例越高。接近零 (0) 的值表示模型几乎无法解释因变量。负值表示拟合不佳，常量函数（或水平线）的性能优于模型。
+ RMSE：均方根误差，或误差的标准差。

  衡量预测值与实际值之间平方差的平方根，并对所有值取平均值。它用于了解模型预测误差，是用于指示是否存在较大模型误差和异常值的重要指标。值的范围从零 (0) 到无穷大，数字越小表示模型对数据的拟合效果越好。RMSE 依赖于规模，不应用于比较不同类型的数据集。

## 分类预测的指标
<a name="canvas-categorical-metrics"></a>

本节定义了 SageMaker Canvas 中分类预测的指标，并为您提供有关如何使用这些指标的信息。

以下是 2 类别预测的可用指标列表：
+ 准确性 – 正确预测的百分比。

  或者说，预测正确数量与预测总数之比。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零（0）和一（1）之间变化。值为 1 表示完全准确，0 表示完全不准确。
+ AUC – 介于 0 和 1 之间的值，表示模型能在多大程度上分离数据集中的类别。值为 1 表示它能够完美地分离类别。
+ BalancedAccuracy — 测量准确预测与所有预测的比率。

  该比率是在根据阳性 (P) 和阴性 (N) 值总数，对真阳性 (TP) 和真阴性 (TN) 进行标准化后计算得出的。其定义如下：`0.5*((TP/P)+(TN/N))`，值范围为 0 至 1。当不平衡数据集中阳性或阴性的数量相差很大时，例如只有 1% 的电子邮件是垃圾邮件时，则平衡准确性指标能更好地衡量准确性。
+ F1 – 将类别平衡考虑在内的一种平衡的准确性度量。

  它是精度和查全率分数的调和平均值，定义如下：`F1 = 2 * (precision * recall) / (precision + recall)`。F1 分数介于 0 和 1 之间。分数为 1 表示具有最佳性能，0 表示性能最差。
+ InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。此指标以秒为单位，仅适用于使用**集合**模式创建的模型。
+ LogLoss — 对数损失，也称为交叉熵损失，是一种用于评估概率输出质量的指标，而不是输出本身。对数损失是一个重要指标，指示模型何时有很高的概率做出了错误预测。值范围为 0 到无穷大。值为 0 表示可以完美预测数据的模型。
+ 精度：在预测 \$1category x\$1 的所有时间中，预测正确率为 \$1precision\$1%。

  查准率衡量算法预测的真阳性 (TP) 占所识别的全部阳性的比例。其定义如下：`Precision = TP/(TP+FP)`，值范围从零 (0) 到一 (1)。当假阳性的成本很高时，查准率是一个重要指标。例如，如果飞机安全系统错误地认为可以安全飞行，则假阳性的成本非常高。假阳性 (FP) 反映的是预测为阳性，而在数据中实际为阴性的情况。
+ 查全率：当 \$1target\$1column\$1 实际为 \$1category x\$1 时，模型正确预测 \$1recall\$1% 为 \$1category x\$1。

  查全率可以衡量算法正确预测数据集中所有真阳性 (TP) 的能力如何。真阳性是指预测为阳性，而实际也是数据中阳性值的情况。查全率定义如下：`Recall = TP/(TP+FN)`，值范围为 0 至 1。分数越高，反映模型预测数据中真阳性 (TP) 的能力越强。请注意，仅衡量查全率通常是不够的，因为只要将每个输出都预测为真阳性，就可以得到完美的查全率分数。

以下是 3 个以上类别预测的可用指标列表：
+ 准确性 – 正确预测的百分比。

  或者说，预测正确数量与预测总数之比。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零（0）和一（1）之间变化。值为 1 表示完全准确，0 表示完全不准确。
+ BalancedAccuracy — 测量准确预测与所有预测的比率。

  该比率是在根据阳性 (P) 和阴性 (N) 值总数，对真阳性 (TP) 和真阴性 (TN) 进行标准化后计算得出的。其定义如下：`0.5*((TP/P)+(TN/N))`，值范围为 0 至 1。当不平衡数据集中阳性或阴性的数量相差很大时，例如只有 1% 的电子邮件是垃圾邮件时，则平衡准确性指标能更好地衡量准确性。
+ F1macro：F1macro 分数通过计算精度和查全率来应用 F1 分数，然后用它们的调和平均值来计算每个类的 F1 分数。然后，F1macro 对各个分数求平均值，得出 F1macro 分数。F1macro 分数介于 0 和 1 之间。分数为 1 表示具有最佳性能，0 表示性能最差。
+ InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。此指标以秒为单位，仅适用于使用**集合**模式创建的模型。
+ LogLoss — 对数损失，也称为交叉熵损失，是一种用于评估概率输出质量的指标，而不是输出本身。对数损失是一个重要指标，指示模型何时有很高的概率做出了错误预测。值范围为 0 到无穷大。值为 0 表示可以完美预测数据的模型。
+ PrecisionMacro — 通过计算每个类别的精度并平均分数以获得多个类别的精度来测量精度。分数范围为零 (0) 到一 (1)。该分数在多个类中取平均值，分数越高反映了模型越能从其识别的所有阳性中预测真阳性 (TP)。
+ RecallMacro — 通过计算每个班级的召回率并平均分数来衡量召回率，从而获得多个班级的召回率。分数范围为 0 到 1。分数越高反映模型预测数据集中真阳性 (TP) 的能力就越好，而真阳性反映的是预测为阳性，而实际也是数据中阳性值的情况。仅衡量查全率通常是不够的，因为只要将每个输出都预测为真阳性，就可以得到完美的查全率分数。

请注意，对于 3 个以上类别的预测，您还会收到平均 F1、准确性、精度和查全率指标。这些指标的分数只是所有类别指标分数的平均值。

## 映像和文本预测的指标
<a name="canvas-cv-nlp-metrics"></a>

以下是映像预测和文本预测的可用指标列表。
+ 准确性 – 正确预测的百分比。

  或者说，预测正确数量与预测总数之比。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零（0）和一（1）之间变化。值为 1 表示完全准确，0 表示完全不准确。
+ F1 – 将类别平衡考虑在内的一种平衡的准确性度量。

  它是精度和查全率分数的调和平均值，定义如下：`F1 = 2 * (precision * recall) / (precision + recall)`。F1 分数介于 0 和 1 之间。分数为 1 表示具有最佳性能，0 表示性能最差。
+ 精度：在预测 \$1category x\$1 的所有时间中，预测正确率为 \$1precision\$1%。

  查准率衡量算法预测的真阳性 (TP) 占所识别的全部阳性的比例。其定义如下：`Precision = TP/(TP+FP)`，值范围从零 (0) 到一 (1)。当假阳性的成本很高时，查准率是一个重要指标。例如，如果飞机安全系统错误地认为可以安全飞行，则假阳性的成本非常高。假阳性 (FP) 反映的是预测为阳性，而在数据中实际为阴性的情况。
+ 查全率：当 \$1target\$1column\$1 实际为 \$1category x\$1 时，模型正确预测 \$1recall\$1% 为 \$1category x\$1。

  查全率可以衡量算法正确预测数据集中所有真阳性 (TP) 的能力如何。真阳性是指预测为阳性，而实际也是数据中阳性值的情况。查全率定义如下：`Recall = TP/(TP+FN)`，值范围为 0 至 1。分数越高，反映模型预测数据中真阳性 (TP) 的能力越强。请注意，仅衡量查全率通常是不够的，因为只要将每个输出都预测为真阳性，就可以得到完美的查全率分数。

请注意，对于您预测 3 个或更多类别的映像和文本预测模型，您还会收到*平均* F1、准确性、精度和查全率指标。这些指标的分数只是所有类别指标分数的平均值。

## 时间序列预测的指标
<a name="canvas-time-series-forecast-metrics"></a>

以下内容定义了 Amazon SageMaker Canvas 中时间序列预测的高级指标，并向您提供了有关如何使用这些指标的信息。
+ 平均加权分位数损失 (wQL) – 通过对 P10、P50 和 P90 分位数处的准确性取平均值来评估预测。值越低表示模型越准确。
+ 加权绝对百分比误差 (WAPE)：绝对误差之和，按照绝对目标之和标准化，用于衡量预测值相比观测值的总体偏差。值越低表示模型越准确，WAPE = 0 表示模型没有误差。
+ 均方根误差 (RMSE) - 平均平方误差的平方根。RMSE 越低表示模型越准确，RMSE = 0 表示模型没有误差。
+ 平均绝对误差百分比 (MAPE) - 所有时间点的平均误差百分比（平均预测值与实际值之差的百分比）。值越低表示模型越准确，MAPE = 0 表示模型没有误差。
+ 平均绝对标度误差 (MASE) - 预测的平均绝对误差，通过简单基线预测方法进行标准化。值越低表示模型越准确，MASE < 1 时预计比基线好，而 MASE > 1 时预计比基线差。