

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 自定义模型
<a name="canvas-custom-models"></a>

在 Amazon SageMaker Canvas 中，您可以训练根据您的特定数据和用例量身定制的自定义机器学习模型。通过基于数据训练自定义模型，您可以捕获最能代表您数据的特定特征和趋势。例如，您可能需要创建一个自定义的时间序列预测模型，该模型可以根据仓库中的库存数据进行训练，从而管理您的物流运营。

Canvas 支持训练一系列模型类型。训练自定义模型后，您可以评估模型的性能和准确性。对模型感到满意后，您可以对新数据进行预测，还可以选择与数据科学家共享自定义模型以进行进一步分析，或者将其部署到 SageMaker 人工智能托管的端点进行实时推理，所有这些都在 Canvas 应用程序中完成。

您可以基于以下类型的数据集训练 Canvas 自定义模型：
+ 表格（包括数值、分类、时间序列和文本数据）
+ 图像

下表显示了您可以在 Canvas 中构建的自定义模型的类型，以及它们支持的数据类型和数据来源。


| 模型类型 | 使用案例示例 | 支持的数据类型 | 支持的数据来源 | 
| --- | --- | --- | --- | 
| 数值预测 | 根据面积等特征预测房价 | 数值 | 本地上传、Amazon S3、SaaS 连接器 | 
| 2 类别预测 | 预测客户是否可能流失 | 二进制或分类 | 本地上传、Amazon S3、SaaS 连接器 | 
| 3\$1 类别预测 | 预测患者出院后的预后 | 分类 | 本地上传、Amazon S3、SaaS 连接器 | 
| 时间序列预测 | 预测下一季度的库存 | 时间序列 | 本地上传、Amazon S3、SaaS 连接器 | 
| 单标签图像预测 | 预测图像中的制造缺陷类型 | 图像（JPG、PNG） | 本地上传、Amazon S3 | 
| 多元文本预测 | 根据商品描述预测商品类别，例如服装、电子产品或家居用品 |  来源列：文本 目标列：二进制或分类 | 本地上传、Amazon S3 | 

**开始使用**

要开始构建自定义模型并使用自定义模型生成预测，请执行以下操作：
+ 确定您的使用案例和要构建的模型类型。有关自定义模型类型的更多信息，请参阅 [自定义模型的工作原理](canvas-build-model.md)。有关自定义模型支持的数据类型和来源的更多信息，请参阅 [导入数据](canvas-importing-data.md)。
+ [导入数据](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-importing-data.html)至 Canvas。您可以使用满足输入要求的任何表格或图像数据集构建自定义模型。有关输入要求的更多信息，请参阅 [创建数据集](canvas-import-dataset.md)。

  要了解有关 SageMaker AI 提供的可供您进行实验的示例数据集的更多信息，请参阅[Canvas 中的示例数据集](canvas-sample-datasets.md)。
+ [构建](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)您的自定义模型。您可以进行**快速构建**以便更快地获得模型并开始预测，也可以进行**标准构建**以提高准确性。

  对于数值、分类和时间序列预测模型类型，您可以使用 [Data Wrangler 功能](canvas-data-prep.md)清理和准备数据。在 Data Wrangler 中，您可以创建数据流并使用各种数据准备技术，例如应用高级转换或联接数据集。对于图像预测模型，您可以[编辑图像数据集](canvas-edit-image.md)以更新标签或添加和删除图像。请注意，您无法将这些功能用于多元文本预测模型。
+ [评估模型的性能](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-evaluate-model.html)，确定其在实际数据中的表现。
+ 使用您的模型[进行单一预测或批量预测](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-make-predictions.html)。

# 自定义模型的工作原理
<a name="canvas-build-model"></a>

使用 Amazon SageMaker Canvas 在您导入的数据集上构建自定义模型。使用您构建的模型对新数据进行预测。 SageMaker Canvas 使用数据集中的信息构建多达 250 个模型，然后选择性能最好的模型。

当您开始构建模型时，Canvas 会自动推荐一种或多种*模型类型*。模型类型可分为以下几类：
+ **数值预测** – 这在机器学习中被称为*回归*。要对数值数据进行预测时，请使用数值预测模型类型。例如，您可能想根据房屋面积等特征预测房屋价格。
+ **分类预测** – 这在机器学习中被称为*分类*。当您希望将数据分类成组时，请使用分类预测模型类型：
  + **2 类别预测** – 当您要对数据进行两个类别的预测时，请使用 2 类别预测模型类型（在机器学习中也称为*二元分类*）。例如，您可能希望确定客户是否可能流失。
  + **3\$1 类别预测** – 当您要对数据进行三个或更多类别的预测时，请使用 3\$1 类别预测模型类型（在机器学习中也称为*多元分类*）。例如，您可能希望根据以往的付款情况等特征来预测客户的贷款状态。
+ **时间序列预测** - 当您要对一段时间进行预测时，可使用时间序列预测。例如，您可能想要预测下一季度将销售的商品数量。有关时间序列预测的信息，请参阅 [Amazon SageMaker Canvas 中的时间序列预测](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-time-series.html)。
+ **图像预测** – 要为图像分配标签时，请使用单标签图像预测模型类型（在机器学习中也称为*单标签图像分类*）。例如，您可能希望对产品图片中不同类型的制造缺陷进行分类。
+ **文本预测** – 要为文本段落分配标签时，请使用多元文本预测模型类型（在机器学习中也称为*多元文本分类*）。例如，您可能有一个产品买家评论数据集，您想确定买家是喜欢还是不喜欢该产品。您可以让模型预测给定的文本段落是`Positive`、`Negative`还是`Neutral`。

有关每种模型类型支持的输入数据类型的表，请参阅[自定义模型](canvas-custom-models.md)。

对于您构建的每个表格数据模型（包括数值、分类、时间序列预测和文本预测模型），您可以选择**目标列**。**目标列**是包含要预测的信息的列。例如，如果您要构建一个模型来预测人们是否取消了订阅，则**目标列**包含的数据点为 `yes` 或 `no`，都与某人的取消状态有关。

对于图像预测模型，您可以使用已分配标签的图像数据集来构建模型。对于您提供的未标注图像，模型会预测一个标签。例如，如果您要构建模型来预测图像是猫还是狗，则在构建模型时需要提供标注为猫或狗的图像。然后，模型可以接受未标注的图像并将其预测为猫或狗。

**在构建模型时发生的情况**

要构建模型，您可以选择**快速构建**或**标准构建**。**快速构建**的构建时间较短，但**标准构建**的精度通常更高。

对于表格预测模型和时间序列预测模型，Canvas 使用*缩减采样*来分别减小超过 5 GB 或 30 GB 的数据集的大小。Canvas 采用分层采样方法进行缩减采样。下表列出了按模型类型列出的缩减采样的大小。要控制采样过程，您可以使用 Canvas 中的 Data Wrangler，使用自己喜欢的采样技术进行采样。对于时间序列数据，您可以通过重新采样来汇总数据点。有关采样的更多信息，请参阅 [采样](canvas-transform.md#canvas-transform-sampling)。有关对时间序列数据进行重新采样的更多信息，请参阅 [重新采样时间序列数据](canvas-transform.md#canvas-resample-time-series)。

如果您选择在超过 50000 行的数据集上进行**快速构建**，则 Canvas 会将数据采样到 50000 行，从而缩短模型训练时间。

下表总结了模型构建过程的主要特征，包括每个模型和构建类型的平均构建时间、使用大型数据集构建模型时的缩减采样大小，以及每个构建类型所需的最少和最多数据点数量。


| 限制 | 数值预测和分类预测 | 时间序列预测 | 图像预测 | 文本预测 | 
| --- | --- | --- | --- | --- | 
| **快速构建**时间 | 2‐20 分钟 | 2‐20 分钟 | 15‐30 分钟 | 15‐30 分钟 | 
| **标准构建**时间 | 2‐4 小时 | 2‐4 小时 | 2‐5 小时 | 2‐5 小时 | 
| 缩减采样大小（Canvas 缩减采样后大型数据集的大小减小） | 5 GB | 30 GB | 不适用 | 不适用 | 
| **快速构建**的最小条目（行）数 |  2 类别：500 行 3\$1 类别、数值、时间序列：不适用  | 不适用 | 不适用 | 不适用 | 
| **标准构建**的最小条目数（行、图像或文档） | 250 | 50 | 50 | 不适用 | 
| **快速构建**的最大条目数（行、图像或文档） | 不适用 | 不适用 | 5000 | 7500 | 
| **标准构建**的最大条目数（行、图像或文档） | 不适用 | 15万 | 180,000 | 不适用 | 
| 最大列数 | 1000 | 1000 | 不适用 | 不适用 | 

Canvas 使用数据集其余部分中的信息来预测值，具体取决于模型类型：
+ 对于分类预测，Canvas 将每行归入**目标列**中列出的类别之一。
+ 对于数值预测，Canvas 使用数据集中的信息来预测**目标列**中的数值。
+ 对于时间序列预测，Canvas 使用历史数据来预测未来**目标列**的值。
+ 对于图像预测，Canvas 使用已分配标签的图像来预测未标注图像的标签。
+ 对于文本预测，Canvas 会分析已分配标签的文本数据，以预测未标注文本段落的标签。

**有助于您构建模型的其他功能**

在构建模型之前，您可以使用 Canvas 中的 Data Wrangler，使用 300 多种内置转换和运算符准备数据。Data Wrangler 支持表格数据集和映像数据集的转换。此外，您还可以连接到 Canvas 以外的数据来源，创建作业对整个数据集进行转换，并导出经过充分准备和清理的数据，以用于 Canvas 之外的 ML 工作流程。有关更多信息，请参阅 [数据准备](canvas-data-prep.md)。

要查看可视化和分析结果以了解数据并确定在模型中包含哪些功能，您可以使用 Data Wrangler 的内置分析功能。您还可以访问**数据质量和见解报告**，此报告重点介绍了数据集的潜在问题，并提供了如何解决这些问题的建议。有关更多信息，请参阅 [进行探索性数据分析 (EDA)](canvas-analyses.md)。

除了 Data Wrangler 提供的高级数据准备和探索功能外，Canvas 还提供了一些可供您使用的基本功能：
+ 要过筛选数据并访问一组基本数据转换，请参阅 [为模型构建准备数据](canvas-prepare-data.md)。
+ 要访问用于功能探索的简单可视化和分析，请参阅 [数据探索和分析](canvas-explore-data.md)。
+ 要进一步了解其他功能，例如预览模型、验证数据集以及更改用于构建模型的随机样本的大小，请参阅[预览模型](canvas-preview-model.md)。

对于包含多列的表格数据集（例如用于构建分类、数值或时间序列预测模型类型的数据集），可能存在缺少数据点的行。当 Canvas 构建模型时，它会自动添加缺失值。Canvas 使用数据集中的值对缺失值进行数学近似计算。为了获得最高的模型精度，我们建议您在能找到缺失数据的情况下将其添加进来。请注意，文本预测或图像预测模型不支持缺失数据特征。

**开始使用**

要开始构建自定义模型，请参阅[构建模型](canvas-build-model-how-to.md)，按照要构建的模型类型的相应步骤进行操作。

# 预览模型
<a name="canvas-preview-model"></a>

**注意**  
以下功能仅适用于使用表格数据集构建的自定义模型。多元文本预测模型也排除在外。

SageMaker Canvas 为您提供了一种工具，可以在开始构建之前预览模型。这样，您就可以估算出准确性分数，还可以初步了解每一列可能对模型产生的影响。

要预览模型分数，请在模型的**构建**选项卡中选择**预览模型**。

模型预览会生成**估计准确性**，预测模型分析数据的准确性。**快速构建**或**标准构建**的精度代表模型在实际数据上的表现，通常高于**估计精度**。

模型预览还提供了**列影响**分数，可以表明每一列对模型预测的重要性。

下面的界面截图显示了 Canvas 应用程序中的模型预览效果。

![\[Canvas 中模型的构建选项卡的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-build/canvas-build-preview-model.png)


Amazon SageMaker Canvas 在构建模型时会自动处理数据集中的缺失值。它通过使用数据集中存在的相邻值来推断缺失值。

如果您对模型预览感到满意，并希望继续构建模型，请参阅 [构建模型](canvas-build-model-how-to.md)。

# 数据验证
<a name="canvas-dataset-validation"></a>

在构建模型之前， SageMaker Canvas 会检查您的数据集是否存在可能导致构建失败的问题。如果 SageMaker Canvas 发现任何问题，它会在您尝试**构建**模型之前在 “构建” 页面上向您发出警告。

您可以选择**验证数据**以查看数据集问题列表。然后，您可以使用 Can SageMaker vas [Data Wrangler 数据准备功能](canvas-data-prep.md)或您自己的工具在开始构建之前修复数据集。如果您不修复数据集的问题，那么您的构建就会失败。

如果您为了修复问题而对数据集进行了更改，则可以选择在尝试构建之前重新验证数据集。我们建议您在构建模型之前重新验证数据集。

下表显示了 SageMaker Canvas 在您的数据集中检查的问题以及如何解决这些问题。


| 问题 | 解决方案 | 
| --- | --- | 
|  数据的模型类型错误  |  尝试其他模型类型或使用不同的数据集。  | 
|  目标列中缺少值  |  替换缺失值，删除有缺失值的行，或使用不同的数据集。  | 
|  目标列中的唯一标签太多  |  验证您是否为目标列使用了正确的列，或者使用不同的数据集。  | 
|  目标列中的非数字值太多  |  选择不同的目标列，选择其他模型类型或使用不同的数据集。  | 
|  一个或多个列名包含双下划线  |  重命名这些列以删除所有双下划线，然后重试。  | 
|  数据集中没有一行是完整的  |  替换缺失值，或使用不同的数据集。  | 
|  对于数据中的行数来说，唯一标签太多  |  检查您使用的目标列是否正确，增加数据集中的行数，合并相似的标签或使用不同的数据集。  | 

# 随机抽样
<a name="canvas-random-sample"></a>

SageMaker Canvas 使用随机采样方法对您的数据集进行采样。随机抽样方法意味着每行被选取为样本的几率相等。您可以在预览中选择一列以获取随机样本的汇总统计数据，例如均值和模式。

默认情况下，对于行数超过 20,000 的数据集， SageMaker Canvas 使用数据集中随机抽样大小为 20,000 行。对于小于 2 万行的数据集，默认样本大小为数据集中的行数。您可以通过在 C SageMaker anvas 应用程序的 “**构建**” 选项卡中选择 “**随机样本**” 来增加或减少样本量。您可以使用滑块选择所需的样本量，然后选择**更新**来更改样本量。您可以为数据集选择的最大样本量为 4 万行，最小样本量为 500 行。如果您选择较大的样本量，则数据集预览和汇总统计数据可能需要一些时间才能重新加载。

**构建**页面显示数据集中 100 行数据的预览。如果样本量与数据集大小相同，那么预览将使用数据集的前 100 行数据。否则，预览将使用随机样本的前 100 行数据。

# 构建模型
<a name="canvas-build-model-how-to"></a>

以下几节介绍如何为每种主要类型的自定义模型构建模型。
+ 要构建数值预测、2 类别预测或 3\$1 类别预测模型，请参阅[构建自定义的数值或分类预测模型](#canvas-build-model-numeric-categorical)。
+ 要构建单标签图像预测模型，请参阅[构建自定义图像预测模型](#canvas-build-model-image)。
+ 要构建多元文本预测模型，请参阅[构建自定义文本预测模型](#canvas-build-model-text)。
+ 要构建时间序列预测模型，请参阅 [建立时间序列预测模型](#canvas-build-model-forecasting)。

**注意**  
如果您在构建后分析期间遇到错误，提示您增加 `ml.m5.2xlarge` 实例限额，请参阅[申请增加限额](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-requesting-quota-increases.html)。

## 构建自定义的数值或分类预测模型
<a name="canvas-build-model-numeric-categorical"></a>

数值和分类预测模型同时支持**快速构建**和**标准构建**。

要构建数值或分类预测模型，请按以下步骤操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 选择**新建模型**。

1. 在**创建新模型**对话框中，执行以下操作：

   1. 在**模型名称**字段中输入名称。

   1. 选择**预测分析**问题类型。

   1. 选择**创建**。

1. 对于**选择数据集**，从数据集列表中选择您的数据集。如果您尚未导入数据，请选择**导入**以指导您完成导入数据工作流。

1. 如果您已准备好开始构建模型，请选定**选择数据集**。

1. 在**构建**选项卡的**目标列**下拉列表中，为模型选择要预测的目标。

1. 对于**模型类型**，Canvas 会自动为您检测问题类型。如果您要更改类型或配置高级模型设置，请选择**配置模型**。

   当**配置模型**对话框打开时，执行以下操作：

   1. 对于**模型类型**，选择要构建的模型类型。

   1. 选择模型类型后，还有其他**高级设置**。有关各项高级设置的更多信息，请参阅 [高级模型构建配置](canvas-advanced-settings.md)。要配置高级设置，执行以下操作：

      1. （可选）在**目标指标**下拉菜单中，选择您希望 Canvas 在构建模型时优化的指标。如果您没有选择指标，Canvas 会默认为您选择一个指标。有关这些指标的说明，请参阅 [指标参考](canvas-metrics.md)。

      1. 对于**训练方法**，选择**自动**、**集合**或**超参数优化 (HPO) 模式**。

      1. 对于**算法**，选择要包含的用于构建候选模型的算法。

      1. 对于**数据拆分**，请按百分比指定如何在**训练集**和**验证集**之间如何拆分数据。训练集用于构建模型，而验证集用于测试候选模型的准确性。

      1. 对于**最大候选数和运行时**，执行以下操作：

         1. 设置**最大候选数值**或 Canvas 可以生成的候选模型的最大数量。请注意，**最大候选值**仅在 HPO 模式下可用。

         1. 为**最大作业运行时**设置小时和分钟值，或者 Canvas 可以用于构建模型的最长时间。超过最长时间后，Canvas 会停止构建，并选择最佳候选模型。

   1. 配置完高级设置后，选择**保存**。

1. 选择或取消选择数据中的列，以便在构建时包含或删除这些列。
**注意**  
如果您在构建模型后使用模型进行批量预测，Canvas 会将删除的列添加到您的预测结果中。但是，Canvas 不会将删除的列添加到时间序列模型的批量预测中。

1. （可选）使用 Canvas 提供的可视化和分析工具将数据可视化，并确定您可能希望在模型中包含哪些特征。有关更多信息，请参阅[探索和分析数据](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html)。

1. （可选）使用数据转换功能来清理、转换和准备用于构建模型的数据。有关更多信息，请参阅[使用高级转换准备数据](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html)。您可以通过选择**模型配方**打开**模型配方**侧面板来查看和移除转换。

1. （可选）有关其他功能，如预览模型的准确性、验证数据集以及更改 Canvas 从数据集中抽取的随机样本的大小，请参阅[预览模型](canvas-preview-model.md)。

1. 查看数据并对数据集进行任何更改后，选择**快速构建**或**标准构建**，开始构建模型。以下屏幕截图显示了**构建**页面以及**快速构建**和**标准构建**选项。  
![\[2 类别模型的构建页面，显示了快速构建和标准构建选项。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/build-page-tabular-quick-standard-options.png)

模型开始构建后，您可以离开此页面。当模型在**我的模型**页面上显示为**就绪**时，即可进行分析和预测。

## 构建自定义图像预测模型
<a name="canvas-build-model-image"></a>

单标签图像预测模型同时支持**快速构建**和**标准构建**。

要构建单标签图像预测模型，请按以下步骤操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 选择**新建模型**。

1. 在**创建新模型**对话框中，执行以下操作：

   1. 在**模型名称**字段中输入名称。

   1. 选择**图像分析**问题类型。

   1. 选择**创建**。

1. 对于**选择数据集**，从数据集列表中选择您的数据集。如果您尚未导入数据，请选择**导入**以指导您完成导入数据工作流。

1. 如果您已准备好开始构建模型，请选定**选择数据集**。

1. 在**构建**选项卡上，您可以看到数据集中图像的**标签分布**。**模型类型**设置为**单标签图像预测**。

1. 在此页面上，您可以预览图像并编辑数据集。如果您有任何未标注的图像，请选择**编辑数据集**和[向未标注的图像分配标签](canvas-edit-image.md#canvas-edit-image-assign)。您还可以在[编辑图像数据集](canvas-edit-image.md)时执行其他任务，例如重命名标签和向数据集添加图像。

1. 查看数据并对数据集进行任何更改后，选择**快速构建**或**标准构建**，开始构建模型。以下屏幕截图显示了准备构建的图像预测模型的**构建**页面。  
![\[单标签图像预测模型的构建页面。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/build-page-image-model.png)

模型开始构建后，您可以离开此页面。当模型在**我的模型**页面上显示为**就绪**时，即可进行分析和预测。

## 构建自定义文本预测模型
<a name="canvas-build-model-text"></a>

多元文本预测模型同时支持**快速构建**和**标准构建**。

要构建文本预测模型，请按以下步骤操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 选择**新建模型**。

1. 在**创建新模型**对话框中，执行以下操作：

   1. 在**模型名称**字段中输入名称。

   1. 选择**文本分析**问题类型。

   1. 选择**创建**。

1. 对于**选择数据集**，从数据集列表中选择您的数据集。如果您尚未导入数据，请选择**导入**以指导您完成导入数据工作流。

1. 如果您已准备好开始构建模型，请选定**选择数据集**。

1. 在**构建**选项卡的**目标列**下拉列表中，为模型选择要预测的目标。目标列必须具有二进制或分类数据类型，并且目标列中的每个唯一标签必须至少有 25 个条目（或数据行）。

1. 对于**模型类型**，确认模型类型自动设置为**多元文本预测**。

1. 对于训练列，选择文本数据的源列。这应该是包含要分析的文本的列。

1. 选择**快速构建**或**标准构建**，开始构建模型。以下屏幕截图显示了准备构建的文本预测模型的**构建**页面。  
![\[多元文本预测模型的构建页面。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/build-page-text-model.png)

模型开始构建后，您可以离开此页面。当模型在**我的模型**页面上显示为**就绪**时，即可进行分析和预测。

## 建立时间序列预测模型
<a name="canvas-build-model-forecasting"></a>

时间序列预测模型支持**快速构建**和**标准构建**。

要建立时间序列预测模型，请按照以下步骤操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 选择**新建模型**。

1. 在**创建新模型**对话框中，执行以下操作：

   1. 在**模型名称**字段中输入名称。

   1. 选择**时间序列预测**问题类型。

   1. 选择**创建**。

1. 对于**选择数据集**，从数据集列表中选择您的数据集。如果您尚未导入数据，请选择**导入**以指导您完成导入数据工作流。

1. 如果您已准备好开始构建模型，请选定**选择数据集**。

1. 在**构建**选项卡的**目标列**下拉列表中，为模型选择要预测的目标。

1. 在**模型类型**部分，选择**配置模型**。

1. 此时将打开**配置模型**框。在**时间序列配置**部分，填写以下字段：

   1. 在**项目 ID 列**中，选择数据集中唯一标识每一行的列。该列的数据类型应为 `Text`。

   1. （可选）对于**分组列**，选择一个或多个要用于对预测值进行分组的分类列（数据类型为 `Text`）。

   1. 对于**时间戳列**，选择带有时间戳（采用日期时间格式）的列。有关可接受的日期时间格式的更多信息，请参阅 [Amazon C SageMaker anvas 中的时间序列预测](canvas-time-series.md)。

   1. 在**预测长度**字段中，输入您想要预测值的时间段。Canvas 会自动检测数据中的时间单位。

   1. （可选）打开**使用假期时间表**开关，选择不同国家/区域的假期时间表，使您的假期数据预测更加准确。

1. 在**配置模型**框中，**高级**部分还有其他设置。有关各项高级设置的更多信息，请参阅 [高级模型构建配置](canvas-advanced-settings.md)。要配置**高级**设置，执行以下操作：

   1. 在**目标指标**下拉菜单中，选择您希望 Canvas 在构建模型时优化的指标。如果您没有选择指标，Canvas 会默认为您选择一个指标。有关这些指标的说明，请参阅 [指标参考](canvas-metrics.md)。

   1. 如果您运行的是标准构建，则您会看到**算法**部分。本部分用于选择您要用于构建模型的时间序列预测算法。您可以从可用算法中选择一个子集，如果您不确定要尝试哪些算法，也可以选择所有算法。

      当您运行标准构建时，Canvas 会构建一个集合模型，将所有算法结合在一起，以优化预测准确性。
**注意**  
如果您正在运行快速构建，Canvas 会使用一种基于树的学习算法来训练您的模型，您无需选择任何算法。

   1. 对于**预测分位数**，最多输入 5 个以逗号分隔的分位数，以指定预测的上下限。

   1. 配置完**高级**设置后，选择**保存**。

1. 选择或取消选择数据中的列，以便在构建时包含或删除这些列。
**注意**  
如果您在构建模型后使用模型进行批量预测，Canvas 会将删除的列添加到您的预测结果中。但是，Canvas 不会将删除的列添加到时间序列模型的批量预测中。

1. （可选）使用 Canvas 提供的可视化和分析工具将数据可视化，并确定您可能希望在模型中包含哪些特征。有关更多信息，请参阅[探索和分析数据](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html)。

1. （可选）使用数据转换功能来清理、转换和准备用于构建模型的数据。有关更多信息，请参阅[使用高级转换准备数据](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html)。您可以通过选择**模型配方**打开**模型配方**侧面板来查看和移除转换。

1. （可选）有关其他功能，如预览模型的准确性、验证数据集以及更改 Canvas 从数据集中抽取的随机样本的大小，请参阅[预览模型](canvas-preview-model.md)。

1. 查看数据并对数据集进行任何更改后，选择**快速构建**或**标准构建**，开始构建模型。

模型开始构建后，您可以离开此页面。当模型在**我的模型**页面上显示为**就绪**时，即可进行分析和预测。

# 高级模型构建配置
<a name="canvas-advanced-settings"></a>

Amazon SageMaker Canvas 支持各种高级设置，您可以在构建模型时配置这些设置。下一页列出了所有高级设置及其选项和配置的其他信息。

**注意**  
以下高级设置目前仅支持数字、分类和时间序列预测模型类型。

## 高级数字和分类预测模型设置
<a name="canvas-advanced-settings-predictive"></a>

Canvas 支持以下数字和分类预测模型类型的高级设置。

### 目标指标
<a name="canvas-advanced-settings-predictive-obj-metric"></a>

目标指标是您希望 Canvas 在构建模型时进行优化的指标。如果您没有选择指标，Canvas 会默认为您选择一个指标。有关这些指标的说明，请参阅 [指标参考](canvas-metrics.md)。

### 训练模型
<a name="canvas-advanced-settings-predictive-method"></a>

Canvas 可以根据数据集大小自动选择训练方法，您也可以手动选择。您可以选择以下训练方法：
+ **组合** — SageMaker AI 利用该 AutoGluon 库来训练多个基础模型。为了找到最适合您的数据集的组合，组合模式使用不同的模型和元参数设置运行 5-10 次试验。然后，使用堆叠组合方法，将这些模型组合在一起，创建最优预测模型。有关表格数据组合模式支持的算法列表，请参阅以下 [算法](#canvas-advanced-settings-predictive-algos) 部分。
+ **超参数优化 (HPO)** — SageMaker AI 在数据集上运行训练作业时使用贝叶斯优化或多保真度优化来调整超参数，从而找到模型的最佳版本。HPO 模式选择与您的数据集最相关的算法，并选择最佳的超参数范围来调整您的模型。为了调整模型，HPO 模式最多可运行 100 次试验（默认），以找到选定范围内的最佳超参数设置。如果您的数据集大小小于 100 MB， SageMaker AI 将使用贝叶斯优化。 SageMaker 如果您的数据集大于 100 MB，AI 会选择多保真度优化。

  有关表格数据 HPO 模式支持的算法列表，请参阅以下 [算法](#canvas-advanced-settings-predictive-algos) 部分。
+ **自动** — SageMaker AI 会根据您的数据集大小自动选择集合模式或 HPO 模式。如果您的数据集大于 100 MB， SageMaker AI 会选择 HPO 模式。否则，它会选择组合模式。

### 算法
<a name="canvas-advanced-settings-predictive-algos"></a>

在**组合**模式下，Canvas 支持以下机器学习算法：
+ [LightGBM](https://docs.aws.amazon.com/sagemaker/latest/dg/lightgbm.html) – 一种经过优化的框架，使用基于树的算法和梯度提升。此算法使用在广度而不是深度上增长的树，并且针对速度进行了高度优化。
+ [CatBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/catboost.html)— 一种使用基于树的算法和梯度提升的框架。针对处理分类变量进行了优化。
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— 一种使用基于树的算法的框架，其梯度提升是深度而不是广度增加的。
+ [随机森林](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) – 一种基于树的算法，在数据的随机子样本上使用多个决策树并进行替换。树在每个级别上拆分到最佳节点。对每个树的决策一起求平均值，以防止过度拟合并改善预测。
+ [额外的树](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier) – 基于树的算法，在整个数据集上使用多个决策树。树在每个级别上随机拆分。对每个树的决策进行求平均值，以防止过度拟合并改善预测。与随机森林算法相比，额外的树会增加一定程度的随机化。
+ [线性模型](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model) – 一种使用线性方程对所观测数据中两个变量之间的关系进行建模的框架。
+ 神经网络 torch – 使用 [Pytorch](https://pytorch.org/) 实施的神经网络模型。
+ 神经网络 fast.ai – 使用 [fast.ai](https://www.fast.ai/) 实施的神经网络模型。

在 **HPO 模式**下，Canvas 支持以下机器学习算法：
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— 一种监督学习算法，它试图通过组合来自一组更简单和更弱的模型的估计值来准确预测目标变量。
+ 深度学习算法 – 多层感知器 (MLP) 和前馈人工神经网络。此算法可以处理线性不可分的数据。

### 数据拆分
<a name="canvas-advanced-settings-predictive-split"></a>

您可以选择指定如何在训练集（数据集中用于构建模型的部分）和验证集（数据集中用于验证模型准确性的部分）之间拆分数据集。例如，常见的拆分比例是 80% 的训练数据和 20% 的验证数据，其中 80% 的数据用于构建模型，而 20% 的数据用于衡量模型性能。如果您未指定自定义比例，Canvas 会自动拆分数据集。

### 最大候选模型数量
<a name="canvas-advanced-settings-predictive-candidates"></a>

**注意**  
此功能仅在 HPO 训练模式下可用。

您可以指定 Canvas 在构建模型时生成的最大候选模型数量。我们建议您使用默认的候选模型数量（100）来构建最准确的模型。您最多可指定 250 个。减少候选模型的数量可能会影响模型的准确性。

### 最长作业运行时
<a name="canvas-advanced-settings-predictive-runtime"></a>

您可以指定最大作业运行时，或者 Canvas 用于构建模型的最长时间。时间限制过后，Canvas 会停止构建，并选择最佳候选模型。

您可指定的最长时间为 720 小时。我们强烈建议您将最大作业运行时保持在 30 分钟以上，以确保 Canvas 有足够的时间生成候选模型并完成模型构建。

## 高级时间序列预测模型设置
<a name="canvas-advanced-settings-time-series"></a>

对于时间序列预测模型，Canvas 支持上一节列出的目标指标。

时间序列预测模型还支持以下高级设置：

### 算法选择
<a name="canvas-advanced-settings-time-series-algos"></a>

当您构建时间序列预测模型时，Canvas 会使用统计和机器学习算法的*集合*（或组合）来提供高度准确的时间序列预测。默认情况下，Canvas 会根据数据集中的时间序列选择所有可用算法的最佳组合。但是，您可以选择指定一种或多种算法用于预测模型。在这种情况下，Canvas 将仅使用您选择的算法来确定最佳混合效果。如果您不确定选择哪种算法来训练模型，我们建议您选择所有可用的算法。

**注意**  
算法选择仅支持标准构建。如果您未在高级设置中选择任何算法，则默认情况下， SageMaker AI 会运行快速构建，并使用基于树的学习算法训练候选模型。有关快速构建和标准构建之间的差别的更多信息，请参阅 [自定义模型的工作原理](canvas-build-model.md)。

Canvas 支持以下时间序列预测算法：
+ [自回归整合移动平均线 (ARIMA)](https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average)：一种简单的随机时间序列模型，利用统计分析来解释数据并预测未来。这种算法适用于小于 100 个时间序列的简单数据集。
+ [卷积神经网络 - 分位数回归 (CNN-QR)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-algo-cnnqr.html)：一种专有的有监督学习算法，可从大量时间序列中训练一个全局模型，并使用分位数解码器进行预测。CNN-QR 最适合处理包含数百个时间序列的大型数据集。
+ [Deepar\$1](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-deeparplus.html) — 一种专有的监督学习算法，用于预测标量时间序列，使用循环神经网络 (RNNs) 在所有时间序列中联合训练单个模型。DeepAR\$1 最适合处理包含数百个特征时间序列的大型数据集。
+ [非参数时间序列 (NPTS)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-npts.html)：一种可扩展的概率基线预测器，可通过从过去的观测数据中采样，预测给定时间序列的未来值分布。NPTS 在处理稀疏或间歇性时间序列时非常有用（例如，在时间序列有许多 0 或低计数的情况下，预测对单个项目的需求）。
+ [指数平滑法 (ETS)](https://en.wikipedia.org/wiki/Exponential_smoothing)：一种预测方法，预测结果是过去观测数据的加权平均值，其中较早观测数据的权重呈指数级下降。此算法适用于时间序列少于 100 个的简单数据集和具有季节性规律的数据集。
+ [Prophet](https://facebook.github.io/prophet/)：一种加法回归模型，最适用于具有强烈季节效应和多季历史数据的时间序列。此算法适用于具有接近极限的非线性增长趋势的数据集。

### 预测分位数
<a name="canvas-advanced-settings-time-series-quantiles"></a>

对于时间序列预测， SageMaker AI 使用您的目标时间序列训练 6 个候选模型。然后， SageMaker AI 使用堆叠集成方法组合这些模型，为给定的目标指标创建最佳预测模型。每个预测模型都通过生成分位数在 P1 和 P99 之间的预测来生成概率预测。这些分位数用于解释预测的不确定性。默认情况下，为 0.1 (`p10`)、0.5 (`p50`) 和 0.9 (`p90`) 生成预测。您可以选择从 0.01 (`p1`) 到 0.99 (`p99`)，以 0.01 或更高的增量指定最多 5 个分位数。

# 编辑图像数据集
<a name="canvas-edit-image"></a>

在 Amazon SageMaker Canvas 中，您可以在构建模型之前编辑图像数据集并查看标签。您可能需要执行一些任务，例如为未标注的图像分配标签或向数据集中添加更多图像。这些任务都可以在 Canvas 应用程序中完成，为您提供了一个修改数据集和构建模型的地方。

**注意**  
在构建模型之前，必须为数据集中的所有图像分配标签。此外，每个标签必须至少有 25 张图像，且至少有两个标签。有关分配标签的更多信息，请参阅本页上名为**向未标注图像分配标签**的部分。如果您无法确定图像的标签，则应将其从数据集中删除。有关删除图像的更多信息，请参阅本页上的[在数据集中添加或删除图像](#canvas-edit-image-add-delete)部分。

要开始编辑图像数据集，您应该在构建单标签图像预测模型时进入**构建**选项卡。

这将打开一个新页面，其中显示数据集中的图像及其标签。此页面将图像数据集分为**总图像**、**已标注图像**和**未标注图像**。您也可以查看**数据集准备指南**，了解有关构建更准确的图像预测模型的最佳实践。

以下屏幕截图显示了用于编辑图像数据集的页面。

![\[Canvas 中图像数据集管理页面的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/dataset-management-page.png)


在此页面中，您可以执行以下操作。

## 查看每张图像的属性（标签、大小、尺寸）
<a name="canvas-edit-image-view"></a>

要查看单张图像，可以在搜索栏中按文件名进行搜索。然后，选择图像以打开完整视图。您可以查看图像属性并重新分配图像的标签。查看完图像后，选择**保存**。

## 添加、重命名或删除数据集中的标签
<a name="canvas-edit-image-labels"></a>

Canvas 在左侧导航窗格中列出了数据集的标签。通过在**添加标签**文本字段中输入标签，可以向数据集添加新标签。

要重命名或删除数据集中的标签，请选择标签旁边的**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，然后选择**重命名**或**删除**。如果重命名标签，则可以输入新的标签名称并选择**确认**。如果删除标签，则该标签将从数据集中所有带有该标签的图像中移除。任何带有该标签的映像都被取消标注。

## 向未标注的图像分配标签
<a name="canvas-edit-image-assign"></a>

要查看数据集中未标注的图像，请在左侧导航窗格中选择**未标注**。对于每张图像，将其选中并打开标题为**未标注**的标签，然后从下拉列表中选择要分配给该图像的标签。您也可以选择多张图像并执行此操作，然后为所有选定的图像分配您选择的标签。

## 为图像重新分配标签
<a name="canvas-edit-image-reassign"></a>

您可以通过选择图像（或一次选择多张图像）并打开标题为当前标签的下拉列表，为图像重新分配标签。选择所需的标签，然后使用新标签更新一张或多张图像。

## 按标签对图像进行排序
<a name="canvas-edit-image-sort"></a>

您可以通过在左侧导航窗格中选择标签来查看给定标签的所有图像。

## 在数据集中添加或删除图像
<a name="canvas-edit-image-add-delete"></a>

您可以通过在顶部导航窗格中选择**添加图像**来向数据集添加更多图像。系统将引导您完成导入更多图像的工作流。您导入的图像将添加到现有数据集中。

您可以从数据集中删除图像，方法是选择图像，然后在顶部导航窗格中选择**删除**。

**注意**  
对数据集进行任何更改后，请选择**保存数据集**以确保所做的更改不会丢失。

# 数据探索和分析
<a name="canvas-explore-data"></a>

**注意**  
您只能对基于表格数据集构建的模型使用 SageMaker Canvas 可视化和分析。多元文本预测模型也排除在外。

在 Amazon SageMaker Canvas 中，您可以使用可视化和分析来探索数据集中的变量，并创建应用程序内的可视化和分析。在构建模型之前，您可以利用这些探索来发现变量之间的关系。

有关 Canvas 中可视化技术的更多信息，请参阅[使用可视化技术探索数据](canvas-explore-data-visualization.md)。

有关 Canvas 中分析功能的更多信息，请参阅[使用分析功能来探索数据](canvas-explore-data-analytics.md)。

# 使用可视化技术探索数据
<a name="canvas-explore-data-visualization"></a>

**注意**  
只能对基于表格数据集构建的模型使用 SageMaker Canvas 可视化。多元文本预测模型也排除在外。

借助 Amazon SageMaker Canvas，您可以探索和可视化数据，以便在构建机器学习模型之前获得对数据的高级见解。您可以使用散点图、条形图和方框图进行可视化，这有助于您了解数据，并发现可能影响模型准确性的特征之间的关系。

在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择**数据可视化工具**开始创建您的可视化效果。

您可以更改可视化样本大小，以调整从数据集中抽取的随机样本的大小。样本量过大可能会影响数据可视化的性能，因此我们建议您选择适当的样本量。要更改样本量，请按照下列过程操作。

1. 选择**可视化样本**。

1. 使用滑块选择所需的样本量。

1. 选择**更新**以确认对样本量的更改。

**注意**  
某些可视化技术需要特定数据类型的列。例如，对于散点图的 x 轴和 y 轴，只能使用数值列。

## 散点图
<a name="canvas-explore-data-scatterplot"></a>

要使用您的数据集创建散点图，请在**可视化**面板中选择**散点图**。从**列**部分中选择要在 x 轴和 y 轴上绘制的特征。您可以将列拖放到坐标轴上，或者拖放坐标轴后，可以从支持的列列表中选择一列。

您可以使用**着色依据**根据第三个特征为绘图上的数据点着色。您也可以使用**分组依据**根据第四个特征将数据分组到单独的绘图中。

下图显示了使用**着色依据**和**分组依据**的散点图。在此示例中，每个数据点都按 `MaritalStatus` 特征着色，按 `Department` 特征分组会生成每个部门的数据点的散点图。

![\[Canvas 应用程序的数据可视化工具视图中散点图的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-eda-scatter-plot.png)


## 条形图
<a name="canvas-explore-data-barchart"></a>

要使用您的数据集创建条形图，请在**可视化**面板中选择**条形图**。从**列**部分中选择要在 x 轴和 y 轴上绘制的特征。您可以将列拖放到坐标轴上，或者拖放坐标轴后，可以从支持的列列表中选择一列。

您可以使用**分组依据**按第三个特征对条形图进行分组。您可以使用**堆叠依据**，根据第四个特征的唯一值对每个条形图进行垂直阴影处理。

下图显示了使用**分组依据**和**堆叠依据**的条形图。在此示例中，条形图按 `MaritalStatus` 特征分组，并按 `JobLevel` 特征堆叠。对于 x 轴上的每个 `JobRole`，`MaritalStatus` 特征中的独特类别都有一个单独的条形图，每个条形图都按 `JobLevel` 特征垂直堆叠。

![\[Canvas 应用程序的数据可视化工具视图中条形图的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-eda-bar-chart.png)


## 方框图
<a name="canvas-explore-data-boxplot"></a>

要使用您的数据集创建方框图，请在**可视化**面板中选择**方框图**。从**列**部分中选择要在 x 轴和 y 轴上绘制的特征。您可以将列拖放到坐标轴上，或者拖放坐标轴后，可以从支持的列列表中选择一列。

您可以使用**分组依据**按第三个特征对方框图进行分组。

下图显示了使用**分组依据**的方框图。在此示例中，x 轴和 y 轴分别显示 `JobLevel` 和 `JobSatisfaction`，彩色方框图按 `Department` 特征分组。

![\[Canvas 应用程序的数据可视化工具视图中方框图的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-eda-box-plot.png)


# 使用分析功能来探索数据
<a name="canvas-explore-data-analytics"></a>

**注意**  
您只能对基于表格数据集构建的模型使用 SageMaker Canvas 分析。多元文本预测模型也排除在外。

借助 Amazon SageMaker Canvas 中的分析，您可以在构建模型之前探索数据集并深入了解所有变量。您可以使用相关矩阵确定数据集中特征之间的关系。您可以使用此技术将数据集汇总到一个矩阵中，该矩阵显示两个或多个值之间的相关性。这有助于您识别和可视化给定数据集中的模式，以进行高级数据分析。

该矩阵显示每个特征之间的正相关、负相关或中性相关。在构建模型时，您可能希望包含彼此高度相关的特征。几乎没有相关性的特征可能与您的模型无关，您可以在构建模型时删除这些特征。

要开始在 C SageMaker anvas 中使用相关矩阵，请参阅以下部分。

## 创建相关矩阵
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

准备在 C SageMaker anvas 应用程序的 “构建” 选项卡中**构建**模型时，可以创建关联矩阵。

有关如何开始创建模型的说明，请参阅[构建模型](canvas-build-model-how-to.md)。

在 C SageMaker anvas 应用程序中开始准备模型后，请执行以下操作：

1. 在**构建**选项卡中，选择**数据可视化工具**。

1. 选择**分析**。

1. 选择**相关矩阵**。

您应该会看到一个类似于以下屏幕截图的可视化效果，该屏幕截图显示了最多 15 列的数据集，这些列被组织成一个相关矩阵。

![\[Canvas 应用程序中相关矩阵的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


创建相关矩阵后，您可以通过以下操作对其进行自定义：

### 1. 选择列
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

对于**列**，您可以选择要包含在矩阵中的列。您最多可以比较数据集中的 15 列数据。

**注意**  
您可以为相关矩阵使用数值、分类或二进制列类型。相关矩阵不支持日期时间或文本数据列类型。

要在相关矩阵中添加或删除列，请从**列**面板中选择和取消选择列。您还可以将面板上的列直接拖放到矩阵上。如果您的数据集包含很多列，则可以在**搜索列**栏中搜索所需的列。

要按数据类型筛选列，请选择下拉列表并选择**全部**、**数值**或**分类**。选择**全部**将显示数据集中的所有列，而**数值**和**分类**筛选条件仅显示数据集中的数值列或分类列。请注意，二进制列类型包含在数值或分类筛选条件中。

为了获得最佳的数据洞察力，请在相关性矩阵中包含目标列。当您将目标列包含在相关矩阵中时，它将显示为矩阵上带有目标符号的最后一个特征。

### 2. 选择相关类型
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas 支持不同的*关联类型*或计算列间相关性的方法。

要更改相关类型，请使用上一节中提到的**列**筛选条件来筛选所需的列类型和列。您应该可以在侧面板中看到**相关类型**。对于数值比较，您可以选择 **Pearson** 或 **Spearman**。对于分类比较，相关类型设置为 **MI**。对于分类比较和混合比较，相关类型设置为 **Spearman & MI**。

对于仅比较数值列的矩阵，相关类型为 Pearson 或 Spearman。Pearson 度量用于评估两个连续变量之间的线性关系。Spearman 度量用于评估两个变量之间的单调关系。对于 Pearson 和 Spearman 来说，相关度的范围从 -1 到 1，两端表示完全相关（1:1 的直接关系），0 表示不相关。如果您的数据具有更多的线性关系（如[散点图可视化](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot)所示），那么您可能需要选择 Pearson。如果您的数据不是线性的，或者混合包含线性关系和单调关系，那么您可能需要选择 Spearman。

对于仅比较分类列的矩阵，相关类型设置为互信息分类 (MI)。MI 值是衡量两个随机变量之间相互依赖性的指标。MI 测量值的范围为 0 到 1，其中 0 表示无相关性，1 表示完全相关。

对于数值列和分类列混合比较的矩阵，相关类型 **Spearman & MI** 是 Spearman 和 MI 相关类型的组合。对于两个数值列之间的相关性，矩阵显示 Spearman 值。对于数值列和分类列或两个分类列之间的相关性，矩阵显示 MI 值。

最后，请记住，相关性并不一定表示因果关系。强相关值只表明两个变量之间存在关系，但变量之间可能没有因果关系。请仔细检查感兴趣的列，以免在构建模型时出现偏差。

### 3. 筛选相关性
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

在侧面板中，您可以使用**筛选相关性**功能筛选要包含在矩阵中的相关值范围。例如，如果要筛选仅具有正相关性或中性相关性的特征，可以将**最小值**设为 0，将**最大值**设为 1（有效值为 -1 至 1）。

对于 Spearman 和 Pearson 比较，可以将**筛选相关性**范围设置在 -1 到 1 之间，0 表示没有相关性。-1 和 1 分别表示变量之间有很强的负相关性或正相关性。

对于 MI 比较，相关性范围仅从 0 到 1，0 表示没有相关性，1 表示变量之间有很强的相关性，无论是正相关性还是负相关性。

每个特征都与自身具有完美的相关性 (1)。因此，您可能会注意到相关矩阵的顶行始终为 1。如果要排除这些值，可以使用筛选器将**最大值**设置为小于 1。

请记住，如果您的矩阵比较的是数值列和分类列的组合，并使用 **Spearman & MI** 相关类型，那么*分类 x 数值*和*分类 x 分类*相关性（使用 MI 测量）的范围是 0 到 1，而*数值 x 数值*相关性（使用 Spearman 测量）的范围是 -1 到 1。仔细查看您感兴趣的相关性，确保您知道用于计算每个值的相关类型。

### 4. 选择可视化方法
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

在侧面板中，您可以使用**可视化依据**来更改矩阵的可视化方法。选择**数值**可视化方法可显示相关性（Pearson、Spearman 或 MI）值，或选择**大小**可视化方法则可通过不同大小和颜色的点显示相关性。如果选择**大小**，则可以将鼠标悬停在矩阵上的特定点上以查看实际的相关值。

### 5. 选择调色板
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

在侧面板中，您可以使用**颜色选择**来更改矩阵中负相关与正相关比例所使用的调色板。选择一个备用调色板来更改矩阵中使用的颜色。

# 为模型构建准备数据
<a name="canvas-prepare-data"></a>

**注意**  
现在，你可以使用 Data Wrangler 在 SageMaker Canvas 中进行高级数据准备，它为你提供了自然语言界面和 300 多种内置转换。有关更多信息，请参阅 [数据准备](canvas-data-prep.md)。

在构建模型之前，您的机器学习数据集可能需要准备数据。由于各种问题（可能包括缺失值或异常值），您可能需要清理数据，并执行特征工程以提高模型的准确性。Amazon SageMaker Canvas 提供机器学习数据转换，您可以使用它来清理、转换和准备数据以进行模型构建。您无需任何代码即可在数据集中使用这些变换。 SageMaker Canvas 将你使用的变换添加到**模型配方**中，该配方记录了在构建模型之前对数据所做的准备工作。您使用的任何数据转换都只会修改用于构建模型的输入数据，而不会修改原始数据来源。

数据集的预览会显示数据集的前 100 行数据。如果数据集的行数超过 2 万行，Canvas 会随机抽取 2 万行样本，并预览该样本中的前 100 行数据。您只能从预览行中搜索和指定值，而筛选器功能只能筛选预览行，而不能筛选整个数据集。

Can SageMaker vas 中提供了以下变换，供您为构建数据做好准备。

**注意**  
只能对基于表格数据集构建的模型使用高级转换。多元文本预测模型也排除在外。

## 删除列
<a name="canvas-prepare-data-drop"></a>

您可以将某列拖放到 C SageMaker anvas 应用程序的 “构建” 选项卡中，将其从模型**构建**中排除。取消选择要删除的列，在构建模型时该列将不包括在内。

**注意**  
如果您删除列，然后使用模型进行[批量预测](canvas-make-predictions.md)， SageMaker Canvas 会将删除的列重新添加到可供您下载的输出数据集中。但是，对于时间序列模型， SageMaker Canvas 不会重新添加已删除的列。

## 筛选行
<a name="canvas-prepare-data-filter"></a>

筛选功能可根据您指定的条件筛选预览行（数据集的前 100 行）。筛选行会创建数据的临时预览，不会影响模型构建。您可以通过筛选来预览缺失值、包含异常值或符合您所选列中自定义条件的行。

### 按缺失值筛选行
<a name="canvas-prepare-data-filter-missing"></a>

在机器学习数据集中，缺失值是一种常见情况。如果某些列中的行值为 null 值或为空值，则可能需要筛选和预览这些行。

要从预览数据中筛选缺失值，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**按行筛选**” (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/filter-icon.png))。

1. 选择要检查缺失值的**列**。

1. 在**操作**中，选择**是缺失值**。

SageMaker 画布筛选所选**列**中包含缺失值的行，并提供筛选行的预览。

![\[C SageMaker anvas 应用程序中按缺失值进行过滤操作的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-filter-missing.png)


### 按异常值筛选行
<a name="canvas-prepare-data-filter-outliers"></a>

异常值或数据分布和范围中的稀有值可能会对模型精度产生负面影响，并导致更长的构建时间。 SageMaker Canvas 允许您检测和筛选数字列中包含异常值的行。您可以选择使用标准差或自定义范围来定义异常值。

要筛选数据中的异常值，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**按行筛选**” (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/filter-icon.png))。

1. 选择要检查异常值的**列**。

1. 在**操作**中，选择**是异常值**。

1. 将**异常值范围**设置为**标准差**或**自定义范围**。

1. 如果选择**标准差**，请指定 1–3 之间的 **SD**（标准差）值。如果选择**自定义范围**，请选择**百分位数**或**数字**，然后指定**最小值**和**最大值**。

**标准差**选项使用平均值和标准差来检测和筛选数值列中的异常值。您可以指定一个值必须与平均值相差多少个标准差才能被视为异常值。例如，如果您指定 **SD** 为 `3`，那么一个值必须偏离平均值 3 个标准差以上才会被视为异常值。

**自定义范围**选项使用最小值和最大值来检测和筛选数值列中的异常值。如果您知道划分异常值的阈值，请使用此方法。您可以将范围的**类型**设置为**百分位数**或**数字**。如果选择**百分位数**，则**最小值**和**最大值**应是您想要允许的百分位数范围 (0-100) 的最小值和最大值。如果选择**数字**，则**最小值**和**最大值**应为要在数据中筛选的最小和最大数值。

![\[C SageMaker anvas 应用程序中按异常值过滤操作的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-filter-outlier.png)


### 按自定义值筛选行
<a name="canvas-prepare-data-filter-custom"></a>

您可以筛选具有满足自定义条件的值的行。例如，您可能希望在删除价格值大于 100 的行之前预览这些行。使用此功能，您可以筛选超过您设置的阈值的行并预览已筛选的数据。

要使用自定义筛选功能，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**按行筛选**” (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/filter-icon.png))。

1. 选择要检查的**列**。

1. 选择要使用的**操作**类型，然后为所选条件指定值。

对于**操作**，您可以选择以下选项之一。请注意，可用的操作取决于您选择的列的数据类型。例如，您无法为包含文本值的列创建 `is greater than` 操作。


| 操作 | 支持的数据类型 | 支持的特征类型 | 功能 | 
| --- | --- | --- | --- | 
|  等于  |  数值、文本  | 二进制、分类 |  筛选**列**中值等于指定值的行。  | 
|  不等于  |  数值、文本  | 二进制、分类 |  筛选**列**中值不等于指定值的行。  | 
|  小于  |  数值  | 不适用 |  筛选**列**中值小于指定值的行。  | 
|  小于或等于  |  数值  | 不适用 |  筛选**列**中值小于或等于指定值的行。  | 
|  大于  |  数值  | 不适用 |  筛选**列**中值大于指定值的行。  | 
|  大于或等于  |  数值  | 不适用 |  筛选**列**中值大于或等于指定值的行。  | 
|  介于  |  数值  | 不适用 |  筛选**列**中值介于或等于指定的两个值的行。  | 
|  包含  |  文本  | 分类 |  筛选**列**中值包含指定值的行。  | 
|  开始于  |  文本  | 分类 |  筛选**列**中值开始于指定值的行。  | 
|  结束于  |  分类  | 分类 |  筛选**列**中值结束于指定值的行。  | 

设置筛选操作后， SageMaker Canvas 会更新数据集的预览以显示筛选后的数据。

![\[C SageMaker anvas 应用程序中按自定义值筛选操作的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-filter-custom.png)


## 函数和运算符
<a name="canvas-prepare-data-custom-formula"></a>

您可以使用数学函数和运算符来探索和分配数据。您可以使用 SageMaker Canvas 支持的函数，也可以使用现有数据创建自己的公式，然后使用公式的结果创建新列。例如，您可以将两列的相应值相加，并将结果保存到新列中。

您可以嵌套语句来创建更复杂的函数。以下是您可能使用的嵌套函数的一些示例。
+ 要计算 BMI，可以使用函数 `weight / (height ^ 2)`。
+ 要对年龄进行分类，可以使用函数 `Case(age < 18, 'child', age < 65, 'adult', 'senior')`。

在构建模型之前，可以在数据准备阶段指定函数。要使用函数，请执行以下操作。
+ 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**查看全部**”，然后选择 “**自定义公式**” 以打开 “**自定义公式**” 面板。
+ 在**自定义公式**面板中，您可以选择要添加到**模型配方**中的**公式**。每个公式都应用于您指定的列中的所有值。对于接受两列或更多列作为参数的公式，请使用数据类型匹配的列；否则会出错或在新列中出现 `null` 值。
+ 指定**公式**后，在 “**新列名” 字段中添加列名**。 SageMaker Canvas 将此名称用于创建的新列。
+ （可选）选择**预览**以预览您的转换结果。
+ 要将函数添加到**模型配方**中，请选择**添加**。

SageMaker Canvas 使用您在新列名中指定的名称将函数的结果保存到**新列**中。您可以从**模型配方**面板中查看或删除函数。

SageMaker Canvas 支持以下函数运算符。您可以使用文本格式或内联格式来指定函数。


| 运算符 | 说明 | 支持的数据类型 | 文本格式 | 内联格式 | 
| --- | --- | --- | --- | --- | 
|  添加  |  返回各值之和  |  数值  | Add(sales1, sales2) | sales1 \$1 sales2 | 
|  Subtract  |  返回值之间的差值  |  数值  | Subtract(sales1, sales2) | sales1 ‐ sales2 | 
|  Multiply  |  返回值的乘积  |  数值  | Multiply(sales1, sales2) | sales1 \$1 sales2 | 
|  Divide  |  返回值的商  |  数值  | Divide(sales1, sales2) | sales1 / sales2 | 
|  Mod  |  返回取模运算符的结果（两个值相除后的余数）  |  数值  | Mod(sales1, sales2) | sales1 % sales2 | 
|  Abs  | 返回值的绝对值 |  数值  | Abs(sales1) | 不适用 | 
|  Negate  | 返回值的负值 |  数值  | Negate(c1) | ‐c1 | 
|  Exp  |  返回 e（欧拉数）的幂值  |  数值  | Exp(sales1) | 不适用 | 
|  Log  |  返回值的对数（以 10 为底）  |  数值  | Log(sales1) | 不适用 | 
|  Ln  |  返回值的自然对数（以 e 为底）  |  数值  | Ln(sales1) | 不适用 | 
|  Pow  |  返回值的幂级数  |  数值  | Pow(sales1, 2) | sales1 ^ 2 | 
|  If  |  根据指定的条件返回 true 或 false 标签  |  布尔值、数字、文本  | If(sales1>7000, 'truelabel, 'falselabel') | 不适用 | 
|  Or  |  返回一个布尔值，表示指定值或条件之一是否为真  |  布尔值  | Or(fullprice, discount) | fullprice \$1\$1 discount | 
|  And  |  返回一个布尔值，表示两个指定的值或条件是否为真  |  布尔值  | And(sales1,sales2) | sales1 && sales2 | 
|  Not  |  返回与指定值或条件相反的布尔值  |  布尔值  | Not(sales1) | \$1sales1 | 
|  Case  |  根据条件语句返回布尔值（如果 cond1 为真，则返回 c1，如果 cond2 为真，则返回 c2，否则返回 c3）  |  布尔值、数字、文本  | Case(cond1, c1, cond2, c2, c3) | 不适用 | 
|  Equal  |  返回一个布尔值，表示两个值是否相等  |  布尔值、数字、文本  | 不适用 | c1 = c2c1 == c2 | 
|  Not equal  |  返回一个布尔值，表示两个值是否不相等  |  布尔值、数字、文本  | 不适用 | c1 \$1= c2 | 
|  Less than  |  返回一个布尔值，表示 c1 是否小于 c2  |  布尔值、数字、文本  | 不适用 | c1 < c2 | 
|  Greater than  |  返回一个布尔值，表示 c1 是否大于 c2  |  布尔值、数字、文本  | 不适用 | c1 > c2 | 
|  Less than or equal  |  返回一个布尔值，表示 c1 是否小于或等于 c2  |  布尔值、数字、文本  | 不适用 | c1 <= c2 | 
|  Greater than or equal  |  返回一个布尔值，表示 c1 是否大于或等于 c2  |  布尔值、数字、文本  | 不适用 | c1 >= c2 | 

SageMaker Canvas 还支持聚合运算符，它可以执行诸如计算所有值的总和或查找列中的最小值之类的操作。可以在函数中将聚合运算符与标准运算符结合使用。例如，要计算值与均值的差，可以使用函数`Abs(height – avg(height))`。 SageMaker Canvas 支持以下聚合运算符。


| 聚合运算符 | 说明 | 格式 | 示例 | 
| --- | --- | --- | --- | 
|  sum  |  返回列中所有值的总和  | sum | sum(c1) | 
|  minimum  |  返回列的最小值  | min | min(c2) | 
|  maximum  |  返回列的最大值  | max | max(c3) | 
|  average  |  返回列的平均值  | avg | avg(c4) | 
|  std  | 返回列的样本标准差 | std | std(c1) | 
|  stddev  | 返回列中值的标准差 | stddev | stddev(c1) | 
|  variance  | 返回列中值的无偏方差 | variance | variance(c1) | 
|  approx\$1count\$1distinct  | 返回列中不同项的大致数量 | approx\$1count\$1distinct | approx\$1count\$1distinct(c1) | 
|  count  | 返回列中的项数 | count | count(c1) | 
|  first  |  返回列的第一个值  | 第一个 | first(c1) | 
|  last  |  返回列的最后一个值  | last | last(c1) | 
|  stddev\$1pop  | 返回列的总体标准差 | stddev\$1pop | stddev\$1pop(c1) | 
|  variance\$1pop  |  返回列中值的总体方差  | variance\$1pop | variance\$1pop(c1) | 

## 管理行
<a name="canvas-prepare-data-manage"></a>

使用“管理行”转换，可以对数据集中的数据行进行排序、随机排列以及删除数据行。

### 排序行
<a name="canvas-prepare-data-manage-sort"></a>

要按给定列对数据集中的行进行排序，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**管理行**”，然后选择 “**对行进行排序**”。

1. 在**排序列**中，选择要作为排序依据的列。

1. 在**排序顺序**中，选择**升序**或**降序**。

1. 选择**添加**将该转换添加到**模型配方**中。

### 随机排列行
<a name="canvas-prepare-data-manage-shuffle"></a>

要随机排列数据集中的行，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**管理行**”，然后选择 “**随机排列**”。

1. 选择**添加**将该转换添加到**模型配方**中。

### 删除重复的行
<a name="canvas-prepare-data-manage-drop-duplicate"></a>

要删除数据集中的重复行，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**管理行**”，然后选择 “**删除重复行**”。

1. 选择**添加**将该转换添加到**模型配方**中。

### 按缺失值删除行
<a name="canvas-prepare-data-remove-missing"></a>

缺失值在机器学习数据集中很常见，可能会影响模型的准确性。如果要删除某些列中为 null 值或空值的行，请使用此转换。

要删除指定列中包含缺失值的行，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**管理行**”。

1. 选择**按缺失值删除行**。

1. 选择**添加**将该转换添加到**模型配方**中。

SageMaker Canvas 会删除所选**列**中包含缺失值的行。从数据集中移除行后， SageMaker Canvas 会在**模型配方**部分中添加变换。如果从**模型配方**部分中删除转换，则这些行将返回到您的数据集。

![\[C SageMaker anvas 应用程序中按缺失值删除行操作的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-remove-missing.png)


### 按异常值删除行
<a name="canvas-prepare-data-remove-outliers"></a>

异常值或数据分布和范围中的罕见值会对模型的准确性产生负面影响，并导致构建时间延长。使用 SageMaker Canvas，您可以检测和删除数字列中包含异常值的行。您可以选择使用标准差或自定义范围来定义异常值。

要从数据中删除异常值，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**管理行**”。

1. 选择**按异常值删除行**。

1. 选择要检查异常值的**列**。

1. 将**运算符**设置为**标准差**、**自定义数值范围**或**自定义分位数范围**。

1. 如果选择**标准差**，请指定 1–3 之间的**标准差**值。如果选择**自定义数值范围**或**自定义分位数范围**，请指定**最小值**和**最大值**（数值范围为数字，分位数范围为 0-100% 之间的百分位数）。

1. 选择**添加**将该转换添加到**模型配方**中。

**标准差**选项使用平均值和标准差来检测和删除数值列中的异常值。您可以指定一个值必须与平均值相差多少个标准差才能被视为异常值。例如，如果您指定**标准差**为 `3`，那么一个值必须偏离平均值 3 个标准差以上才会被视为异常值。

**自定义数值范围**和**自定义分位数范围**选项使用最小值和最大值检测和删除数值列中的异常值。如果您知道划分异常值的阈值，请使用此方法。如果选择数值范围，则**最小值**和**最大值**应是数据中允许的最小和最大数值。如果选择分位数范围，则**最小值**和**最大值**应该是您希望允许的百分位数范围 (0–100) 的最小值和最大值。

从数据集中移除行后， SageMaker Canvas 会在**模型配方**部分中添加变换。如果从**模型配方**部分中删除转换，则这些行将返回到您的数据集。

![\[C SageMaker anvas 应用程序中按异常值删除行操作的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-remove-outlier.png)


### 按自定义值删除行
<a name="canvas-prepare-data-remove-custom"></a>

您可以删除值符合自定义条件的行。例如，在构建模型时，您可能希望排除所有价格值大于 100 的行。通过这种转换，您可以创建一条规则，删除所有超过您设置的阈值的行。

要使用自定义删除转换，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**管理行**”。

1. 选择**按公式删除行**。

1. 选择要检查的**列**。

1. 选择要使用的**操作**类型，然后为所选条件指定值。

1. 选择**添加**将该转换添加到**模型配方**中。

对于**操作**，您可以选择以下选项之一。请注意，可用的操作取决于您选择的列的数据类型。例如，您无法为包含文本值的列创建 `is greater than` 操作。


| 操作 | 支持的数据类型 | 支持的特征类型 | 功能 | 
| --- | --- | --- | --- | 
|  等于  |  数值、文本  |  二进制、分类  |  删除**列**中值等于指定值的行。  | 
|  不等于  |  数值、文本  |  二进制、分类  |  删除**列**中值不等于指定值的行。  | 
|  小于  |  数值  | 不适用 |  删除**列**中值小于指定值的行。  | 
|  小于或等于  |  数值  | 不适用 |  删除**列**中值小于或等于指定值的行。  | 
|  大于  |  数值  | 不适用 |  删除**列**中值大于指定值的行。  | 
|  大于或等于  | 数值 | 不适用 |  删除**列**中值大于或等于指定值的行。  | 
|  介于  | 数值 | 不适用 |  删除**列**中值介于或等于指定的两个值的行。  | 
|  包含  |  文本  | 分类 |  删除**列**中值包含指定值的行。  | 
|  开始于  |  文本  | 分类 |  删除**列**中值开始于指定值的行。  | 
|  结尾为  |  文本  | 分类 |  删除**列**中值结束于指定值的行。  | 

从数据集中移除行后， SageMaker Canvas 会在**模型配方**部分中添加变换。如果从**模型配方**部分中删除转换，则这些行将返回到您的数据集。

![\[C SageMaker anvas 应用程序中按自定义值删除行操作的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-remove-custom.png)


## 重命名列
<a name="canvas-prepare-data-rename"></a>

通过重命名列转换，您可以重命名数据中的列。当您重命名列时， SageMaker Canvas 会更改模型输入中的列名。

您可以通过双击 C SageMaker anvas 应用程序的 “**构建**” 选项卡中的列名称并输入新名称来重命名数据集中的列。按 **Enter** 键可提交更改，单击输入框外的任意位置可取消更改。您还可以单击列表视图中行末尾或网格视图中标题单元末尾的**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，然后选择**重命名**来重命名列。

列名不能超过 32 个字符，也不能有双下划线 (\$1\$1)，而且不能将一列重命名为与另一列相同的名称。您也不能重命名已删除的列。

以下屏幕截图显示了如何通过双击列名来重命名列。

![\[在 C SageMaker anvas 应用程序中使用双击方法重命名列的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-rename-column.png)


当您重命名列时， SageMaker Canvas 会在**模型配方**部分中添加变换。如果从**模型配方**部分中删除转换，列就会恢复到原来的名称。

## 管理列
<a name="canvas-prepare-data-manage-cols"></a>

通过以下变换，您可以更改列的数据类型并替换特定列的缺失值或异常值。 SageMaker Canvas 在构建模型时使用更新的数据类型或值，但不会更改您的原始数据集。请注意，如果您使用[删除列](#canvas-prepare-data-drop)转换从数据集中删除了一列，则无法替换该列中的值。

### 替换缺失值
<a name="canvas-prepare-data-replace-missing"></a>

缺失值在机器学习数据集中很常见，可能会影响模型的准确性。您可以选择删除具有缺失值的行，但如果您选择替换缺失值，您的模型会更准确。使用此转换，可以用列中数据的平均值或中位数替换数值列中的缺失值，也可以指定一个自定义值来替换缺失值。对于非数值列，可以用列的模式（最常用值）或自定义值替换缺失值。

如果要替换某些列中的 null 值或空值，请使用此转换。要替换指定列中的缺失值，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**管理列**”。

1. 选择**替换缺失值**。

1. 选择要替换其中缺失值的**列**。

1. 将**模式**设置为**手动**，将缺失值替换为您指定的值。在 “**自动”（默认）**设置中， SageMaker Canvas 会将缺失值替换为最适合您的数据的估算值。除非指定**手动**模式，否则每次构建模型时都会自动执行这种估算方法。

1. 设置**替换为**值：
   + 如果您的列是数值列，请选择**平均值**、**中位数**或**自定义**。**平均值**用该列的平均值替换缺失值，而**中位数**则用该列的中位数替换缺失值。如果选择**自定义**，则必须指定要用于替换缺失值的自定义值。
   + 如果您的列不是数值列，请选择**模式**或**自定义**。**模式**将缺失值替换为列的模式或最常用值。对于**自定义**，指定要用来替换缺失值的自定义值。

1. 选择**添加**将该转换添加到**模型配方**中。

替换数据集中的缺失值后， SageMaker Canvas 会在**模型配方**部分中添加变换。如果从**模型配方**部分中删除转换，则缺失值将返回到数据集中。

![\[C SageMaker anvas 应用程序中替换缺失值操作的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-replace-missing.png)


### 替换异常值
<a name="canvas-prepare-data-replace-outliers"></a>

异常值或数据分布和范围中的稀有值可能会对模型精度产生负面影响，并导致更长的构建时间。 SageMaker Canvas 使您能够检测数字列中的异常值，并将异常值替换为位于数据中可接受范围内的值。您可以选择使用标准差或自定义范围来定义异常值，也可以将异常值替换为可接受范围内的最小值和最大值。

要替换数据中的异常值，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**管理列**”。

1. 选择**替换异常值**。

1. 选择要替换其中异常值的**列**。

1. 对于**定义异常值**，选择**标准差**、**自定义数值范围**或**自定义分位数范围**。

1. 如果选择**标准差**，请指定 1–3 之间的**标准差**值。如果选择**自定义数值范围**或**自定义分位数范围**，请指定**最小值**和**最大值**（数值范围为数字，分位数范围为 0-100% 之间的百分位数）。

1. 对于**替换为**，选择**最小/最大范围**。

1. 选择**添加**将该转换添加到**模型配方**中。

**标准差**选项使用平均值和标准差来检测数值列中的异常值。您可以指定一个值必须与平均值相差多少个标准差才能被视为异常值。例如，如果您为**标准差**指定 3，则一个值必须与均值相差超过 3 个标准差才能被视为异常值。 SageMaker Canvas 用可接受范围内的最小值或最大值替换异常值。例如，如果您将标准差配置为仅包含 200—300 之间的值，则 SageMaker Canvas 会将值 198 更改为 200（最小值）。

**自定义数值范围**和**自定义分位数范围**选项使用最小值和最大值来检测数值列中的异常值。如果您知道划分异常值的阈值，请使用此方法。**如果选择数值范围，则最小值和**最大**值应是您想要允许的最小和最大数值。** SageMaker Canvas 会将任何超出最小值和最大值的值替换为最小值和最大值。例如，如果您的范围仅允许 1—100 之间的值，则 SageMaker Canvas 会将值 102 更改为 100（最大值）。如果选择分位数范围，则**最小值**和**最大值**应该是您希望允许的百分位数范围 (0–100) 的最小值和最大值。

替换数据集中的值后， SageMaker Canvas 会在**模型配方**部分中添加变换。如果从**模型配方**部分中删除该转换，则原始值将返回到数据集中。

![\[C SageMaker anvas 应用程序中替换异常值操作的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-replace-outlier.png)


### 更改数据类型
<a name="canvas-prepare-data-change-type"></a>

SageMaker Canvas 使您能够在数字、文本和日期时间之间更改列*的数据类型*，同时还可以显示该数据类型的关联*要素类型*。*数据类型*是指数据的格式及其存储方式，而*特征类型*是指机器学习算法中使用的数据的特征，例如二进制或分类。这样，您就可以根据特征灵活地手动更改列中的数据类型。选择正确的数据类型的能力可确保在构建模型之前的数据完整性和准确性。这些数据类型用于构建模型。

**注意**  
当前，不支持更改特征类型（例如，从二进制更改为分类）。

下表列出了 Canvas 支持的所有数据类型。


| 数据类型 | 说明 | 示例 | 
| --- | --- | --- | 
| 数值 | 数值数据表示数值 | 1, 2, 31.1, 1.2。1.3 | 
| 文本 | 文本数据表示字符序列，例如名称或描述 | A, B, C, Dapple, banana, orange1A\$1, 2A\$1, 3A\$1 | 
| 日期时间 | 日期时间数据以时间戳格式表示日期和时间 | 2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00 | 

下表列出了 Canvas 支持的所有特征类型。


| 特征类型 | 说明 | 示例 | 
| --- | --- | --- | 
| 二元 | 二元特征表示两个可能的值 | 0, 1, 0, 1, 0（2 个不同的值）true, false, true（2 个不同的值） | 
| 分类 | 分类特征表示不同的类别或群组 | apple, banana, orange, apple（3 个不同的值）A, B, C, D, E, A, D, C（5 个不同的值） | 

要修改数据集中某列的数据类型，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，转到 “**列” 视图**或 “**网格” 视**图，然后为特定列选择**数据类型**下拉列表。

1. 在**数据类型**下拉菜单中，选择要转换为的数据类型。以下屏幕截图显示了该下拉菜单。  
![\[列的数据类型转换下拉菜单，显示在构建选项卡中。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-change.png)

1. 对于**列**，选择或验证要更改其数据类型的列。

1. 对于**新数据类型**，选择或验证要转换为的新数据类型。

1. 如果**新数据类型**为`Datetime`或`Numeric`，请在**处理无效值**下选择以下选项之一：

   1. **替换为空值** – 用空值替换无效值

   1. **删除行** - 从数据集中删除具有无效值的行

   1. **替换为自定义值** - 用您指定的**自定义值**替换无效值。

1. 选择**添加**将该转换添加到**模型配方**中。

您的列的数据类型现在应该已更新。

## 准备时间序列数据
<a name="canvas-prepare-data-timeseries"></a>

使用以下功能准备时间序列数据，以构建时间序列预测模型。

### 重新采样时间序列数据
<a name="canvas-prepare-data-resample"></a>

通过对时间序列数据进行重采样，您可以为时间序列数据集中的观测值建立固定的时间间隔。这在处理包含不规则间隔观测值的时间序列数据时特别有用。例如，您可以使用重采样将每隔一小时、两小时和三小时记录一次观测值的数据集转换为每隔一小时记录一次观测值的常规数据集。预测算法需要定期进行观测。

要对时间序列数据进行重新采样，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择 “**时间序列**”。

1. 选择**重新采样**。

1. 对于**时间戳列**，选择要对其应用转换的列。您只能选择**日期时间**类型的列。

1. 在**频率设置**部分，选择**频率**和**速率**。**频率**是指频率单位，**速率**是指应用于列的频率单位的间隔。例如，如果为**频率值**选择`Calendar Day`并为**速率**选择 `1`，则会将间隔设置为每 1 个日历日增加一次，例如 `2023-03-26 00:00:00`、`2023-03-27 00:00:00`、`2023-03-28 00:00:00`。有关**频率值**的完整列表，请参阅此过程后的表格。

1. 选择**添加**将该转换添加到**模型配方**中。

下表列出了在对时间序列数据进行重采样时可以选择的所有**频率**类型。


| 频率 | 说明 | 示例值（假设速率为 1） | 
| --- | --- | --- | 
|  工作日  |  将日期时间列中的观测值重采样为一周中的 5 个工作日（星期一、星期二、星期三、星期四、星期五）  |  2023-03-24 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-03 00:00:00  | 
|  日历日  |  将日期时间列中的观测值重采样为一周中的所有 7 天（星期一、星期二、星期三、星期四、星期五、星期六、星期日）  |  2023-03-26 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-01 00:00:00  | 
|  周  |  将日期时间列中的观测值重采样为每周的第一天  |  2023-03-13 00:00:00 2023-03-20 00:00:00 2023-03-27 00:00:00 2023-04-03 00:00:00  | 
|  月  |  将日期时间列中的观测值重采样为每个月的第一天  |  2023-03-01 00:00:00 2023-04-01 00:00:00 2023-05-01 00:00:00 2023-06-01 00:00:00  | 
|  年度季度  |  将日期时间列中的观测值重采样为每个季度的最后一天  |  2023-03-31 00:00:00 2023-06-30 00:00:00 2023-09-30 00:00:00 2023-12-31 00:00:00  | 
|  Year  |  将日期时间列中的观测值重采样为每年的最后一天  |  2022-12-31 0:00:00 2023-12-31 00:00:00 2024-12-31 00:00:00  | 
|  小时  |  将日期时间列中的观测值重采样为每天的每个小时  |  2023-03-24 00:00:00 2023-03-24 01:00:00 2023-03-24 02:00:00 2023-03-24 03:00:00  | 
|  分钟  |  将日期时间列中的观测值重采样为每小时的每一分钟  |  2023-03-24 00:00:00 2023-03-24 00:01:00 2023-03-24 00:02:00 2023-03-24 00:03:00  | 
|  秒  |  将日期时间列中的观测值重采样为每分钟的每一秒  |  2023-03-24 00:00:00 2023-03-24 00:00:01 2023-03-24 00:00:02 2023-03-24 00:00:03  | 

应用重采样转换时，可以使用**高级**选项来指定如何修改数据集中其余列（时间戳列除外）的结果值。这可以通过指定重采样方法来实现，对于数值列和非数值列，重采样方法可以是下采样或上采样。

*下采样*会延长数据集中观测值之间的间隔。例如，如果对每小时或每两小时记录的观测值进行下采样，那么数据集中的每个观测值将每两小时记录一次。使用组合方法将每小时观测值中其他列的值聚合为单个值。下表显示了使用均值作为组合方法对时间序列数据进行下采样的示例。数据采样从每两小时一次降到每小时一次。

下表显示了下采样之前一天内每小时的温度读数。


| Timestamp | 温度（摄氏度） | 
| --- | --- | 
| 12:00 pm | 30 | 
| 1:00 am | 32 | 
| 2:00 am | 35 | 
| 3:00 am | 32 | 
| 4:00 am | 30 | 

下表显示了下采样至每两小时一次后的温度读数。


| Timestamp | 温度（摄氏度） | 
| --- | --- | 
| 12:00 pm | 30 | 
| 2:00 am | 33.5 | 
| 2:00 am | 35 | 
| 4:00 am | 32.5 | 

要对时间序列数据进行下采样，请执行以下操作：

1. 展开**重采样**转换下的**高级**部分。

1. 选择**非数值组合**以指定非数值列的组合方法。有关组合方法的完整列表，请参阅下表。

1. 选择**数值组合**以指定数值列的组合方法。有关组合方法的完整列表，请参阅下表。

如果未指定组合方法，则**非数值组合**的默认值为`Most Common`，**数值组合**的默认值为`Mean`。下表列出了数值和非数值组合的方法。


| 下采样方法 | 组合方法 | 说明 | 
| --- | --- | --- | 
| 非数值组合 | 最常用 | 按最常用值聚合非数值列中的值 | 
| 非数值组合 | 最后一个 | 按非数值列中的最后一个值聚合该列中的值 | 
| 非数值组合 | 第一个 | 按非数值列中的第一个值聚合该列中的值 | 
| 数值组合 | 平均值 | 通过取数值列中所有值的平均值来聚合该列中的值 | 
| 数值组合 | 中位数 | 通过取数值列中所有值的中位数来聚合该列中的值 | 
| 数值组合 | 最小值 | 通过取数值列中所有值的最小值来聚合该列中的值 | 
| 数值组合 | 最大值 | 通过取数值列中所有值的最大值来聚合该列中的值 | 
| 数值组合 | 总和 | 通过将数值列中的所有值相加来聚合该列中的值 | 
| 数值组合 | 分位数 | 通过取数值列中所有值的分位数来聚合该列中的值 | 

*上采样*则会缩短数据集中观测值之间的间隔。例如，如果您将每两小时采集的观测值上采样为每小时观测值，则每小时观测值中其他列的值将从每两小时采集的观测值中插值而来。

要对时间序列数据进行上采样，请执行以下操作：

1. 展开**重采样**转换下的**高级**部分。

1. 选择**非数值估算**以指定非数值列的估算方法。有关方法的完整列表，请参阅此过程之后的表格。

1. 选择**数值估算**以指定数值列的估算方法。有关方法的完整列表，请参阅下表。

1. （可选）选择 **ID 列**以指定包含时间序列观测值的列。 IDs如果您的数据集有两个时间序列，请指定此选项。如果您有一列仅代表一个时间序列，请不要为此字段指定值。例如，您可以有一个包含列 `id` 和 `purchase` 的数据集。`id` 列具有以下值：`[1, 2, 2, 1]`。`purchase` 列具有以下值：`[$2, $3, $4, $1]`。因此，数据集有两个时间序列，一个时间序列是 `1: [$2, $1]`，另一个时间序列是 `2: [$3, $4]`。

如果未指定估算方法，则**非数值估算**的默认值为 `Forward Fill`，**数值估算**的默认值为 `Linear`。下表列出了各种估算方法。


| 上采样方法 | 估算方法 | 说明 | 
| --- | --- | --- | 
| 非数值估算 | 前向填充 | 通过在非数值列中的所有值之后取连续值来插入该列中的值 | 
| 非数值估算 | 后向填充 | 通过在非数值列中的所有值之前取连续值来插入该列中的值 | 
| 非数值估算 | 保持缺失 | 通过显示空值来插入非数值列中的值 | 
| 数值估算 | Linear、Time、Index、Zero、S-Linear、Nearest、Quadratic、Cubic、Barycentric、Polynomial、Krogh、Piecewise Polynomial、Spline、P-chip、Akima、Cubic Spline、From Derivatives | 使用指定的插值器来插入数值列中的值。[有关插值方法的信息，请参阅 pandas。 DataFrame.interpolate](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html) 在 pandas 文档中。 | 

以下屏幕截图显示了**高级**设置，其中填写了下采样和上采样字段。

![\[Canvas 应用程序，其中时间序列重采样侧面板显示了高级选项。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-resampling.png)


### 使用日期时间提取
<a name="canvas-prepare-data-datetime"></a>

使用日期时间提取转换，您可以将日期时间列中的值提取到单独的列。例如，如果您有一列包含购买日期，则可以将月份值提取到单独的列中，并在构建模型时使用新列。您还可以通过一次转换将多个值提取到不同的列中。

日期时间列必须使用支持的时间戳格式。有关 C SageMaker anvas 支持的格式列表，请参阅[Amazon C SageMaker anvas 中的时间序列预测](canvas-time-series.md)。如果您的数据集未使用任何支持的格式，请更新您的数据集以使用支持的时间戳格式，并在构建模型之前将其重新导入到 Amazon SageMaker Canvas。

要执行日期时间提取，请执行以下操作。

1. 在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，在变换栏上，选择 “**查看全部**”。

1. 选择**提取特征**。

1. 选择要从中提取值的**时间戳列**。

1. 在**值**中，选择一个或多个要从列中提取的值。您可以从时间戳列中提取的值包括**年**、**月**、**日**、**小时**、**一年中的一周**、**一年中的一天**和**季度**。

1. （可选）选择**预览**以预览转换结果。

1. 选择**添加**将该转换添加到**模型配方**中。

SageMaker Canvas 会在数据集中为您提取的每个值创建一个新列。除**年**份值外， SageMaker Canvas 对提取的值使用基于 0 的编码。例如，如果提取**月**值，则一月份提取为 0，二月份提取为 1。

![\[C SageMaker anvas 应用程序中日期时间提取框的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-datetime-extract.png)


您可以看到在**模型配方**部分中列出了该转换。如果从**模型配方**部分中删除该转换，则会从数据集中删除新列。

# 模型评测
<a name="canvas-evaluate-model"></a>

在构建了模型之后，可以在使用模型进行预测之前评估模型处理数据的能力。您可以使用模型预测标签的准确性和高级指标等信息，来确定模型是否能对您的数据做出足够准确的预测。

[评估模型的性能](canvas-scoring.md) 部分将介绍如何查看和解释模型的**分析**页面上的信息。[在分析中使用高级指标](canvas-advanced-metrics.md) 部分包含有关用于量化模型准确性的**高级指标**的更多详细信息。

您还可以查看特定*候选模型*的更多高级信息，这些候选模型是 Canvas 在构建模型时进行的所有模型迭代。根据给定候选模型的高级指标，您可以选择不同的候选模型作为默认模型，或选择用于进行预测和部署的版本。对于每个候选模型，您都可以查看**高级指标**信息，以帮助您决定要选择哪个候选模型作为默认模型。您可以从**模型排行榜**中选择候选模型来查看这些信息。有关更多信息，请参阅 [在模型排行榜中查看候选模型](canvas-evaluate-model-candidates.md)。

Canvas 还提供了下载 Jupyter Notebook 的选项，以便您查看和运行用于构建模型的代码。如果您想调整代码或了解有关模型是如何构建的更多信息，这将非常有用。有关更多信息，请参阅 [下载模型笔记本](canvas-notebook.md)。

# 评估模型的性能
<a name="canvas-scoring"></a>

Amazon SageMaker Canvas 提供了不同类型模型的概述和评分信息。模型的评分有助于您确定模型进行预测时的准确程度。额外的评分见解有助于您量化实际值和预测值之间的差异。

要查看模型的分析，请执行以下操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 选择您构建的模型。

1. 在顶部导航窗格中，选择**分析**选项卡。

1. 在**分析**选项卡中，您可以查看模型的概述和评分信息。

下面几节介绍如何解释每种模型类型的评分。

## 评估分类预测模型
<a name="canvas-scoring-categorical"></a>

**概览**选项卡显示每列的列影响。**列影响**是一个百分比分数，表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列，Canvas 将该列的预测权重定为 25%，其他列的预测权重定为 75%。

下面的屏幕截图显示了模型的**准确性**分数，以及**优化指标**，这是您在构建模型时选择优化的指标。在本例中，**优化指标**为**准确性**。如果您构建模型的新版本，则可以指定不同的优化指标。

![\[Canvas 的“分析”选项卡上准确性分数和优化指标的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/analyze-tab-2-category.png)


分类预测模型的**评分**选项卡可让您直观地查看所有预测。线段从页面左侧延伸，表示模型做出的所有预测。在页面中间，线段汇聚到一条垂直线段上，表示每个预测在单一类别中所占的比例。从预测的类别开始，细分到实际类别。通过跟踪从预测类别到实际类别的每条线段，您可以直观地了解预测的准确性。

下图给出了 **3\$1 类别预测**模型的**评分**部分示例。

![\[3+ 类别预测模型的评分选项卡的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-analyze/canvas-multiclass-classification.png)


您还可以查看**高级指标**选项卡，了解有关模型性能的更详细信息，例如高级指标、误差密度图或混淆矩阵。要了解有关**高级指标**选项卡的更多信息，请参阅 [在分析中使用高级指标](canvas-advanced-metrics.md)。

## 评估数值预测模型
<a name="canvas-scoring-numeric"></a>

**概览**选项卡显示每列的列影响。**列影响**是一个百分比分数，表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列，Canvas 将该列的预测权重定为 25%，其他列的预测权重定为 75%。

以下屏幕截图显示了**概览**选项卡上模型的 **RMSE** 分数，在本例中为**优化指标**。**优化指标**是您在构建模型时选择优化的指标。如果您构建模型的新版本，则可以指定不同的优化指标。

![\[Canvas 的“分析”选项卡上 RMSE 优化指标的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/analyze-tab-2-numeric.png)


数值预测的**评分**选项卡显示一条线，表示模型相对于用于预测的数据的预测值。数值预测的值通常为 \$1/- RMSE（均方根误差）值。模型预测的值通常在 RMSE 的范围内。线条周围紫色带的宽度表示 RMSE 范围。预测值通常在该范围内。

下图显示了数值预测的**评分**部分。

![\[数值预测模型的评分选项卡的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-analyze/canvas-analyze-regression-scoring.png)


您还可以查看**高级指标**选项卡，了解有关模型性能的更详细信息，例如高级指标、误差密度图或混淆矩阵。要了解有关**高级指标**选项卡的更多信息，请参阅 [在分析中使用高级指标](canvas-advanced-metrics.md)。

## 评估时间序列预测模型
<a name="canvas-scoring-time-series"></a>

在时间序列预测模型的**分析**页面上，您可以看到模型指标的概述。您可以将鼠标悬停在每个指标上，了解更多信息，也可以查看 [在分析中使用高级指标](canvas-advanced-metrics.md) 了解每个指标的更多信息。

在**列影响**部分中，您可以看到每列的分数。**列影响**是一个百分比分数，表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列，Canvas 将该列的预测权重定为 25%，其他列的预测权重定为 75%。

以下屏幕截图显示了模型的时间序列指标分数，以及**优化指标**，这是您在构建模型时选择优化的指标。在本例中，**优化指标**为 **RMSE**。如果您构建模型的新版本，则可以指定不同的优化指标。这些指标分数来自回测结果，可在**构件**选项卡中下载。

![\[Canvas 的“分析”选项卡上 RMSE 优化指标的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/analyze-tab-2-time-series.png)


**构件**选项卡提供了访问几个关键资源的途径，您可以利用这些资源深入研究模型的性能，并继续对其进行迭代：
+ **拆分训练集和验证集**：本部分包含将数据集拆分为训练集和验证集时生成的构件链接，使您能够查看数据分布和潜在偏差。
+ **回测结果**：本部分包含指向验证数据集预测值的链接，此数据集用于生成模型的准确性指标和评估数据。
+ **准确性指标**：本部分列出了评估模型性能的高级指标，例如均方根误差 (RMSE)。有关每个指标的更多信息，请参阅 [时间序列预测的指标](canvas-metrics.md#canvas-time-series-forecast-metrics)。
+ **可解释性报告**：本部分提供了下载可解释性报告的链接，此报告提供了对模型决策过程和输入列相对重要性的见解。此报告可以帮助您确定潜在的改进领域。

在**分析**页面上，您还可以选择**下载**按钮，直接将回测结果、准确性指标和可解释性报告构件下载到本地计算机。

## 评估图像预测模型
<a name="canvas-scoring-image"></a>

**概览**选项卡会显示**每个标签的性能**，为您提供每个标签预测的图像的总体准确性分数。您可以选择一个标签来查看更具体的详细信息，例如该标签的**正确预测**和**错误预测**图像。

您可以打开**热图**开关以查看每张图像的热图。热图显示了在模型进行预测时影响最大的相关领域。有关热图以及如何使用热图改进模型的更多信息，请选择**热图**开关旁边的**更多信息**图标。

单标签图像预测模型的**评分**选项卡显示了模型预测的标签与实际标签的对比。一次最多可选择 10 个标签。您可以通过选择标签下拉菜单并选择或取消选择标签来更改可视化中的标签。

您还可以在**模型准确性洞察**部分选择**查看分数**下拉菜单，查看单个标签或标签组的洞察，例如准确性最高或最低的三个标签。

以下屏幕截图显示了单标签图像预测模型的**评分**信息。

![\[多元文本预测模型的“评分”页面上实际标签与预测标签对比。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/analyze-image-scoring.png)


## 评估文本预测模型
<a name="canvas-scoring-text"></a>

**概览**选项卡会显示**每个标签的性能**，为您提供每个标签预测的文本段落的总体准确性分数。您可以选择一个标签来查看更具体的详细信息，例如该标签的**正确预测**和**错误预测**段落。

多元文本预测模型的**评分**选项卡显示了模型预测的标签与实际标签的对比。

在**模型准确性洞察**部分，您可以看到**最常预测的类别**，它告诉您模型最常预测的类别以及这些预测的准确性。如果您的模型在 99% 的情况下都能正确预测出**积极**标签，那么您就可以相当自信地认为，您的模型在预测文本中的积极情绪方面表现出色。

以下屏幕截图显示了多元文本预测模型的**评分**信息。

![\[单标签映像预测模型的“评分”页面上实际标签与预测标签对比。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/analyze-text-scoring.png)


# 在分析中使用高级指标
<a name="canvas-advanced-metrics"></a>

以下部分介绍如何在 Amazon C SageMaker anvas 中查找和解释您的模型的高级指标。

**注意**  
高级指标目前仅适用于数字和分类预测模型。

要找到**高级指标**选项卡，执行以下操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 选择您构建的模型。

1. 在顶部导航窗格中，选择**分析**选项卡。

1. 在**分析**选项卡中，选择**高级指标**选项卡。

在**高级指标**选项卡中，您可以找到**性能**选项卡。页面类似以下界面截图。

![\[分类预测模型的高级指标选项卡的界面截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-analyze-performance.png)


在顶部，您可以看到指标分数的概述，包括**优化指标**，这是您在构建模型时选择（或默认选择 Canvas）进行优化的指标。

下面的部分将介绍**高级指标**中**性能**选项卡的更多详细信息。

## 性能
<a name="canvas-advanced-metrics-performance"></a>

在**性能**选项卡中，您将看到一个**指标表格**，以及 Canvas 根据模型类型创建的可视化效果。对于分类预测模型，Canvas 提供了*混淆矩阵*，而对于数值预测模型，Canvas 则提供了*残差*和*误差密度*图表。

在**指标表**中，您会看到每个高级指标的模型分数的完整列表，此列表比页面顶部的分数概述更加全面。此处显示的指标取决于您的模型类型。有关帮助您理解和解释每个指标的参考资料，请参阅 [指标参考](canvas-metrics.md)。

要了解根据模型类型可能出现的可视化效果，请参阅以下选项：
+ **混淆矩阵**：Canvas 使用混淆矩阵来帮助您直观地了解模型何时做出正确预测。在混淆矩阵中，您的结果将用于比较预测值和实际值。下面的示例解释了混淆矩阵如何用于预测正标签和负标签的 2 类别预测模型：
  + 真正 - 当真标签为正时，模型正确地预测了正。
  + 真负 - 当真标签为负时，模型正确地预测了负。
  + 假正 - 当真标签为负时，模型错误地预测了正。
  + 假负 - 当真标签为正时，模型错误地预测了负。
+ **精度查全率曲线**：精度查全率曲线是根据模型的查全率分数绘制的模型精度分数的可视化。通常，能够做出完美预测的模型，其精度和查全率分数都是 1。准确性相当高的模型的精度查准率曲线在精度和查全率方面都相当高。
+ **残差**：残差是实际值与模型预测值之间的差值。残差图将残差与相应的值进行对比，以直观显示其分布情况以及任何规律或异常值。残差在零附近的正态分布表明此模型与数据拟合良好。但是，如果残差明显偏斜或存在异常值，则可能表明模型过度拟合数据或有其他问题需要解决。
+ **误差密度**：误差密度图表示模型所产生的误差的分布。它显示了每个点的误差概率密度，帮助您识别模型可能过度拟合或出现系统误差的任何区域。

# 在模型排行榜中查看候选模型
<a name="canvas-evaluate-model-candidates"></a>

当您在 Amazon C SageMaker anvas 中为表格和时间序列预测*模型进行[标准构建](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)时， SageMaker AI 会训练多个候选*模型（模型的不同迭代），并默认选择优化指标值最高的模型。对于表格模型，Canvas 可使用各种算法和超参数设置构建多达 250 个不同的候选模型。对于时间序列预测模型，Canvas 构建了 7 个不同的模型——一个是针对每种[支持的预测算法](canvas-advanced-settings.md#canvas-advanced-settings-time-series)，另一个是用于平均其他模型的预测结果以优化准确性的集合模型。

默认候选模型是您可以在 Canvas 中唯一可用于进行预测、注册到模型注册表或部署到端点等操作的版本。但是，您可能需要查看所有候选模型，并选择不同的候选模型作为默认模型。您可以在 Canvas 中的**模型排行榜**上查看所有候选模型以及每个候选模型的更多详细信息。

要查看**模型排行榜**，执行以下操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 选择您构建的模型。

1. 在顶部导航窗格中，选择**分析**选项卡。

1. 在**分析**选项卡中，选择**模型排行榜**。

此时将打开**模型排行榜**页面，表格模型类似以下界面截图。

![\[模型排行榜，其中列出了 Canvas 训练的所有候选模型。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-model-leaderboard.png)


对于时间序列预测模型，您可以看到 7 个模型，其中包括 Canvas 支持的每种时间序列预测算法的一个模型和一个集合模型。有关算法的更多信息，请参阅[高级时间序列预测模型设置](canvas-advanced-settings.md#canvas-advanced-settings-time-series)。

在前面的界面截图中，您可以看到列出的第一个候选模型被标记为**默认模型**。这是可供您进行预测或部署到端点的候选模型。

要查看有关候选模型的更多详细指标信息以进行比较，您可以选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，然后选择**查看模型详细信息**。

**重要**  
 加载非默认候选模型的模型详细信息可能需要几分钟（通常不到 10 分钟），并且会收取 SageMaker AI Hosting 费用。有关更多信息，请参阅 [SageMaker AI 定价](https://aws.amazon.com/sagemaker/pricing/)。

此时将在**分析**选项卡中打开候选模型，显示的指标是针对此候选模型的。查看完候选模型的指标后，您可以返回或退出视图，返回到**模型排行榜**。

如果想将**默认模型**设置为其他候选模型，您可以选择**更多选项**图标（![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)），然后选择**更改为默认模型**。更改使用 HPO 模式训练的模型的默认模型可能需要几分钟时间。

**注意**  
如果您的模型已在生产中部署、[已注册到模型注册表](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-register-model.html)或已设置[自动操作](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-manage-automations.html)，则必须在更改默认模型前删除部署、模型注册或自动操作。

# 指标参考
<a name="canvas-metrics"></a>

以下各节介绍了 Amazon SageMaker Canvas 中针对每种模型类型提供的指标。

## 数值预测的指标
<a name="canvas-numeric-metrics"></a>

以下列表定义了 SageMaker Canvas 中数值预测的指标，并提供了有关如何使用这些指标的信息。
+ InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。此指标以秒为单位，仅适用于使用**集合**模式创建的模型。
+ MAE – 平均绝对误差。平均而言，目标列的预测值与实际值相差 \$1/- \$1MAE\$1。

  用于衡量在所有值上将预测值与实际值的差值取平均数时有多大的差异。MAE 通常用于数值预测，以了解模型预测误差。如果预测是线性的，则 MAE 表示预测值与实际值之间的平均距离。MAE 定义为绝对误差之和除以观察数据的数量。值的范围从 0 到无穷大，数字越小表示模型对数据的拟合效果越好。
+ MAPE - 平均绝对误差百分比。平均而言，目标列的预测值与实际值相差 \$1/- \$1MAPE\$1 %。

  MAPE 是实际值与预测值或估计值之间绝对差异的平均值，除以实际值，以百分比表示。MAPE 越低，表示性能越好，因为这意味着预测值或估计值更接近实际值。
+ MSE：均方误差，即预测值与实际值之间平方差的平均值。

  MSE 值始终为正值。模型在预测实际值方面的表现越好，MSE 值就越小。
+ R2 - 输入列可以解释的目标列差异百分比。

  量化模型在多大程度上可以解释因变量方差。值范围从一（1）到负一（-1）。数字越大，说明解释的可变性比例越高。接近零 (0) 的值表示模型几乎无法解释因变量。负值表示拟合不佳，常量函数（或水平线）的性能优于模型。
+ RMSE：均方根误差，或误差的标准差。

  衡量预测值与实际值之间平方差的平方根，并对所有值取平均值。它用于了解模型预测误差，是用于指示是否存在较大模型误差和异常值的重要指标。值的范围从零 (0) 到无穷大，数字越小表示模型对数据的拟合效果越好。RMSE 依赖于规模，不应用于比较不同类型的数据集。

## 分类预测的指标
<a name="canvas-categorical-metrics"></a>

本节定义了 SageMaker Canvas 中分类预测的指标，并为您提供有关如何使用这些指标的信息。

以下是 2 类别预测的可用指标列表：
+ 准确性 – 正确预测的百分比。

  或者说，预测正确数量与预测总数之比。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零（0）和一（1）之间变化。值为 1 表示完全准确，0 表示完全不准确。
+ AUC – 介于 0 和 1 之间的值，表示模型能在多大程度上分离数据集中的类别。值为 1 表示它能够完美地分离类别。
+ BalancedAccuracy — 测量准确预测与所有预测的比率。

  该比率是在根据阳性 (P) 和阴性 (N) 值总数，对真阳性 (TP) 和真阴性 (TN) 进行标准化后计算得出的。其定义如下：`0.5*((TP/P)+(TN/N))`，值范围为 0 至 1。当不平衡数据集中阳性或阴性的数量相差很大时，例如只有 1% 的电子邮件是垃圾邮件时，则平衡准确性指标能更好地衡量准确性。
+ F1 – 将类别平衡考虑在内的一种平衡的准确性度量。

  它是精度和查全率分数的调和平均值，定义如下：`F1 = 2 * (precision * recall) / (precision + recall)`。F1 分数介于 0 和 1 之间。分数为 1 表示具有最佳性能，0 表示性能最差。
+ InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。此指标以秒为单位，仅适用于使用**集合**模式创建的模型。
+ LogLoss — 对数损失，也称为交叉熵损失，是一种用于评估概率输出质量的指标，而不是输出本身。对数损失是一个重要指标，指示模型何时有很高的概率做出了错误预测。值范围为 0 到无穷大。值为 0 表示可以完美预测数据的模型。
+ 精度：在预测 \$1category x\$1 的所有时间中，预测正确率为 \$1precision\$1%。

  查准率衡量算法预测的真阳性 (TP) 占所识别的全部阳性的比例。其定义如下：`Precision = TP/(TP+FP)`，值范围从零 (0) 到一 (1)。当假阳性的成本很高时，查准率是一个重要指标。例如，如果飞机安全系统错误地认为可以安全飞行，则假阳性的成本非常高。假阳性 (FP) 反映的是预测为阳性，而在数据中实际为阴性的情况。
+ 查全率：当 \$1target\$1column\$1 实际为 \$1category x\$1 时，模型正确预测 \$1recall\$1% 为 \$1category x\$1。

  查全率可以衡量算法正确预测数据集中所有真阳性 (TP) 的能力如何。真阳性是指预测为阳性，而实际也是数据中阳性值的情况。查全率定义如下：`Recall = TP/(TP+FN)`，值范围为 0 至 1。分数越高，反映模型预测数据中真阳性 (TP) 的能力越强。请注意，仅衡量查全率通常是不够的，因为只要将每个输出都预测为真阳性，就可以得到完美的查全率分数。

以下是 3 个以上类别预测的可用指标列表：
+ 准确性 – 正确预测的百分比。

  或者说，预测正确数量与预测总数之比。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零（0）和一（1）之间变化。值为 1 表示完全准确，0 表示完全不准确。
+ BalancedAccuracy — 测量准确预测与所有预测的比率。

  该比率是在根据阳性 (P) 和阴性 (N) 值总数，对真阳性 (TP) 和真阴性 (TN) 进行标准化后计算得出的。其定义如下：`0.5*((TP/P)+(TN/N))`，值范围为 0 至 1。当不平衡数据集中阳性或阴性的数量相差很大时，例如只有 1% 的电子邮件是垃圾邮件时，则平衡准确性指标能更好地衡量准确性。
+ F1macro：F1macro 分数通过计算精度和查全率来应用 F1 分数，然后用它们的调和平均值来计算每个类的 F1 分数。然后，F1macro 对各个分数求平均值，得出 F1macro 分数。F1macro 分数介于 0 和 1 之间。分数为 1 表示具有最佳性能，0 表示性能最差。
+ InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。此指标以秒为单位，仅适用于使用**集合**模式创建的模型。
+ LogLoss — 对数损失，也称为交叉熵损失，是一种用于评估概率输出质量的指标，而不是输出本身。对数损失是一个重要指标，指示模型何时有很高的概率做出了错误预测。值范围为 0 到无穷大。值为 0 表示可以完美预测数据的模型。
+ PrecisionMacro — 通过计算每个类别的精度并平均分数以获得多个类别的精度来测量精度。分数范围为零 (0) 到一 (1)。该分数在多个类中取平均值，分数越高反映了模型越能从其识别的所有阳性中预测真阳性 (TP)。
+ RecallMacro — 通过计算每个班级的召回率并平均分数来衡量召回率，从而获得多个班级的召回率。分数范围为 0 到 1。分数越高反映模型预测数据集中真阳性 (TP) 的能力就越好，而真阳性反映的是预测为阳性，而实际也是数据中阳性值的情况。仅衡量查全率通常是不够的，因为只要将每个输出都预测为真阳性，就可以得到完美的查全率分数。

请注意，对于 3 个以上类别的预测，您还会收到平均 F1、准确性、精度和查全率指标。这些指标的分数只是所有类别指标分数的平均值。

## 映像和文本预测的指标
<a name="canvas-cv-nlp-metrics"></a>

以下是映像预测和文本预测的可用指标列表。
+ 准确性 – 正确预测的百分比。

  或者说，预测正确数量与预测总数之比。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零（0）和一（1）之间变化。值为 1 表示完全准确，0 表示完全不准确。
+ F1 – 将类别平衡考虑在内的一种平衡的准确性度量。

  它是精度和查全率分数的调和平均值，定义如下：`F1 = 2 * (precision * recall) / (precision + recall)`。F1 分数介于 0 和 1 之间。分数为 1 表示具有最佳性能，0 表示性能最差。
+ 精度：在预测 \$1category x\$1 的所有时间中，预测正确率为 \$1precision\$1%。

  查准率衡量算法预测的真阳性 (TP) 占所识别的全部阳性的比例。其定义如下：`Precision = TP/(TP+FP)`，值范围从零 (0) 到一 (1)。当假阳性的成本很高时，查准率是一个重要指标。例如，如果飞机安全系统错误地认为可以安全飞行，则假阳性的成本非常高。假阳性 (FP) 反映的是预测为阳性，而在数据中实际为阴性的情况。
+ 查全率：当 \$1target\$1column\$1 实际为 \$1category x\$1 时，模型正确预测 \$1recall\$1% 为 \$1category x\$1。

  查全率可以衡量算法正确预测数据集中所有真阳性 (TP) 的能力如何。真阳性是指预测为阳性，而实际也是数据中阳性值的情况。查全率定义如下：`Recall = TP/(TP+FN)`，值范围为 0 至 1。分数越高，反映模型预测数据中真阳性 (TP) 的能力越强。请注意，仅衡量查全率通常是不够的，因为只要将每个输出都预测为真阳性，就可以得到完美的查全率分数。

请注意，对于您预测 3 个或更多类别的映像和文本预测模型，您还会收到*平均* F1、准确性、精度和查全率指标。这些指标的分数只是所有类别指标分数的平均值。

## 时间序列预测的指标
<a name="canvas-time-series-forecast-metrics"></a>

以下内容定义了 Amazon SageMaker Canvas 中时间序列预测的高级指标，并向您提供了有关如何使用这些指标的信息。
+ 平均加权分位数损失 (wQL) – 通过对 P10、P50 和 P90 分位数处的准确性取平均值来评估预测。值越低表示模型越准确。
+ 加权绝对百分比误差 (WAPE)：绝对误差之和，按照绝对目标之和标准化，用于衡量预测值相比观测值的总体偏差。值越低表示模型越准确，WAPE = 0 表示模型没有误差。
+ 均方根误差 (RMSE) - 平均平方误差的平方根。RMSE 越低表示模型越准确，RMSE = 0 表示模型没有误差。
+ 平均绝对误差百分比 (MAPE) - 所有时间点的平均误差百分比（平均预测值与实际值之差的百分比）。值越低表示模型越准确，MAPE = 0 表示模型没有误差。
+ 平均绝对标度误差 (MASE) - 预测的平均绝对误差，通过简单基线预测方法进行标准化。值越低表示模型越准确，MASE < 1 时预计比基线好，而 MASE > 1 时预计比基线差。

# 使用自定义模型进行预测
<a name="canvas-make-predictions"></a>

使用你在 C SageMaker anvas 中构建的自定义模型来预测数据。以下几节介绍如何对数值和分类预测模型、时间序列预测、映像预测模型和文本预测模型进行预测。

数值和分类预测、图像预测和文本预测自定义模型支持对数据进行以下类型的预测：
+ **单一预测** – **单一预测**是指您只需要进行一次预测。例如，您想对一张图像或文本段落进行分类。
+ **批量预测** – **批量预测**是指您想要对整个数据集进行预测。您可以对 1 TB 以上的数据集进行批量预测。例如，您有一个包含客户评论的 CSV 文件，您希望据此预测客户的情绪，或者您有一个包含图像文件的文件夹，您希望对其进行分类。您应该使用与您的输入数据集相匹配的数据集进行预测。Canvas 提供手动批量预测功能，您也可以配置自动批量预测功能，在更新数据集时启动。

对于每个预测或一组预测， SageMaker Canvas 会返回以下内容：
+ 预测值
+ 预测值正确的概率

**开始使用**

选择以下工作流之一，使用自定义模型进行预测：
+ [C SageMaker anvas 中的批量预测](canvas-make-predictions-batch.md)
+ [进行单一预测](canvas-make-predictions-single.md)

使用模型生成预测后，您还可以执行以下操作：
+ [通过添加版本更新模型。](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-update-model.html)如果您想尝试提高模型的预测准确性，可以构建模型的新版本。您可以选择克隆原始模型构建配置和数据集，也可以更改配置并选择不同的数据集。添加新版本后，您可以查看和比较版本，选择最佳版本。
+ [在 SageMaker AI 模型注册表中注册模型版本](canvas-register-model.md)。 您可以将模型的版本注册到 SageMaker 模型注册表，该功能用于跟踪和管理模型版本和机器学习管道的状态。有权访问 SageMaker 模型注册表的数据科学家或 MLOps 团队用户可以查看您的模型版本并批准或拒绝它们，然后再将其部署到生产环境中。
+ [将您的批量预测发送到 Quick。](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-send-predictions.html)在 Quick 中，您可以使用批量预测数据集构建和发布仪表板。这有助于您分析和共享自定义模型生成的结果。

# 进行单一预测
<a name="canvas-make-predictions-single"></a>

**注意**  
本节介绍如何在 Canvas 应用程序中从模型中获取单一预测。有关通过将模型部署到端点在生产环境中进行实时调用的信息，请参阅[将模型部署到端点](canvas-deploy-model.md)。

如果您想对单个数据点进行预测，则可以进行单一预测。您可以使用此功能来获取实时预测，也可以尝试更改个别值，以了解它们如何影响预测结果。请注意，单一预测依赖于异步推理端点，此端点在闲置（或未收到任何预测请求）两小时后会关闭。

根据模型类型选择以下过程之一。

## 使用数值和分类预测模型进行单一预测
<a name="canvas-make-predictions-numeric-categorical"></a>

要对数值或分类预测模型进行单一预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。

1. 打开模型后，选择**预测**选项卡。

1. 在**运行预测**页面上，选择**单一预测**。

1. 对于代表输入数据列的每个**列**字段，您可以更改**值**。选择要更改的**值**的下拉菜单。对于数值字段，您可以输入新数字。对于带有标签的字段，您可以选择不同的标签。

1. 准备好生成预测后，在右侧的**预测**窗格中，选择**更新**。

在右侧的**预测**窗格中，您将看到预测结果。您可以**复制**预测结果图表，也可以选择**下载**，将预测结果图表下载为图像或将值和预测下载为 CSV 文件。

## 利用时间序列预测模型进行单一预测
<a name="canvas-make-predictions-forecast"></a>

要对时间序列预测模型进行单一预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。

1. 打开模型后，选择**预测**选项卡。

1. 选择**单一预测**。

1. 对于**项目**，请选择您想要预测其价值的项目。

1. 如果您使用按列分组来训练模型，请为此项目选择按类别分组。

预测结果加载到下面的窗格中，显示了每个量化值的预测图表。选择**架构视图**，查看数字预测值。您还可以选择**下载**，以图片或 CSV 文件的形式下载预测结果。

## 使用图像预测模型进行单一预测
<a name="canvas-make-predictions-image"></a>

要对单标签图像预测模型进行单一预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。

1. 打开模型后，选择**预测**选项卡。

1. 在**运行预测**页面上，选择**单一预测**。

1. 选择**导入图像**。

1. 系统将提示您上传图像。您可以从本地电脑或 Amazon S3 存储桶上传图像。

1. 选择**导入**以导入您的图像并生成预测。

在右侧的**预测结果**窗格中，模型列出了图像的可能标签以及每个标签的**置信度**分数。例如，该模型可以预测图像的标签 **Sea**，置信度分数为 96%。该模型可能将图像预测为**冰川**，但置信度分数仅为 4%。因此，您可以确定，您的模型在预测海洋图像方面相当有把握。

## 使用文本预测模型进行单一预测
<a name="canvas-make-predictions-text"></a>

要对多元文本预测模型进行单一预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。

1. 打开模型后，选择**预测**选项卡。

1. 在**运行预测**页面上，选择**单一预测**。

1. 在**文本**字段中，输入您要预测的文本。

1. 选择**生成预测结果**以获取您的预测结果。

在右侧的**预测结果**窗格中，除了每个可能的标签的**置信度**分数外，您还会收到对文本的分析。例如，如果您输入了对某产品的好评，则**正面**的置信度分数可能为 85%，而**中性**的置信度分数可能为 10%，**负面**的置信度分数仅为 5%。

# C SageMaker anvas 中的批量预测
<a name="canvas-make-predictions-batch"></a>

当您想对整个数据集进行预测时，可以进行批量预测。Amazon SageMaker Canvas 支持对最大大小的数据集 PBs 进行批量预测。

您可以进行两种类型的批量预测：
+ [手动](canvas-make-predictions-batch-manual.md)批量预测是指您想要对数据集进行一次性预测。
+ [自动](canvas-make-predictions-batch-auto.md)批量预测是指设置一个在特定数据集更新时运行的配置。例如，如果您为库存数据的 SageMaker Canvas 数据集配置了每周更新，则可以设置在更新数据集时运行的自动批量预测。设置自动批量预测工作流后，请参阅[如何管理自动化](canvas-manage-automations.md)，了解有关查看和编辑配置详细信息的更多信息。有关设置数据集自动更新的更多信息，请参阅[配置数据集自动更新](canvas-update-dataset-auto.md)。

**注意**  
时间序列预测模型不支持自动批量预测。  
您只能为通过本地上传或 Amazon S3 导入的数据集设置自动批量预测。此外，自动批量预测只能在您登录 Canvas 应用程序时运行。如果您选择退出 Canvas，当您重新登录时会恢复自动批量预测作业。

要开始操作，请查看 [批量预测数据集要求](canvas-make-predictions-batch-preqreqs.md)，然后选择以下手动或自动的批量预测工作流之一。

**Topics**
+ [批量预测数据集要求](canvas-make-predictions-batch-preqreqs.md)
+ [进行手动批量预测](canvas-make-predictions-batch-manual.md)
+ [自动进行批量预测](canvas-make-predictions-batch-auto.md)
+ [编辑自动批量预测配置](canvas-make-predictions-batch-auto-edit.md)
+ [删除自动批量预测配置](canvas-make-predictions-batch-auto-delete.md)
+ [查看批量预测作业](canvas-make-predictions-batch-auto-view.md)

# 批量预测数据集要求
<a name="canvas-make-predictions-batch-preqreqs"></a>

要进行批量预测，请确保您的数据集满足[创建数据集](canvas-import-dataset.md)中列出的要求。如果您的数据集大于 5 GB，则 Canvas 会使用 Amazon EMR Serverless 来处理您的数据，并将其分成较小的批次。拆分数据后，Canvas 会使用 SageMaker AI Batch Transform 进行预测。运行批量预测后，您可能会看到来自这两项服务的费用。有关更多信息，请参阅 [Canvas 定价](https://aws.amazon.com/sagemaker/canvas/pricing/)。

如果某些数据集的*架构*不兼容，您可能无法对其进行预测。*架构*是一种组织结构。对于表格数据集，架构就是列的名称和列中数据的数据类型。架构不兼容可能是由于以下原因之一：
+ 您用来进行预测的数据集的列数少于您用来构建模型的数据集。
+ 您用于构建数据集的列中的数据类型可能与您用于进行预测的数据集中的数据类型不同。
+ 您用于进行预测的数据集和用于构建模型的数据集的列名不匹配。列名区分大小写。`Column1` 与 `column1` 不同。

为确保您可以成功生成批量预测，请将批量预测数据集的架构与用于训练模型的数据集进行匹配。

**注意**  
对于批量预测，如果您在构建模型时删除了任何列，Canvas 会将删除的列重新添加到预测结果中。但是，Canvas 不会将删除的列添加到时间序列模型的批量预测中。

# 进行手动批量预测
<a name="canvas-make-predictions-batch-manual"></a>

选择以下过程之一，根据您的模型类型进行手动批量预测。

## 使用数字、分类和时间序列预测模型进行手动批量预测
<a name="canvas-make-predictions-batch-numeric-categorical"></a>

要对数字、分类和时间序列预测模型类型进行手动批量预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。

1. 打开模型后，选择**预测**选项卡。

1. 在**运行预测**页面上，选择**批量预测**。

1. 选择**选择数据集**来选择用于生成预测的数据集。

1. 从可用数据集列表中选择数据集，然后选择**开始预测**获取预测结果。

预测作业运行完成后，同一页面的**预测**部分会列出一个输出数据集。此数据集包含您的结果，如果您选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，则可以选择**预览**来预览输出数据。您可以看到与预测相匹配的输入数据以及预测正确的概率。然后，您可以选择**下载预测**，将结果下载为文件。

## 使用图像预测模型进行手动批量预测
<a name="canvas-make-predictions-batch-image"></a>

要对单标签图像预测模型进行手动批量预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。

1. 打开模型后，选择**预测**选项卡。

1. 在**运行预测**页面上，选择**批量预测**。

1. 如果您已经导入了数据集，请选定**选择数据集**。如果未导入，请选择**导入新数据集**，然后将引导您完成导入数据工作流。

1. 从可用数据集列表中，选择您的数据集并选择**生成预测**以获取预测。

预测作业运行完毕后，在**运行预测**页面上，您会看到**预测**下列出了输出数据集。此数据集包含您的结果，如果您选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，则可以选择**查看预测结果**来查看输出数据。您可以看到图像及其预测标签和置信度分数。然后，您可以选择**下载预测**，将结果下载为 CSV 或 ZIP 文件。

## 使用文本预测模型进行手动批量预测
<a name="canvas-make-predictions-batch-text"></a>

要对多元文本预测模型进行手动批量预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。

1. 打开模型后，选择**预测**选项卡。

1. 在**运行预测**页面上，选择**批量预测**。

1. 如果您已经导入了数据集，请选定**选择数据集**。如果未导入，请选择**导入新数据集**，然后将引导您完成导入数据工作流。您选择的数据集必须与用于构建模型的数据集具有相同的源列。

1. 从可用数据集列表中，选择您的数据集并选择**生成预测**以获取预测。

预测作业运行完毕后，在**运行预测**页面上，您会看到**预测**下列出了输出数据集。此数据集包含您的结果，如果您选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，则可以选择**预览**来查看输出数据。您可以看到图像及其预测标签和置信度分数。然后，您可以选择**下载预测**来下载结果。

# 自动进行批量预测
<a name="canvas-make-predictions-batch-auto"></a>

**注意**  
时间序列预测模型不支持自动批量预测。

要设置自动批量预测的时间表，请执行以下操作：

1. 在 Canvas 的左侧导航窗格中，选择**我的模型**。

1. 选择您的模型。

1. 选择**预测**选项卡。

1. 选择**批量预测**。

1. 对于**生成预测**，请选择**自动**。

1. 此时将弹出**自动批量预测**对话框。选定**选择数据集**，然后选择要自动预测的数据集。请注意，您只能选择通过本地上传或 Amazon S3 导入的数据集。

1. 选择数据集后，选择**设置**。

设置配置后，Canvas 会为数据集运行批量预测作业。然后，每当您手动或自动[更新数据集](canvas-update-dataset.md)时，都会运行另一个批量预测作业。

预测作业运行完毕后，在**运行预测**页面上，您会看到**预测**下列出了输出数据集。此数据集包含您的结果，如果您选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，则可以选择**预览**来预览输出数据。您可以看到与预测相匹配的输入数据以及预测正确的概率。然后，您可以选择**下载**来下载结果。

以下几节介绍如何通过 Canvas 应用程序中的**数据集**页面查看、更新和删除自动批量预测配置。在 Canvas 中，您最多只能设置 20 个自动配置。有关通过**自动化**页面查看自动批量预测作业历史记录或更改自动配置的更多信息，请参阅[如何管理自动化](canvas-manage-automations.md)。

# 编辑自动批量预测配置
<a name="canvas-make-predictions-batch-auto-edit"></a>

您可能需要更改数据集的自动更新配置，例如更改更新频率。您可能还需要关闭自动更新配置以暂停对数据集的更新。

编辑批量预测配置时，您可以更改目标数据集，但不能更改频率（因为每当数据集更新时，都会自动进行批量预测）。

要编辑自动更新配置，请执行以下操作：

1. 转到模型的**预测**选项卡。

1. 在**预测**下，选择**配置**选项卡。

1. 找到您的配置并选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 从下拉菜单中，选择**更新配置**。

1. 此时将打开**自动批量预测**对话框。您可以选择其他数据集并选择**设置**以保存更改。

您的自动批量预测配置现已更新。

要暂停自动批量预测，请执行以下操作关闭自动配置：

1. 转到模型的**预测**选项卡。

1. 在**预测**下，选择**配置**选项卡。

1. 从列表中找到您的配置，然后关闭**自动更新**开关。

自动批量预测现已暂停。您可以随时重新打开该开关，以恢复更新计划。

# 删除自动批量预测配置
<a name="canvas-make-predictions-batch-auto-delete"></a>

要了解如何删除自动批量预测配置，请参阅[删除自动配置](canvas-manage-automations-delete.md)。

您也可以通过以下步骤删除配置：

1. 转到模型的**预测**选项卡。

1. 在**预测**下，选择**配置**选项卡。

1. 从列表中找到您的配置，然后选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 从下拉菜单中，选择**删除配置**。

您的配置现在应该已删除。

# 查看批量预测作业
<a name="canvas-make-predictions-batch-auto-view"></a>

要查看批量预测作业的状态和历史记录，请访问模型的**预测**选项卡。

每个批量预测作业都显示在模型的**预测**选项卡中。在**预测**下，您可以看到**所有作业**选项卡和**配置**选项卡：
+ **所有作业** - 在此选项卡中，您可以查看此模型的所有手动和自动批量预测作业。您可以按配置名称筛选作业。对于每个作业，您可以看到以下字段：
  + **状态**：批量预测作业的当前状态。如果状态为**失败**或**部分失败**，则可以将鼠标悬停在状态上方以查看更详细的错误消息，以帮助您解决问题。
  + **输入数据集**：Canvas 输入数据集的名称，包括数据集版本。
  + **预测类型**：预测作业是自动的还是手动进行的。
  + **行**：预测的行数。
  + **配置名称**：批量预测作业配置的名称。
  + **QuickSight**— 描述您是否已将批量预测发送到 Quick。
  + **已创建**：批量预测作业的创建时间。

  如果选择 “**更多选项**” 图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，则可以选择 “**查看详细信息**”、“**预览预测**”、“**下载预测**” 或 “**发送至快速**”。如果您选择 **View** details，则会打开一个页面，向您显示批量预测任务的完整详细信息，包括状态、输入和输出数据配置、用于完成任务的实例的信息以及对 Amazon CloudWatch 日志的访问权限。页面类似以下界面截图。  
![\[批量预测作业详情页面，显示了有关作业的所有其他详细信详情。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-view-batch-prediction-job-details.png)
+ **配置** - 在此选项卡中，您可以看到为此模型创建的所有自动批量预测配置。对于每种配置，您可以看到**创建**的时间戳、跟踪更新的**输入数据集**以及**计划的下一个作业（即下一个自动预测作业计划开始的时间）**等字段。如果您选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，则可以选择**查看所有作业**，以查看配置的作业历史记录和进行中作业。



# 将预测发送到 Quick
<a name="canvas-send-predictions"></a>

**注意**  
您可以将批量预测发送到 Quick，以获取数值和分类预测以及时间序列预测模型。不包括单标签图像预测和多类别文本预测模型。

在 SageMaker Canvas 中使用自定义表格模型生成批量预测后，您可以将这些预测作为 CSV 文件发送到 Quick，这是一项用于构建和发布预测仪表板的商业智能 (BI) 服务。

例如，如果您建立了一个双类别预测模型来确定客户是否会流失，则可以在 Quick 中创建一个直观的预测仪表板，以显示预计会流失的客户百分比。要了解有关 Quick 的更多信息，请参阅[快速用户指南](https://docs.aws.amazon.com/quicksight/latest/user/welcome.html)。

以下各节介绍如何将批量预测发送到 Quick 进行分析。

## 开始前的准备工作
<a name="canvas-send-predictions-prereqs"></a>

您的用户必须具有必要的 AWS Identity and Access Management (IAM) 权限才能将您的预测发送到 Quick。您的管理员可以为您的用户设置 IAM 权限。有关更多信息，请参阅 [向您的用户授予向 Quick 发送预测的权限](canvas-quicksight-permissions.md)。

您的 Quick 账户必须包含`default`命名空间，该命名空间是在您首次创建 Quick 账户时设置的。请联系您的管理员以帮助您访问 Quick。有关更多信息，请参阅《[快速用户指南》中的设置](https://docs.aws.amazon.com/quicksight/latest/user/setting-up.html)*快速*。

您的 Quick 账户必须与您的 Canvas 应用程序在同一区域创建。如果您的 Quick 账户的主区域与 Canvas 应用程序的区域不同，则必须[关闭](https://docs.aws.amazon.com/quicksight/latest/user/closing-account.html)并重新创建 Quick 帐户，或者在与 Quick 账户相同的区域中[设置 Canvas 应用程序](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html#canvas-prerequisites)。你可以通过执行以下操作来查看你的 Quick home 区域（假设你已经有一个 Quick 账户）：

1. 打开您的 [Quick 控制台](https://quicksight.aws.amazon.com/)。

1. 页面加载时，您的快速主页区域将按以下格式附加到网址中：`https://<your-home-region>.quicksight.aws.amazon.com/`。

您必须知道要向其发送预测的 Quick 用户的用户名。您可以向自己或其他拥有适当权限的用户发送预测。您向其发送预测的任何用户都必须位于您的 Quick 账户的`default`[命名空间](https://docs.aws.amazon.com/quicksight/latest/user/namespaces.html)中，并且在 Quick 中具有`Author`或`Admin`角色。

此外，Quick 必须有权访问您的域名的 SageMaker AI 默认 Amazon S3 存储桶，该存储桶的命名格式如下：`sagemaker-{REGION}-{ACCOUNT_ID}`。该区域应与您的 Quick 账户的主区域和 Canvas 应用程序的区域相同。要了解如何允许快速访问存储在 Amazon S3 存储桶中的批量预测，请参阅*快速用户指南*中的[我无法连接到 Amazon S3](https://docs.aws.amazon.com/quicksight/latest/user/troubleshoot-connect-S3.html) 的主题。

## 支持的数据格式
<a name="canvas-send-predictions-formatting"></a>

在发送预测之前，请检查批量预测的数据格式是否与 Quick 兼容。
+ 要详细了解时间序列数据可接受的数据格式，请参阅*快速用户指南*中的[支持的日期格式](https://docs.aws.amazon.com/quicksight/latest/user/supported-date-formats.html)。
+ 要详细了解可能阻止您发送到 Quick 的数据值，请参阅《*快速用户指南》*[中的数据中不支持的值](https://docs.aws.amazon.com/quicksight/latest/user/unsupported-data-values.html)。

另请注意，Quick 使用该字符`"`作为文本限定符，因此，如果您的 Canvas 数据包含任何`"`字符，请确保关闭所有匹配的引号。任何不匹配的报价都可能导致将数据集发送到 Quick 时出现问题。

## 将您的批量预测发送到 Quick
<a name="canvas-send-predictions-send"></a>

使用以下步骤将您的预测发送到 Quick：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。

1. 选择**预测**选项卡。

1. 在**预测**下，选择您要共享的批量预测数据集（或多个数据集）。您一次最多可以共享 5 个批量预测数据集。

1. 选择数据集后，选择 “**发送至快速**”。
**注意**  
除非您选择一个或多个数据集，否则**发送至快捷**按钮不会激活。

   或者，您可以通过选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，然后选择**查看预测结果**来预览您的预测结果。在数据集预览中，您可以选择**发送到快速**。以下屏幕截图显示了数据集预览中的 “**发送到快速**” 按钮。  
![\[数据集预览的屏幕截图，底部有发送到快捷按钮。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/send-to-quicksight-preview.png)

1. 在 “**发送到快速**” 对话框中，执行以下操作：

   1. 对于**QuickSight 用户**，请输入您要向其发送预测的 Quick 用户的姓名。如果您想将预测发送给自己，请输入您自己的用户名。您只能向 Quick 账户`default`命名空间中的用户发送预测，并且该用户必须在 Quick 中具有`Author`或`Admin`角色。

   1. 选择**发送**。

   以下屏幕截图显示了 “**发送到快速**” 对话框：  
![\[“发送到快速” 对话框。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/send-to-quicksight.png)

发送批量预测后，您发送的数据集的**QuickSight**字段将显示为`Sent`。在确认您的预测已发送的确认框中，您可以选择 **Open Quick 打开**您的 Quick 应用程序。使用完 Canvas 后，应从 Canvas 应用程序[注销](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-log-out.html)。

您已向其发送数据集的 Quick 用户可以打开他们的 Quick 应用程序并查看已与他们共享的 Canvas 数据集。然后，他们可以使用数据创建预测控制面板。有关更多信息，请参阅《[快速*用户指南》中的快速*数据分析入门](https://docs.aws.amazon.com/quicksight/latest/user/getting-started.html)。

默认情况下，您向其发送预测的所有用户都拥有 Quick 中数据集的所有者权限。所有者可以创建分析，刷新、编辑、删除和重新共享数据集。所有者对数据集所做的更改会更改所有具有访问权限的用户的数据集。要更改权限，请在 Quick 中进入数据集并管理其权限。有关更多信息，请参阅*快速[用户指南中的查看和编辑与之共享数据集的权限](https://docs.aws.amazon.com/quicksight/latest/user/sharing-data-sets.html#view-users-data-set)用户*。

# 下载模型笔记本
<a name="canvas-notebook"></a>

**注意**  
模型笔记本功能可用于快速构建和标准构建表格模型以及微调后的基础模型。模型笔记本不支持映像预测、文本预测或时间序列预测模型。  
如果您要为在此功能推出之前构建的表格模型生成模型笔记本，则必须重新构建模型才能生成笔记本。

对于您在 Amazon SageMaker Canvas 中成功构建的符合条件的模型，系统会生成一个包含所有模型构建步骤报告的 Jupyter 笔记本。这款 Jupyter 笔记本包含 Python 代码，你可以在本地运行这些代码，也可以在像 Amazon SageMaker Studio Classic 这样的环境中运行这些代码，以复制构建模型所需的步骤。如果您想尝试使用代码或查看 Canvas 如何构建模型的后端细节，笔记本会非常有用。

要访问模型笔记本，执行以下操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 选择您构建的模型和版本。

1. 在模型版本页面上，选择标题中的**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 从下拉菜单中，选择**查看笔记本**。

1. 弹出笔记本内容窗口。您可以选择**下载**，然后执行以下任一操作：

   1. 选择**下载**将笔记本内容保存到本地设备。

   1. 选择**复制 S3 URI** 以复制存储笔记本的 Amazon S3 位置。笔记本存储在 [设置 Amazon C SageMaker anvas 的先决条件](canvas-getting-started.md#canvas-prerequisites) 部分配置的 **Canvas 存储配置**中指定的 Amazon S3 存储桶中。

现在，您应该可以在本地或在 Amazon S3 中以对象的形式查看笔记本。您可以将笔记本上传到 IDE 中编辑和运行代码，也可以与组织中的其他人共享笔记本进行查看。

# 将您的模型发送到 Quick
<a name="canvas-send-model-to-quicksight"></a>

如果您使用 Quick 并想在快速可视化中使用 SageMaker Canvas，则可以构建 Amazon SageMaker Canvas 模型并将其用作快速数据集中的*预测字段*。*预测字段*是 Quick 数据集中的一个字段，可以对数据集中的给定列进行预测，类似于 Canvas 用户使用模型进行单一或批量预测的方式。要详细了解如何将 Canvas 预测功能集成到 Quick 数据集中，请参阅[快速用户指南](https://docs.aws.amazon.com/quicksight/latest/user/welcome.html)中的 [SageMaker Canvas 集成](https://docs.aws.amazon.com/quicksight/latest/user/sagemaker-canvas-integration.html)。

以下步骤说明了如何使用 Canvas 模型向 Quick 数据集添加预测字段：

1. 打开 Canvas 应用程序并使用您的数据集构建模型。

1. 在 Canvas 中构建模型后，将模型发送到 Quick。当您将模型发送到 Quick 时，架构文件会自动下载到您的本地计算机。您将在下一步中将此架构文件上传到 Quick。

1. 打开 Quick 并选择一个架构与用于构建模型的数据集相同的数据集。将预测字段添加到该数据集并执行以下操作：

   1. 指定从 Canvas 发送的模型。

   1. 上传在步骤 2 中下载的架构文件。

1. 保存并发布您的更改，然后为新数据集生成预测。Quick 使用模型在目标列中填充预测值。

要将模型从 Canvas 发送到 Quick，您必须满足以下先决条件：
+ 你必须同时设置 Canvas 和 Quick。您的 Quick 账户必须与您的 Canvas 应用程序的创建方式 AWS 区域 相同。如果您的 Quick 账户的主区域与 Canvas 应用程序的区域不同，则必须[关闭](https://docs.aws.amazon.com/quicksight/latest/user/closing-account.html)并重新创建 Quick 帐户，或者在与 Quick 账户相同的区域中[设置 Canvas 应用程序](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html#canvas-prerequisites)。您的 Quick 账户还必须包含默认命名空间，这是您在首次创建 Quick 账户时设置的。请联系您的管理员以帮助您访问 Quick。有关更多信息，请参阅《[快速用户指南》中的设置](https://docs.aws.amazon.com/quicksight/latest/user/setting-up.html)*快速*。
+ 您的用户必须具有必要的 AWS Identity and Access Management (IAM) 权限才能将您的预测发送到 Quick。您的管理员可以为您的用户设置 IAM 权限。有关更多信息，请参阅[向您的用户授予向 Quick 发送预测的权限](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-quicksight-permissions.html)。
+ Quick 必须有权访问您为 Canvas 应用程序存储指定的 Amazon S3 存储桶。有关更多信息，请参阅 [配置 Amazon S3 存储](canvas-storage-configuration.md)。

# Amazon C SageMaker anvas 中的时间序列预测
<a name="canvas-time-series"></a>

**注意**  
时间序列预测模型仅支持表格数据集。

Amazon SageMaker Canvas 使您能够使用机器学习时间序列预测。时间序列预测使您能够做出随时间变化的预测。

您可以对以下示例进行时间序列预测：
+ 预测未来几个月的库存。
+ 未来四个月内售出的商品数量。
+ 假日期间降价对销售额的影响。
+ 未来 12 个月的商品库存。
+ 在接下来的几个小时内进入商店的顾客数量。
+ 预测产品降价 10% 对一段时间内销售额的影响。

要进行时间序列预测，您的数据集必须具有以下内容：
+ 一个时间戳列，其所有值均为`datetime`类型。
+ 一个目标列，其中包含用于预测未来值的值。
+ 包含数据集中每个项目的唯一标识符（例如 SKU 编号）的项目 ID 列。

时间戳列中的 `datetime` 值必须使用以下格式之一：
+ `YYYY-MM-DD HH:MM:SS`
+ `YYYY-MM-DDTHH:MM:SSZ`
+ `YYYY-MM-DD`
+ `MM/DD/YY`
+ `MM/DD/YY HH:MM`
+ `MM/DD/YYYY`
+ `YYYY/MM/DD HH:MM:SS`
+ `YYYY/MM/DD`
+ `DD/MM/YYYY`
+ `DD/MM/YY`
+ `DD-MM-YY`
+ `DD-MM-YYYY`

您可以对以下时间间隔进行预测：
+ 1 分钟
+ 5 分钟
+ 15 分钟
+ 30 分钟
+ 1 小时
+ 1 天
+ 1 周
+ 1 个月
+ 1 年

## 输入数据集中的未来值
<a name="canvas-time-series-future"></a>

Canvas 会自动检测数据集中可能包含未来值的列。如果存在这些值，则可以提高预测的准确性。Canvas 用`Future values`标签标记这些特定的列。Canvas 会推断出这些列中的数据与您要预测的目标列之间的关系，并利用这种关系来生成更准确的预测。

例如，您可以预测一家杂货店的冰淇淋销售量。要进行预测，必须有一个时间戳列和一个指示杂货店卖出多少冰淇淋的列。为了获得更准确的预测，您的数据集还可以包括价格、环境温度、冰淇淋口味或冰淇淋的唯一标识符。

天气转暖后，冰淇淋的销量可能会增加。冰淇淋价格下降可能会导致销售量增加。如果有一列环境温度数据和一列定价数据，就能提高预测杂货店冰淇淋销量的能力。

虽然提供未来值是可选的，但这有助于您直接在 Canvas 应用程序中执行假设分析，向您展示未来值的变化会如何改变您的预测。

## 处理缺失值
<a name="canvas-time-series-missing"></a>

由于不同的原因，您可能缺少数据。数据缺失的原因可能会影响您希望 Canvas 如何估算数据。例如，您的组织可能使用自动系统，该系统只在发生销售时才进行跟踪。如果您使用的数据集来自此类自动系统，则目标列中会有缺失值。

**重要**  
如果目标列中有缺失值，我们建议使用没有缺失值的数据集。 SageMaker Canvas 使用目标列来预测未来的值。目标列中的缺失值会大大降低预测的准确性。

对于数据集中的缺失值，Canvas 会在目标列中填入 `0`，并在其他数值列中填入该列的中值，从而自动估算缺失值。

不过，您可以为数据集中的目标列和其他数值列选择自己的填充逻辑。目标列的填充准则和限制不同于其他数值列。目标列填写至历史时期结束，而数值列则填写至历史时期和未来时期，直至预测范围结束。只有当数据中至少有一条记录带有未来时间戳和特定列的值时，Canvas 才会在数值列中填写未来值。

您可以选择以下填充逻辑选项之一来估算数据中的缺失值：
+ `zero` – 填充 `0`。
+ `NaN` – 填充 NaN，即非数字。这仅支持目标列。
+ `mean` – 填充数据序列的平均值。
+ `median` – 填充数据序列的中值。
+ `min` – 填充数据序列的最小值。
+ `max` – 填充数据序列的最大值。

选择填充逻辑时，应考虑模型如何解释该逻辑。例如，在零售场景中，记录有货商品的零销售额与记录无货商品的零销售额是不同的，因为后者并不一定意味着顾客对无货商品缺乏兴趣。在这种情况下，在数据集的目标列中填入 `0` 可能会导致模型的预测偏差过大，并推断出顾客对无货商品缺乏兴趣。反之，填充 `NaN` 可能会导致模型忽略有货商品中零卖出的真实情况。

## 预测类型
<a name="canvas-time-series-types"></a>

您可以进行以下类型的预测之一：
+ **单个项目**
+ **所有项目**

对于数据集中所有项目的预测， SageMaker Canvas 会返回对数据集中每个项目的未来值的预测。

对于单个物料的预测，您可以指定该物料， SageMaker Canvas 会返回对未来值的预测。预测包括一个折线图，描绘出预测值随时间变化的情况。

**Topics**
+ [输入数据集中的未来值](#canvas-time-series-future)
+ [处理缺失值](#canvas-time-series-missing)
+ [预测类型](#canvas-time-series-types)
+ [用于预测见解的其他选项](canvas-additional-insights.md)

# 用于预测见解的其他选项
<a name="canvas-additional-insights"></a>

在 Amazon SageMaker Canvas 中，您可以使用以下可选方法从预测中获得更多见解：
+ 分组列
+ 节假日时间表
+ 假设情景

您可以在数据集中指定一列作为**分组列**。Amazon SageMaker Canvas 按列中的每个值对预测进行分组。例如，您可以根据包含价格数据或唯一项目标识符的列对预测进行分组。通过按列对预测进行分组，您可以做出更具体的预测。例如，如果您根据包含项目标识符的列对预测进行分组，就可以看到每个项目的预测。

节假日的存在可能会影响商品的整体销售。例如，在美国，11 月和 12 月售出的商品数量可能与 1 月售出的商品数量大相径庭。如果使用 11 月和 12 月的数据来预测 1 月份的销售额，结果可能会不准确。使用节假日时间表可以避免获得不准确的结果。您可以使用 251 个国家/地区的节假日时间表。

要对数据集中的单个项目进行预测，可以使用假设情景。假设情景使您能够更改数据中的值并改变预测。例如，您可以通过假设情景来回答以下问题：“如果我降低价格会怎样？ 这对销售商品的数量有什么影响？”

# 在 Amazon SageMaker Canvas 中添加模型版本
<a name="canvas-update-model"></a>

在 Amazon SageMaker Canvas 中，您可以通过添加*版本*来更新自己构建的模型。您构建的每个模型都有一个版本号。第一个模型是版本 1 或 `V1`。当您更新数据或使用[高级转换](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html)时，可以使用模型版本查看预测准确性的变化。

查看模型时， SageMaker Canvas 会向您显示模型历史记录，以便您可以比较您构建的所有模型版本。您还可以删除对您不再有用的版本。通过创建多个模型版本并评估其准确性，您可以不断改进模型性能。

**注意**  
文本预测和图像预测模型仅支持一个模型版本。

要添加模型版本，您可以克隆现有版本或创建新版本。

克隆现有版本会复制当前的模型配置，包括模型配方和输入数据集。或者，如果您想配置新的模型配方或选择不同的数据集，也可以创建新版本。

如果您创建新版本并选择不同的数据集，则必须选择与版本 1 中的数据集具有相同目标列和架构的数据集。

在添加新版本之前，您必须成功构建至少一个模型版本。然后，您可以在 “[模型注册表” 中注册 SageMaker 模型版本](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-register-model.html)。使用注册表跟踪模型版本，并与 Studio Classic 用户合作批准生产模型。

如果您为第一个模型版本进行了快速构建，则在添加版本时，您可以选择运行标准构建。标准构建通常具有更高的准确性。因此，如果您对快速构建配置有信心，则可以运行标准构建来创建模型的最终版本。要了解有关快速构建和标准构建之间的区别，请参阅 [自定义模型的工作原理](canvas-build-model.md)。

以下步骤显示了如何添加模型版本；根据您添加的是相同构建类型的版本还是不同的构建类型（快速与标准），步骤会有所不同。使用**添加新模型版本**步骤来添加相同构建类型的版本。要在运行快速构建后添加标准构建模型版本，请按照**运行标准构建**步骤操作。

**要添加新模型版本**

1. 打开你的 SageMaker 画布应用程序。有关更多信息，请参阅 [开始使用 Amazon C SageMaker anvas](canvas-getting-started.md)。

1. 在左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。要查找模型，您可以选择**按问题类型进行筛选**。

1. 打开模型后，选择顶部面板中的**添加版本**按钮。

1. 从下拉菜单中选择以下选项之一：

   1. **从头开始添加新版本**：选择此选项后，将打开**构建**选项卡，并显示新模型版本的草稿。您可以选择不同的数据集（只要架构与第一个模型版本的数据集架构相匹配）并配置新的模型配方。有关构建模型版本的更多信息，请参阅 [构建模型](canvas-build-model-how-to.md)。

   1. **使用配置克隆现有版本**：对话框会提示您选择要克隆的版本。选择所需版本后，选择**克隆**。打开**构建**选项卡会显示新模型版本的草稿。任何模型配方配置都会从克隆版本中复制过来。有关构建模型版本的更多信息，请参阅 [构建模型](canvas-build-model-how-to.md)。

**要运行标准构建**

1. 打开你的 SageMaker 画布应用程序。有关更多信息，请参阅 [开始使用 Amazon C SageMaker anvas](canvas-getting-started.md)。

1. 在左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。您可以选择**按问题类型进行筛选**，以便更轻松地找到您的模型。

1. 打开模型后，选择**分析**选项卡。

1. 选择**标准构建**。  
![\[Canvas 模型的“分析”选项卡显示了标准构建按钮。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-add-version-quick-to-standard.png)

   在打开的**构建**选项卡的模型草稿页面上，您可以修改模型配置并开始构建。有关构建模型版本的更多信息，请参阅 [构建模型](canvas-build-model-how-to.md)。

现在您应该正在构建新的模型版本。有关构建模型的更多信息，请参阅[自定义模型的工作原理](canvas-build-model.md)。

创建模型版本后，您可以随时返回模型详细信息页面查看所有版本或添加更多版本。下图显示了模型的**版本**页面。

![\[Canvas 中模型的模型版本页面。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/model-versions.png)


在**版本**页面上，您可以查看每个模型版本的以下信息：
+ **状态** – 此字段显示您的模型是当前正在构建 (`In building`)、已完成构建 (`Ready`)、构建失败 (`Failed`) 还是仍在编辑中 (`In draft`)。
+ **模型得分**、**F1**、**精度**、**召回率**和 **AUC** – 如果您打开此页面上的**显示高级指标**开关，则可以看到这些模型指标。这些指标表明模型的准确性和性能。有关更多信息，请参阅[评估模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-evaluate-model.html)。
+ 已@@ **共享** — 此字段说明您是否与 SageMaker Studio Classic 用户共享模型版本。
+ **模型注册表**：此字段说明您是否将版本注册到模型注册表中。有关更多信息，请参阅 [在 SageMaker AI 模型注册表中注册模型版本](canvas-register-model.md)。

# MLOps
<a name="canvas-mlops"></a>

在 SageMaker Canvas 中构建了您有信心的模型后，您可能需要将模型与组织中的机器学习操作 (MLOps) 流程集成。 MLOps 包括常见任务，例如部署用于生产的模型或设置持续集成和持续部署 (CI/CD) 管道。

以下主题介绍如何使用 Canvas 中的功能在生产中使用 Canvas 构建的模型。

**Topics**
+ [在 SageMaker AI 模型注册表中注册模型版本](canvas-register-model.md)
+ [将模型部署到端点](canvas-deploy-model.md)
+ [查看部署](canvas-deploy-model-view.md)
+ [更新部署配置](canvas-deploy-model-update.md)
+ [测试部署](canvas-deploy-model-test.md)
+ [调用端点](canvas-deploy-model-invoke.md)
+ [删除模型部署](canvas-deploy-model-delete.md)

# 在 SageMaker AI 模型注册表中注册模型版本
<a name="canvas-register-model"></a>

使用 SageMaker Canvas，您可以构建模型的多个迭代或版本，以便随着时间的推移对其进行改进。如果您获得了更好的训练数据，或者您想尝试提高模型的准确性，您可能想要构建模型的新版本。有关向模型添加版本的更多信息，请参阅[更新模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-update-model.html)。

在你[建立了一个你有信心的模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)之后，你可能需要评估其性能，让组织中的数据科学家或 MLOps 工程师对其进行审查，然后再将其用于生产。为此，您可以将您的模型版本注册到 “[SageMaker 模型注册表](https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry.html)”。 SageMaker 模型注册表是一个存储库，数据科学家或工程师可以使用该存储库对机器学习 (ML) 模型进行编目并管理模型版本及其相关元数据，例如训练指标。他们还可以管理和记录模型的审批状态。

将模型版本注册到模型注册表后，数据科学家或您的 MLOps 团队可以通过 [SageMaker Studio Classic 访问 SageMaker 模型注册表，Studio Classic](https://docs.aws.amazon.com/sagemaker/latest/dg/studio.html) 是一个基于 Web 的集成开发环境 (IDE)，用于处理机器学习模型。 SageMaker 在 Studio Classic 的 SageMaker 模型注册表界面中，数据科学家或 MLOps 团队可以评估您的模型并更新其批准状态。如果模型的性能不符合他们的要求，则数据科学家或 MLOps 团队可以将状态更新为`Rejected`。如果模型的性能确实符合他们的要求，则数据科学家或 MLOps 团队可以将状态更新为`Approved`。然后，他们可以[将您的模型部署到端点](https://docs.aws.amazon.com/sagemaker/latest/dg/deploy-model.html#deploy-model-prereqs)或使用 CI/CD 管道[自动部署模型](https://aws.amazon.com/blogs/machine-learning/building-automating-managing-and-scaling-ml-workflows-using-amazon-sagemaker-pipelines/)。您可以使用 SageMaker AI 模型注册表功能将 Canvas 中构建的模型与组织中的 MLOps流程无缝集成。

下图总结了将在 Canvas 中内置的模型版本注册到 SageMaker 模型注册表以集成到 MLOps 工作流程中的示例。

![\[注册在 Canvas 中内置的模型版本以集成到 MLOps 工作流程中的步骤。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-model-registration-diagram.jpg)


您可以将表格、图像和文本模型版本注册到 “ SageMaker 模型注册表”。这包括时间序列预测模型和 JumpStart 基于[微调的基础模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-fm-chat-fine-tune.html)。

**注意**  
目前，您无法在 Canvas 中内置的基于 Amazon Bedrock 的微调基础模型注册到 SageMaker 模型注册表。

以下各节介绍如何从 Canvas 将模型版本注册到 “ SageMaker 模型注册表”。

## 权限管理
<a name="canvas-register-model-prereqs"></a>

默认情况下，您有权将模型版本注册到 “ SageMaker 模型注册表”。 SageMaker AI 通过策略为所有新的和现有的 Canvas 用户配置文件授予这些权限，该[AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html)策略附加到托管 Canvas 应用程序的 A SageMaker I 域的 AWS IAM 执行角色。

如果您的 Canvas 管理员正在设置新的域名或用户配置文件，则在设置域名并按照[入门指南中的先决条件说明进行操作时， SageMaker AI 会通过 ML Ops 权限配置选项开](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html#canvas-prerequisites)**启模型注册权限**，该选项默认处于启用状态。

Canvas 管理员还可以在用户配置文件级别管理模型注册权限。例如，如果管理员希望向某些用户配置文件授予模型注册权限，但删除其他用户配置文件的权限，他们可以编辑特定用户的权限。以下过程说明如何关闭特定用户配置文件的模型注册权限：

1. 打开 SageMaker AI 控制台，网址为[https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在左侧导航窗格中，选择**管理员配置**。

1. 在**管理员配置**下，选择**域**。

1. 从域列表中，选择用户配置文件的域。

1. 在**域详细信息**页面上，选择要编辑其权限的**用户配置文件**。

1. 在**用户详细信息**页面上，选择**编辑**。

1. 在左侧导航窗格中，选择 **Canvas 设置**。

1. 在 **ML Ops 权限配置**部分，关闭**启用模型注册表注册权限**开关。

1. 选择**提交**以保存对域设置的更改。

用户配置文件不应再拥有模型注册权限。

## 将模型版本注册到 A SageMaker I 模型注册表
<a name="canvas-register-model-register"></a>

SageMaker Model Registry 会跟踪您为解决模型*组中的特定问题而构建的所有模型*版本。当您构建 SageMaker Canvas 模型并将其注册到 SageMaker 模型注册表时，它会作为新的模型版本添加到模型组中。例如，如果您构建并注册了模型的四个版本，则在 Model Registry 界面中工作的数据科学家或 MLOps 团队可以在一个位置查看模型组并查看模型的所有四个版本。 SageMaker 

将 Canvas 模型注册到 SageMaker 模型注册表时，将自动创建一个模型组，并以您的 Canvas 模型命名。或者，您可以将其重命名为自己选择的名称，或者使用模型注册表中的现有 SageMaker 模型组。有关创建模型组的更多信息，请参阅[创建模型组](https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry-model-group.html)。

**注意**  
目前，您只能在同一个账户中将在 Canvas 中构建的 SageMaker 模型注册到模型注册中心。

要从 Canvas 应用程序将 SageMaker 模型版本注册到模型注册表，请按以下步骤操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择**我的模型**。

1. 在**我的模型**页面上，选择您的模型。您可以**按问题类型进行筛选**，以便更轻松地找到您的模型。

1. 选择模型后，将打开**版本**页面，其中列出了您的模型的所有版本。您可以打开**显示高级指标**开关来查看高级指标（如**召回率**和**精度**），以比较您的模型版本并确定要注册哪个版本。

1. 在模型版本列表中，对于要注册的版本，选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。或者，您可以双击需要注册的版本，然后在版本详细信息页面上，选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 在下拉列表中，选择**添加到模型注册表**。此时将打开**添加到模型注册表**对话框。

1. 在**添加到模型注册表**对话框中，执行以下操作：

   1. （可选）在 **SageMaker Studio Classic 模型组****部分的模型组名称**字段中，输入要向其注册版本的模型组的名称。您可以为 SageMaker AI 为您创建的新模型组指定名称，也可以指定现有模型组。如果不指定此字段，Canvas 会将您的版本注册到与模型同名的默认模型组中。

   1. 选择**添加**。

现在，您的模型版本应该已注册到模型注册表中的 SageMaker 模型组。在模型注册表中将模型版本注册到 SageMaker 模型组时，Canvas模型的所有后续版本都将注册到同一个模型组（如果您选择注册它们）。如果您将版本注册到其他模型组，则需要前往 SageMaker 模型注册表并[删除该模型组](https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry-delete-model-group.html)。然后，您可以将模型版本重新注册到新的模型组中。

要查看模型的状态，可以返回 Canvas 应用程序中模型的**版本**页面。此页面显示每个版本的**模型注册表**状态。如果状态为`Registered`，则表示模型已成功注册。

如果要查看已注册模型版本的详细信息，对于**模型注册表**状态，可以将鼠标悬停在**已注册**字段上以查看**模型注册表详细信息**弹出框。这些详细信息包含更多信息，例如：
+ **模型包组名称**是您的版本在 “模型注册表” 中注册到的 SageMaker 模型组。
+ **审批状态**可以是`Pending Approval`、`Approved`或`Rejected`。如果 Studio Classic 用户在 SageMaker 模型注册表中批准或拒绝您的版本，则当您刷新页面时，模型版本页面上的此状态会更新。

以下屏幕截图显示了**模型注册表详细信息**框，以及该特定模型版本的`Approved`的**审批状态**。

![\[Canvas 应用程序中 SageMaker 模型注册表详细信息框的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/approved-mr.png)


# 将模型部署到端点
<a name="canvas-deploy-model"></a>

在 Amazon SageMaker Canvas 中，您可以将模型部署到终端节点以进行预测。 SageMaker AI 为您提供了机器学习基础架构，让您可以将模型托管在带有您选择的计算实例的终端节点上。然后，您可以*调用*端点（发送预测请求）并从模型中获取实时预测。借助此功能，您可以在生产环境中使用模型来响应传入的请求，还可以将模型与现有应用程序和工作流集成。

要开始操作，您应该先拥有想要部署的模型。您可以部署自己构建的自定义模型版本、Amazon SageMaker JumpStart 基础模型和经过微调 JumpStart 的基础模型。有关在 Canvas 中构建模型的更多信息，请参阅[自定义模型的工作原理](canvas-build-model.md)。有关 Canvas 中 JumpStart基础模型的更多信息，请参阅[C SageMaker anvas 中的生成式 AI 基础模型](canvas-fm-chat.md)。

查看以下**权限管理**部分，然后在**部署模型**部分开始创建新部署。

## 权限管理
<a name="canvas-deploy-model-prereqs"></a>

默认情况下，您有权将模型部署到 SageMaker AI Hosting 终端节点。 SageMaker AI 通过策略为所有新的和现有的 Canvas 用户配置文件授予这些权限，该[AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html)策略附加到托管 Canvas 应用程序的 A SageMaker I 域的 AWS IAM 执行角色。

如果您的 Canvas 管理员正在设置新的域或用户配置文件，则当他们设置域并按照中的先决条件说明进行操作时[设置 Amazon C SageMaker anvas 的先决条件](canvas-getting-started.md#canvas-prerequisites)， SageMaker AI 会通过 “**启用直接部署 Canvas 模型” 选项开启模型部署**权限，该选项默认处于启用状态。

Canvas 管理员还可以在用户配置文件级别管理模型部署权限。例如，如果管理员不想在设置域时向所有用户配置文件授予模型部署权限，他们可以在创建域后向特定用户授予权限。

以下过程说明如何修改特定用户配置文件的模型部署权限：

1. 打开 SageMaker AI 控制台，网址为[https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在左侧导航窗格中，选择**管理员配置**。

1. 在**管理员配置**下，选择**域**。

1. 从域列表中，选择用户配置文件的域。

1. 在**域详细信息**页面上，选择**用户配置文件**选项卡。

1. 选择您的**用户配置文件**。

1. 在用户配置文件页面，选择**添加配置**选项卡。

1. 在 **Canvas** 部分中，选择**编辑**。

1. 在 **ML Ops 配置**部分，打开**启用 Canvas 模型的直接部署**开关，以启用部署权限。

1. 选择**提交**以保存对域设置的更改。

用户配置文件现在应该具有模型部署权限。

授予域或用户配置文件权限后，确保用户退出其 Canvas 应用程序并重新登录以应用权限更改。

## 部署模型
<a name="canvas-deploy-model-deploy"></a>

要开始部署模型，您可以在 Canvas 中创建一个新的部署，并指定要部署的模型版本以及 ML 基础设施，例如要用于托管模型的计算实例的类型和数量。

Canvas 会根据您的模型类型建议默认类型和实例数量，或者您可以在 A [mazon SageMaker 定价页面](https://aws.amazon.com/sagemaker/pricing/)上详细了解各种 A SageMaker I 实例类型。您的终端节点处于活动状态时，将根据 SageMaker AI 实例的定价向您收费。

部署 JumpStart 基础模型时，您还可以选择指定部署时间的长度。您可以无限期地将模型部署到端点（这意味着端点一直处于活动状态，直到您删除部署）。或者，如果您只需要在短时间内使用终端节点并希望降低成本，则可以将模型部署到终端节点指定时间，之后 SageMaker AI 会为您关闭终端节点。

**注意**  
如果您要在指定时间内部署模型，请在端点持续期间保持登录 Canvas 应用程序。如果您退出或删除应用程序，则 Canvas 无法在指定时间关闭端点。

将模型部署到 SageMaker AI Host [ing 实时推理终端节点](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html)后，您可以通过*调用*该终端节点开始进行预测。

从 Canvas 应用程序部署模型有几种不同的方法。您可以通过以下任一方法访问模型部署选项：
+ 在 Canvas 应用程序的**我的模型**页面上，选择要部署的模型。然后，在模型的**版本**页面中，选择模型版本旁边的**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，然后选择**部署**。
+ 在模型版本的详细信息页面的**分析**选项卡上，可以选择**部署**选项。
+ 在模型版本的详细信息页面的**预测**选项卡上，选择页面顶部的**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，然后选择**部署**。
+ 在 Canvas 应用程序的 **ML Ops** 页面上，选择**部署**选项卡，然后选择**创建部署**。
+ 对于 JumpStart 基础模型和经过微调的基础模型，请转到 Canvas 应用程序的**Ready-to-use 模型**页面。选择**生成、提取和汇总内容**。然后，找到要部署 JumpStart 的基础模型或经过微调的基础模型。选择模型，然后在模型的聊天页面上选择**部署**按钮。

所有这些方法都会打开**部署模型**侧面板，您可在此指定模型的部署配置。要通过此面板部署模型，请执行以下操作：

1. （可选）如果您从 **ML Ops** 页面创建部署，则可以选定**选择模型和版本**。使用下拉菜单选择要部署的模型和模型版本。

1. 在**部署名称**字段中输入名称。

1. （仅适用于 JumpStart 基础模型和经过微调的基础模型）选择**部署长度**。选择**无限期**，使端点处于活动状态，直到关闭为止；或选择**指定时长**，然后输入您希望端点保持活动状态的时间段。

1. 对于**实例类型**， SageMaker AI 会检测适合您的模型的默认实例类型和编号。不过，您可以更改要用于托管模型的实例类型。
**注意**  
如果您的 AWS 账户上所选实例类型的实例配额已用完，则可以申请增加配额。有关默认配额以及如何申请增加配额的更多信息，请参阅*AWS 通用参考指南*中的 [Amazon SageMaker AI 终端节点和配额](https://docs.aws.amazon.com/general/latest/gr/sagemaker.html)。

1. 对于**实例计数**，您可以设置用于终端节点的活跃实例数量。 SageMaker AI 会检测到适合您的型号的默认数字，但您可以更改此数字。

1. 如果您已准备好部署模型，请选择**部署**。

现在，您的模型应该已部署到端点。

# 查看部署
<a name="canvas-deploy-model-view"></a>

您可能需要在 Amazon C SageMaker anvas 中查看模型部署的状态或详细信息。例如，如果部署失败，您可能需要查看详细信息以排查问题。

您可以通过 Canvas 应用程序或 Amazon A SageMaker I 控制台查看您的 Canvas 模型部署。

要从 Canvas 查看部署详细信息，请选择以下过程之一：

要从 **ML Ops** 页面查看部署详细信息，请执行以下操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择 **ML Ops**。

1. 选择**部署**选项卡。

1. 从列表中按名称选择您的部署。

要从模型版本页面查看部署详细信息，请执行以下操作：

1. 在 SageMaker Canvas 应用程序中，转到您的模型版本的详细信息页面。

1. 选择**部署**选项卡。

1. 在列出与该模型版本关联的所有部署配置的**部署**部分，找到您的部署。

1. 选择**更多选项**图标 (![\[More options icon for the output CSV file.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，然后选择**查看详细信息**以打开详细信息页面。

此时会打开部署的详细信息页面，您可以查看最近一次预测的时间、端点的状态和配置以及当前部署到端点的模型版本等信息。

您还可以从 AI 控制台的 AI [控制](https://console.aws.amazon.com/sagemaker/)**面板中查看当前处于活动状态的 Canv SageMaker a** s 工作空间实例和活动终端节点。SageMaker 您的 Canvas 终端节点与您创建的任何其他 SageMaker AI Hosting 端点一起列出，您可以通过搜索带有 Canvas 标签的端点来筛选它们。

以下屏幕截图显示了 SageMaker AI 控制面板。在 **Canvas** 部分，您可以看到一个工作区实例正在运行，四个端点处于活动状态。

![\[显示活动的 Canv SageMaker as 工作区实例和端点的 AI 仪表板屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-sagemaker-dashboard.png)


# 更新部署配置
<a name="canvas-deploy-model-update"></a>

您可以在 Amazon C SageMaker anvas 中更新已部署到终端节点的模型的部署配置。例如，可以向端点部署更新的模型版本，也可以根据容量需求更新端点后面的实例类型或实例数量。

您可以通过几种不同的方式从 Canvas 应用程序更新部署。您可以使用以下任何一种方法：
+ 在 Canvas 应用程序的 **ML Ops** 页面上，您可以选择**部署**选项卡，然后选择要更新的部署。然后，选择**更新配置**。
+ 在模型版本的详细信息页面的**部署**选项卡上，您可以查看该版本的部署。在部署旁边，选择**更多选项**图标 (![\[More options icon for the output CSV file.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，然后选择**更新配置**。

上述两种方法都会打开**更新配置**侧面板，您可以在其中更改部署配置。要更新配置，请执行以下操作：

1. 在**选择版本**下拉菜单中，您可以选择要部署到端点的不同模型版本。
**注意**  
更新部署配置时，只能选择不同的模型版本进行部署。要部署不同的模型，请创建新的部署。

1. 对于**实例类型**，您可以选择不同的实例类型来托管您的模型。

1. 对于**实例计数**，您可以更改端点使用的活动实例数量。

1. 选择**保存**。

您的部署配置现在应该已更新。

# 测试部署
<a name="canvas-deploy-model-test"></a>

您可以通过调用终端节点或通过 Amazon C SageMaker anvas 应用程序发出单个预测请求来测试模型部署。在生产环境中以编程方式调用端点之前，您可以使用此功能确认端点是否响应请求。

## 测试自定义模型部署
<a name="canvas-deploy-model-test-custom"></a>

您可以通过 **ML Ops** 页面访问自定义模型部署，然后进行单次调用，以测试此模型部署。

**注意**  
执行长度是调用 Canvas 中的端点并从端点获取响应所需的估计时间。有关详细的延迟指标，请参阅 [SageMaker AI 终端节点调用指标](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-endpoint-invocation)。

要通过 Canvas 应用程序测试您的端点，请执行以下操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择 **ML Ops**。

1. 选择**部署**选项卡。

1. 从部署列表中，选择带有要调用的端点的部署。

1. 在部署的详细信息页面上，选择**测试部署**选项卡。

1. 在部署测试页面上，您可以修改**值**字段以指定新的数据点。对于时间序列预测模型，您需要指定要进行预测的**项目 ID**。

1. 修改值后，选择**更新**以获取预测结果。

此时将加载预测，同时加载的还有**调用结果**字段，这些字段指示调用是否成功以及处理请求所需的时间。

以下屏幕截图显示了在 Canvas 应用程序的**测试部署**选项卡上执行的预测。

![\[显示了已部署模型的测试预测的 Canvas 应用程序。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-test-deployments.png)


对于除数值预测和时间序列预测外的所有模型类型，预测都会返回以下字段：
+  **predicted\$1label** – 预测的输出
+  **probability** – 预测的标签正确的概率
+  **labels** – 所有可能的标签的列表
+  **probabilities** – 每个标签对应的概率（该列表的顺序与标签的顺序一致）

对于数值预测模型，预测结果只包含**分数**字段，即模型的预测输出，如预测的房屋价格。

对于时间序列预测模型而言，预测结果是按分位数显示预测结果的图表。您可以选择**架构视图**来查看每个分位数的预测数值。

您可以继续通过部署测试页面进行单一预测，也可以查看以下[调用端点](canvas-deploy-model-invoke.md)部分，了解如何从应用程序中以编程方式调用端点。

## 测试 JumpStart 基础模型部署
<a name="canvas-deploy-model-test-js"></a>

您可以通过 Canvas 应用程序与已部署 JumpStart 的基础模型交谈，以测试其功能，然后再通过代码调用该模型。

要与已部署 JumpStart 的基础模型交谈，请执行以下操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择 **ML Ops**。

1. 选择**部署**选项卡。

1. 从部署列表中找到要调用的部署，然后选择其**更多选项**图标 (![\[More options icon for a model deployment.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 从上下文菜单中，选择**测试部署**。

1.  JumpStart 基础模型将打开一个新的 “**生成、提取和汇总内容**” 聊天，你可以开始键入提示了。请注意，此聊天中的提示将作为请求发送到您的 SageMaker AI Hosting 终端节点。

# 调用端点
<a name="canvas-deploy-model-invoke"></a>

**注意**  
我们建议您先[在 Amazon SageMaker Canvas 中测试您的模型部署](canvas-deploy-model-test.md)，然后再以编程方式调用 A SageMaker I 终端节点。

您可以将已部署到生产环境中的 SageMaker 人工智能终端节点的 Amazon C SageMaker anvas 模型与应用程序配合使用。以编程方式调用终端节点，方法与调用任何其他 [SageMaker AI 实时端点](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html)相同。以编程方式调用端点会返回一个响应对象，其中包含 [测试部署](canvas-deploy-model-test.md) 中描述的相同字段。

有关如何以编程方式调用端点的更多详细信息，请参阅[调用模型进行实时推理](realtime-endpoints-test-endpoints.md)。

下面的 Python 示例向您展示了如何根据模型类型调用端点。

## JumpStart 基础模型
<a name="canvas-invoke-js-example"></a>

以下示例说明如何调用已部署到终端节点 JumpStart 的基础模型。

```
import boto3
import pandas as pd

client = boto3.client("runtime.sagemaker")
body = pd.DataFrame(
    [['feature_column1', 'feature_column2'], 
    ['feature_column1', 'feature_column2']]
).to_csv(header=False, index=False).encode("utf-8")
    
response = client.invoke_endpoint(
    EndpointName="endpoint_name",
    ContentType="text/csv",
    Body=body,
    Accept="application/json"
)
```

## 数值和分类预测模型
<a name="canvas-invoke-tabular-example"></a>

下面的示例展示了如何调用数值或分类预测模型。

```
import boto3
import pandas as pd

client = boto3.client("runtime.sagemaker")
body = pd.DataFrame(['feature_column1', 'feature_column2'], ['feature_column1', 'feature_column2']).to_csv(header=False, index=False).encode("utf-8")
    
response = client.invoke_endpoint(
    EndpointName="endpoint_name",
    ContentType="text/csv",
    Body=body,
    Accept="application/json"
)
```

## 时间序列预测模型
<a name="canvas-invoke-forecast-example"></a>

下面的示例显示了如何调用时间序列预测模型。有关如何测试调用时间序列预测模型的完整示例，请参阅[使用 Amazon A SageMaker utopilot 进行时间序列预测](https://github.com/aws/amazon-sagemaker-examples/blob/eef13dae197a6e588a8bc111aba3244f99ee0fbb/autopilot/autopilot_time_series.ipynb)。

```
import boto3
import pandas as pd

csv_path = './real-time-payload.csv'
data = pd.read_csv(csv_path)

client = boto3.client("runtime.sagemaker")

body = data.to_csv(index=False).encode("utf-8")
    
response = client.invoke_endpoint(
    EndpointName="endpoint_name",
    ContentType="text/csv",
    Body=body,
    Accept="application/json"
)
```

## 图像预测模型
<a name="canvas-invoke-cv-example"></a>

下面的示例展示了如何调用图像预测模型。

```
import boto3
client = boto3.client("runtime.sagemaker")
with open("example_image.jpg", "rb") as file:
    body = file.read()
    response = client.invoke_endpoint(
        EndpointName="endpoint_name",
        ContentType="application/x-image",
        Body=body,
        Accept="application/json"
    )
```

## 文本预测模型
<a name="canvas-invoke-nlp-example"></a>

下面的示例展示了如何调用文本预测模型。

```
import boto3
import pandas as pd

client = boto3.client("runtime.sagemaker")
body = pd.DataFrame([["Example text 1"], ["Example text 2"]]).to_csv(header=False, index=False).encode("utf-8")
    
response = client.invoke_endpoint(
    EndpointName="endpoint_name",
    ContentType="text/csv",
    Body=body,
    Accept="application/json"
)
```

# 删除模型部署
<a name="canvas-deploy-model-delete"></a>

您可以从 Amazon C SageMaker anvas 应用程序中删除您的模型部署。此操作还会从 SageMaker AI 控制台中删除终端节点并关闭所有与终端节点相关的资源。

**注意**  
或者，您可以通过 [SageMaker AI 控制台或使用 AI](https://console.aws.amazon.com/sagemaker/) `DeleteEndpoint` AP SageMaker I 删除终端节点。有关更多信息，请参阅 [删除端点和资源](realtime-endpoints-delete-resources.md)。但是，当您通过 SageMaker AI 控制台或 APIs 代替 Canvas 应用程序删除终端节点时，Canvas 中的部署列表不会自动更新。您还必须从 Canvas 应用程序中删除部署，才能将其从列表中移除。

要在 Canvas 中删除部署，请执行以下操作：

1. 打开 SageMaker 画布应用程序。

1. 在左侧导航窗格中，选择 **ML Ops**。

1. 选择**部署**选项卡。

1. 从部署列表中，选择要删除的部署。

1. 在部署详细信息页面顶部，选择**更多选项**图标 (![\[More options icon for the output CSV file.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 选择**删除部署**。

1. 在**删除部署**对话框中，选择**删除**。

现在，您的部署和 SageMaker AI 托管终端节点应从 Canvas 和 SageMaker AI 控制台中删除。

# 如何管理自动化
<a name="canvas-manage-automations"></a>

在 SageMaker Canvas 中，您可以创建自动操作来更新数据集或按计划从模型生成预测。例如，您可能每天都会收到新的配送数据。您可以为数据集设置自动更新，并在数据集更新时自动运行批量预测。利用这些功能，您可以设置自动工作流，减少手动更新数据集和进行预测所需的时间。

**注意**  
在 Canvas 应用程序中，您最多只能设置 20 个自动配置。自动操作只有在您登录 Canvas 应用程序时才会激活。如果您从 Canvas 注销，自动作业会暂停，直到您重新登录。

以下几节将介绍如何查看、编辑和删除现有自动化操作的配置。要了解如何设置自动化操作，请参阅以下主题：
+ 要设置自动数据集更新，请参阅[更新数据集](canvas-update-dataset.md)。
+ 要设置自动批量预测，请参阅[C SageMaker anvas 中的批量预测](canvas-make-predictions-batch.md)。

**Topics**
+ [查看自动化操作](canvas-manage-automations-view.md)
+ [编辑自动配置](canvas-manage-automations-edit.md)
+ [删除自动配置](canvas-manage-automations-delete.md)

# 查看自动化操作
<a name="canvas-manage-automations-view"></a>

您还可以通过前往 Canvas 的左侧导航窗格并选择 **ML Ops** 来查看所有自动更新作业。**ML 操作**页面结合了自动数据集更新和自动批量预测的自动化功能。在**自动化**选项卡上，您可以看到以下子选项卡：
+ **所有作业** – 您可以查看 Canvas 完成的**数据集更新**或**批量预测**作业的每个实例。对于每项作业，您可以看到相关**输入数据集**、相关自动更新配置的**配置名称**以及显示作业是否成功的**状态**等字段。您可以按配置名称筛选作业：
  + 对于数据集更新作业，您可以选择数据集的最新版本或最近的作业来预览数据集。
  + 对于批量预测作业，您可以选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)) 来预览或下载该作业的预测。您还可以选择**查看详情**，了解预测作业的更多详情。有关批量预测作业详情的更多信息，请参阅 [查看批量预测作业](canvas-make-predictions-batch-auto-view.md)。
+ **配置** – 您可以查看已创建的所有**数据集更新**和**批量预测**配置。对于每种配置，您都可以看到相关**输入数据集**和作业**频率**等字段。您也可以关闭或打开**自动更新**开关，以暂停或恢复自动更新。如果您为特定配置选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，则对于该配置，可以选择**查看所有作业**、**更新配置**或**删除配置**。

# 编辑自动配置
<a name="canvas-manage-automations-edit"></a>

设置配置后，您可能需要对其进行更改。对于自动数据集更新，您可以更新 Canvas 导入数据的 Amazon S3 位置、更新的频率和开始时间。对于自动批量预测，您可以更改配置跟踪更新的数据集。您还可以关闭自动更新功能，暂时停止更新，直到您选择恢复更新。

以下几节将向您介绍如何更新每种类型的配置。

**注意**  
您无法更改自动批量预测的频率，因为每次更新目标数据集时都会运行自动批量预测。

**Topics**
+ [编辑数据集自动更新配置](canvas-manage-automations-edit-dataset.md)
+ [编辑自动批量预测配置](canvas-manage-automations-edit-batch.md)

# 编辑数据集自动更新配置
<a name="canvas-manage-automations-edit-dataset"></a>

您可能需要更改数据集的自动更新配置，例如更改更新频率。您可能还需要关闭自动更新配置以暂停对数据集的更新。

要更改数据集的自动更新配置，请执行以下操作：

1. 在 Canvas 的左侧导航窗格中，选择 **ML Ops**。

1. 选择**自动化**选项卡。

1. 选择**配置**选项卡。

1. 对于自动更新配置，选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 在下拉菜单中，选择**更新配置**。您将进入数据集的**自动更新**选项卡。

1. 对配置进行更改。完成更改后，选择**保存**。

要暂停数据集更新，请关闭自动配置。关闭自动更新的一种方法是执行以下操作：

1. 在 Canvas 的左侧导航窗格中，选择 **ML Ops**。

1. 选择**自动化**选项卡。

1. 选择**配置**选项卡。

1. 从列表中找到您的配置，然后关闭**自动更新**开关。

数据集的自动更新现已暂停。您可以随时重新打开此开关以恢复更新计划。

# 编辑自动批量预测配置
<a name="canvas-manage-automations-edit-batch"></a>

编辑批量预测配置时，您可以更改目标数据集，但不能更改频率（因为每当数据集更新时，都会自动进行批量预测）。

要更改自动批量预测配置，请执行以下操作：

1. 在 Canvas 的左侧导航窗格中，选择 **ML Ops**。

1. 选择**自动化**选项卡。

1. 选择**配置**选项卡。

1. 对于自动更新配置，选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 在下拉菜单中，选择**更新配置**。您将进入数据集的**自动更新**选项卡。

1. 此时将打开**自动批量预测**对话框。您可以选择其他数据集并选择**设置**以保存更改。

您的自动批量预测配置现已更新。

要暂停自动批量预测，请关闭自动配置。按照以下过程关闭配置：

1. 在 Canvas 的左侧导航窗格中，选择 **ML Ops**。

1. 选择**自动化**选项卡。

1. 选择**配置**选项卡。

1. 从列表中找到您的配置，然后关闭**自动更新**开关。

数据集的自动批量预测现已暂停。您可以随时重新打开此开关以恢复更新计划。

# 删除自动配置
<a name="canvas-manage-automations-delete"></a>

您可能需要删除配置以停止在 C SageMaker anvas 中的自动化工作流程。

要删除自动数据集更新或自动批量预测的配置，请执行以下操作：

1. 在 Canvas 的左侧导航窗格中，选择 **ML Ops**。

1. 选择**自动化**选项卡。

1. 选择**配置**选项卡。

1. 找到您的自动更新配置，然后选择**更多选项**图标 (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))。

1. 选择**删除配置**。

1. 在弹出的对话框中，选择**删除**。

您的自动更新配置现已删除。