本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据探索和分析
<a name="canvas-explore-data"></a>

**注意**  
您只能对基于表格数据集构建的模型使用 SageMaker Canvas 可视化和分析。多元文本预测模型也排除在外。

在 Amazon SageMaker Canvas 中，您可以使用可视化和分析来探索数据集中的变量，并创建应用程序内的可视化和分析。在构建模型之前，您可以利用这些探索来发现变量之间的关系。

有关 Canvas 中可视化技术的更多信息，请参阅[使用可视化技术探索数据](canvas-explore-data-visualization.md)。

有关 Canvas 中分析功能的更多信息，请参阅[使用分析功能来探索数据](canvas-explore-data-analytics.md)。

# 使用可视化技术探索数据
<a name="canvas-explore-data-visualization"></a>

**注意**  
只能对基于表格数据集构建的模型使用 SageMaker Canvas 可视化。多元文本预测模型也排除在外。

借助 Amazon SageMaker Canvas，您可以探索和可视化数据，以便在构建机器学习模型之前获得对数据的高级见解。您可以使用散点图、条形图和方框图进行可视化，这有助于您了解数据，并发现可能影响模型准确性的特征之间的关系。

在 SageMaker Canvas 应用程序的 “**构建**” 选项卡中，选择**数据可视化工具**开始创建您的可视化效果。

您可以更改可视化样本大小，以调整从数据集中抽取的随机样本的大小。样本量过大可能会影响数据可视化的性能，因此我们建议您选择适当的样本量。要更改样本量，请按照下列过程操作。

1. 选择**可视化样本**。

1. 使用滑块选择所需的样本量。

1. 选择**更新**以确认对样本量的更改。

**注意**  
某些可视化技术需要特定数据类型的列。例如，对于散点图的 x 轴和 y 轴，只能使用数值列。

## 散点图
<a name="canvas-explore-data-scatterplot"></a>

要使用您的数据集创建散点图，请在**可视化**面板中选择**散点图**。从**列**部分中选择要在 x 轴和 y 轴上绘制的特征。您可以将列拖放到坐标轴上，或者拖放坐标轴后，可以从支持的列列表中选择一列。

您可以使用**着色依据**根据第三个特征为绘图上的数据点着色。您也可以使用**分组依据**根据第四个特征将数据分组到单独的绘图中。

下图显示了使用**着色依据**和**分组依据**的散点图。在此示例中，每个数据点都按 `MaritalStatus` 特征着色，按 `Department` 特征分组会生成每个部门的数据点的散点图。

![\[Canvas 应用程序的数据可视化工具视图中散点图的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-eda-scatter-plot.png)


## 条形图
<a name="canvas-explore-data-barchart"></a>

要使用您的数据集创建条形图，请在**可视化**面板中选择**条形图**。从**列**部分中选择要在 x 轴和 y 轴上绘制的特征。您可以将列拖放到坐标轴上，或者拖放坐标轴后，可以从支持的列列表中选择一列。

您可以使用**分组依据**按第三个特征对条形图进行分组。您可以使用**堆叠依据**，根据第四个特征的唯一值对每个条形图进行垂直阴影处理。

下图显示了使用**分组依据**和**堆叠依据**的条形图。在此示例中，条形图按 `MaritalStatus` 特征分组，并按 `JobLevel` 特征堆叠。对于 x 轴上的每个 `JobRole`，`MaritalStatus` 特征中的独特类别都有一个单独的条形图，每个条形图都按 `JobLevel` 特征垂直堆叠。

![\[Canvas 应用程序的数据可视化工具视图中条形图的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-eda-bar-chart.png)


## 方框图
<a name="canvas-explore-data-boxplot"></a>

要使用您的数据集创建方框图，请在**可视化**面板中选择**方框图**。从**列**部分中选择要在 x 轴和 y 轴上绘制的特征。您可以将列拖放到坐标轴上，或者拖放坐标轴后，可以从支持的列列表中选择一列。

您可以使用**分组依据**按第三个特征对方框图进行分组。

下图显示了使用**分组依据**的方框图。在此示例中，x 轴和 y 轴分别显示 `JobLevel` 和 `JobSatisfaction`，彩色方框图按 `Department` 特征分组。

![\[Canvas 应用程序的数据可视化工具视图中方框图的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-eda-box-plot.png)


# 使用分析功能来探索数据
<a name="canvas-explore-data-analytics"></a>

**注意**  
您只能对基于表格数据集构建的模型使用 SageMaker Canvas 分析。多元文本预测模型也排除在外。

借助 Amazon SageMaker Canvas 中的分析，您可以在构建模型之前探索数据集并深入了解所有变量。您可以使用相关矩阵确定数据集中特征之间的关系。您可以使用此技术将数据集汇总到一个矩阵中，该矩阵显示两个或多个值之间的相关性。这有助于您识别和可视化给定数据集中的模式，以进行高级数据分析。

该矩阵显示每个特征之间的正相关、负相关或中性相关。在构建模型时，您可能希望包含彼此高度相关的特征。几乎没有相关性的特征可能与您的模型无关，您可以在构建模型时删除这些特征。

要开始在 C SageMaker anvas 中使用相关矩阵，请参阅以下部分。

## 创建相关矩阵
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

准备在 C SageMaker anvas 应用程序的 “构建” 选项卡中**构建**模型时，可以创建关联矩阵。

有关如何开始创建模型的说明，请参阅[构建模型](canvas-build-model-how-to.md)。

在 C SageMaker anvas 应用程序中开始准备模型后，请执行以下操作：

1. 在**构建**选项卡中，选择**数据可视化工具**。

1. 选择**分析**。

1. 选择**相关矩阵**。

您应该会看到一个类似于以下屏幕截图的可视化效果，该屏幕截图显示了最多 15 列的数据集，这些列被组织成一个相关矩阵。

![\[Canvas 应用程序中相关矩阵的屏幕截图。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


创建相关矩阵后，您可以通过以下操作对其进行自定义：

### 1. 选择列
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

对于**列**，您可以选择要包含在矩阵中的列。您最多可以比较数据集中的 15 列数据。

**注意**  
您可以为相关矩阵使用数值、分类或二进制列类型。相关矩阵不支持日期时间或文本数据列类型。

要在相关矩阵中添加或删除列，请从**列**面板中选择和取消选择列。您还可以将面板上的列直接拖放到矩阵上。如果您的数据集包含很多列，则可以在**搜索列**栏中搜索所需的列。

要按数据类型筛选列，请选择下拉列表并选择**全部**、**数值**或**分类**。选择**全部**将显示数据集中的所有列，而**数值**和**分类**筛选条件仅显示数据集中的数值列或分类列。请注意，二进制列类型包含在数值或分类筛选条件中。

为了获得最佳的数据洞察力，请在相关性矩阵中包含目标列。当您将目标列包含在相关矩阵中时，它将显示为矩阵上带有目标符号的最后一个特征。

### 2. 选择相关类型
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas 支持不同的*关联类型*或计算列间相关性的方法。

要更改相关类型，请使用上一节中提到的**列**筛选条件来筛选所需的列类型和列。您应该可以在侧面板中看到**相关类型**。对于数值比较，您可以选择 **Pearson** 或 **Spearman**。对于分类比较，相关类型设置为 **MI**。对于分类比较和混合比较，相关类型设置为 **Spearman & MI**。

对于仅比较数值列的矩阵，相关类型为 Pearson 或 Spearman。Pearson 度量用于评估两个连续变量之间的线性关系。Spearman 度量用于评估两个变量之间的单调关系。对于 Pearson 和 Spearman 来说，相关度的范围从 -1 到 1，两端表示完全相关（1:1 的直接关系），0 表示不相关。如果您的数据具有更多的线性关系（如[散点图可视化](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot)所示），那么您可能需要选择 Pearson。如果您的数据不是线性的，或者混合包含线性关系和单调关系，那么您可能需要选择 Spearman。

对于仅比较分类列的矩阵，相关类型设置为互信息分类 (MI)。MI 值是衡量两个随机变量之间相互依赖性的指标。MI 测量值的范围为 0 到 1，其中 0 表示无相关性，1 表示完全相关。

对于数值列和分类列混合比较的矩阵，相关类型 **Spearman & MI** 是 Spearman 和 MI 相关类型的组合。对于两个数值列之间的相关性，矩阵显示 Spearman 值。对于数值列和分类列或两个分类列之间的相关性，矩阵显示 MI 值。

最后，请记住，相关性并不一定表示因果关系。强相关值只表明两个变量之间存在关系，但变量之间可能没有因果关系。请仔细检查感兴趣的列，以免在构建模型时出现偏差。

### 3. 筛选相关性
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

在侧面板中，您可以使用**筛选相关性**功能筛选要包含在矩阵中的相关值范围。例如，如果要筛选仅具有正相关性或中性相关性的特征，可以将**最小值**设为 0，将**最大值**设为 1（有效值为 -1 至 1）。

对于 Spearman 和 Pearson 比较，可以将**筛选相关性**范围设置在 -1 到 1 之间，0 表示没有相关性。-1 和 1 分别表示变量之间有很强的负相关性或正相关性。

对于 MI 比较，相关性范围仅从 0 到 1，0 表示没有相关性，1 表示变量之间有很强的相关性，无论是正相关性还是负相关性。

每个特征都与自身具有完美的相关性 (1)。因此，您可能会注意到相关矩阵的顶行始终为 1。如果要排除这些值，可以使用筛选器将**最大值**设置为小于 1。

请记住，如果您的矩阵比较的是数值列和分类列的组合，并使用 **Spearman & MI** 相关类型，那么*分类 x 数值*和*分类 x 分类*相关性（使用 MI 测量）的范围是 0 到 1，而*数值 x 数值*相关性（使用 Spearman 测量）的范围是 -1 到 1。仔细查看您感兴趣的相关性，确保您知道用于计算每个值的相关类型。

### 4. 选择可视化方法
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

在侧面板中，您可以使用**可视化依据**来更改矩阵的可视化方法。选择**数值**可视化方法可显示相关性（Pearson、Spearman 或 MI）值，或选择**大小**可视化方法则可通过不同大小和颜色的点显示相关性。如果选择**大小**，则可以将鼠标悬停在矩阵上的特定点上以查看实际的相关值。

### 5. 选择调色板
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

在侧面板中，您可以使用**颜色选择**来更改矩阵中负相关与正相关比例所使用的调色板。选择一个备用调色板来更改矩阵中使用的颜色。