

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Data Wrangler 中的数据处理工作原理
<a name="canvas-data-processing"></a>

在 Amazon Data Wrangler SageMaker 数据流中以交互方式处理数据时，Amazon SageMaker Canvas 仅将转换应用于示例数据集供您预览。在 SageMaker Canvas 中完成数据流后，您可以处理所有数据并将其保存在适合您的机器学习工作流程的位置。

在 Data Wrangler 中完成数据转换后，有多种继续操作的选项：
+ [创建模型](canvas-processing-export-model.md)。您可以创建一个 Canvas 模型，在此模型中，您可以直接使用准备好的数据创建模型。您可以在处理整个数据集后创建模型，也可以只导出在 Data Wrangler 中使用的样本数据。Canvas 会将处理过的数据（整个数据集或样本数据）保存为 Canvas 数据集。

  我们建议您在快速迭代时使用样本数据，但在训练最终模型时使用全部数据。在构建表格模型时，大于 5 GB 的数据集会自动降采样到 5 GB，而对于时间序列预测模型，大于 30 GB 的数据集会降采样到 30 GB。

  要了解创建模型的更多信息，请参阅 [自定义模型的工作原理](canvas-build-model.md)。
+ [导出数据](canvas-export-data.md)。您可以导出数据以用于机器学习工作流程。当您选择导出数据时，您有以下几种选择：
  + 您可以在 Canvas 应用程序中将数据保存为数据集。有关 Canvas 数据集支持的文件类型以及将数据导入 Canvas 时的其他要求，请参阅 [创建数据集](canvas-import-dataset.md)。
  + 您可以将数据保存到 Amazon S3。根据 Canvas 内存的可用性，您的数据将在应用程序中处理，然后导出到 Amazon S3。如果数据集的大小超出了 Canvas 的处理能力，则默认情况下，Canvas 会使用 EMR Serverless 作业扩展到多个计算实例，处理完整的数据集，然后将其导出到 Amazon S3。您也可以手动配置 Processing 作业，以便更精细地控制用于 SageMaker 处理数据的计算资源。
+ [导出数据流](canvas-export-data-flow.md)。您可能需要保存数据流的代码，以便在 Canvas 之外修改或运行转换。Canvas 可让您将数据流转换保存为 Jupyter Notebook 中的 Python 代码，然后将其导出到 Amazon S3，供机器学习工作流程中的其他部分使用。

当您从数据流中导出数据并将其保存为 Canvas 数据集或保存到 Amazon S3 时，Canvas 会在数据流中创建一个新的目标节点，此节点是显示已处理数据的存储位置的最后一个节点。如果您要执行多个导出操作，则可以在流程中添加其他目标节点。例如，您可以从数据流中的不同点导出数据，只应用部分转换，也可以将转换后的数据导出到不同的 Amazon S3 位置。有关如何添加或编辑目标节点的更多信息，请参阅 [添加目标节点](canvas-destination-nodes-add.md) 和 [编辑目标节点](canvas-destination-nodes-edit.md)。

有关在 Amazon 上设置计划 EventBridge 以按计划自动处理和导出数据的更多信息，请参阅[创建自动处理新数据的计划](canvas-data-export-schedule-job.md)。

# 导出以创建模型
<a name="canvas-processing-export-model"></a>

只需点击几下数据流，您就可以导出转换后的数据，并开始在 Canvas 中创建 ML 模型。Canvas 会将您的数据保存为 Canvas 数据集，然后您将进入新模型的模型构建配置页面。

要使用转换后的数据创建 Canvas 模型，请执行以下操作：

1. 导航至数据流。

1. 选择要导出的节点旁边的省略号图标。

1. 从上下文菜单中选择**创建模型**。

1. 在**导出以创建模型**侧面板中，输入新数据集的**数据集名称**。

1. 在继续构建模型之前，选中**处理整个数据集**选项，以处理和导出整个数据集。关闭此选项可使用数据流中的交互式样本数据来训练模型。

1. 输入**模型名称**来命名新模型。

1. 选择**问题类型**或要构建的模型类型。有关 C SageMaker anvas 中支持的模型类型的更多信息，请参阅[自定义模型的工作原理](canvas-build-model.md)。

1. 选择**目标列**或您希望模型预测的值。

1. 选择**导出并创建模型**。

新的 Canvas 模型的**构建**选项卡将会打开，然后您就可以完成模型的配置和训练了。有关构建模型的更多信息，请参阅 [构建模型](canvas-build-model-how-to.md)。

# 导出数据
<a name="canvas-export-data"></a>

导出数据，将数据流中的转换应用于完整的导入数据集。您可以将数据流中的任何节点导出到以下位置：
+ SageMaker 画布数据集
+ Amazon S3

如果您想在 Canvas 中训练模型，可以将转换后的完整数据集导出为 Canvas 数据集。如果您想在 C SageMaker anvas 外部的机器学习工作流程中使用转换后的数据，可以将数据集导出到 Amazon S3。

## 导出到 Canvas 数据集
<a name="canvas-export-data-canvas"></a>

使用以下步骤从数据流中的节点导出 SageMaker Canvas 数据集。

**将流程中的节点导出为 SageMaker Canvas 数据集**

1. 导航至数据流。

1. 选择要导出的节点旁边的省略号图标。

1. 在上下文菜单中，将鼠标悬停在**导出**上，然后选择**将数据导出到 Canvas 数据集**。

1. 在**导出到 Canvas 数据集**侧面板中，输入新数据集的**数据集名称**。

1. 如果您希望 C SageMaker anvas **处理并保存您的完整数据集，请选中 “处理整个**数据集” 选项。关闭此选项，只将转换应用于数据流中正在处理的样本数据。

1. 选择**导出**。

现在，您应该可以进入 Canvas 应用程序的**数据集**页面，查看新数据集。

## 导出到 Amazon S3
<a name="canvas-export-data-s3"></a>

将数据导出到 Amazon S3 时，您可以扩展以转换和处理任何规模的数据。如果应用程序的内存能够处理数据集的大小，Canvas 会自动在本地处理数据。如果您的数据集大小超过 5 GB 的本地内存容量，Canvas 会以您的名义启动一个远程作业，为您提供额外的计算资源并更快地处理数据。默认情况下，Canvas 使用 Amazon EMR Serverless 来运行这些远程作业。但是，您可以手动将 Canvas 配置为使用 EMR Serverless 或使用自己的设置的 Proces SageMaker sing 作业。

**注意**  
运行 EMR Serverless 作业时，默认情况下作业会继承 Canvas 应用程序的 IAM 角色、KMS 密钥设置和标签。

下面总结了 Canvas 中的远程作业选项：
+ **EMR Serverless**：这是 Canvas 用于远程作业的默认选项。EMR Serverless 可自动调配和扩展计算资源来处理数据，因此您无需担心为工作负载选择合适的计算资源。有关 EMR Serverless 的更多信息，请参阅[《EMR Serverless 用户指南》](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html)。
+ **SageMaker 处理**： SageMaker 处理作业提供更高级的选项，并可对用于处理数据的计算资源进行精细控制。例如，您可以指定计算实例的类型和数量，在自己的 VPC 中配置作业并控制网络访问，自动处理作业等。有关处理作业的更多信息，请参阅 [创建自动处理新数据的计划](canvas-data-export-schedule-job.md)。有关 SageMaker 处理作业的更多一般信息，请参阅[带 SageMaker 处理功能的数据转换工作负载](processing-job.md)。

导出到 Amazon S3 时支持以下文件类型：
+ CSV
+ Parquet

要开始使用，请查看以下先决条件。

### EMR Serverless 作业的先决条件
<a name="canvas-export-data-emr-prereqs"></a>

要创建使用 EMR Serverless 资源的远程作业，您必须拥有必要的权限。您可以通过 Amazon A SageMaker I 域或用户个人资料设置授予权限，也可以手动配置用户的 AWS IAM 角色。有关如何授予用户执行大型数据处理的权限的说明，请参阅 [向用户授予在整个 ML 生命周期中使用大数据的权限](canvas-large-data-permissions.md)。

如果您不想配置这些策略，但仍需要通过 Data Wrangler 处理大型数据集，也可以使用 SageMaker 处理作业。

按照以下步骤将数据导出到 Amazon S3。要配置远程作业，请按照可选的高级步骤操作。

**将流中的节点导出到 Amazon S3**

1. 导航至数据流。

1. 选择要导出的节点旁边的省略号图标。

1. 在上下文菜单中，将鼠标悬停在**导出**上，然后选择**将数据导出到 Amazon S3**。

1. 在**导出到 Amazon S3** 侧面板中，您可以更改新数据集的**数据集名称**。

1. 对于 **S3 位置**，输入要将数据集导出到的 Amazon S3 位置。您可以输入 S3 位置或 S3 接入点的 S3 URI、别名或 ARN。有关更多信息接入点，请参阅 *Amazon S3 用户指南*中的[使用 Amazon S3 接入点管理数据访问](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html)。

1. （可选）对于**高级设置**，为以下字段指定值：

   1. **文件类型**：导出数据的文件格式。

   1. **分隔符**：用于分隔文件中值的分隔符。

   1. **压缩**：用于减小文件大小的压缩方法。

   1. **分区数**：Canvas 作为作业输出写入的数据集文件的数量。

   1. **选择列**：您可以从数据中选择要包含在分区中的列子集。

1. 如果您希望 Canvas 对整个数据集应用数据流转换并导出结果，请选中**处理整个数据集**选项。如果您取消选择此选项，Canvas 将只对交互式 Data Wrangler 数据流中使用的数据集样本应用转换。
**注意**  
如果您只导出数据样本，Canvas 会在应用程序中处理您的数据，而不会为您创建远程作业。

1. 如果您希望 Canvas 自动确定是使用 Canvas 应用程序内存还是 EMR Serverless 作业来运行作业，请选中**自动作业配置**选项。如果您取消选择此选项并手动配置作业，则可以选择使用 EMR Serverless 或 SageMaker 处理作业。有关如何配置 EMR Serverless 或 SageMaker 处理作业的说明，请在导出数据之前参阅此过程之后的部分。

1. 选择**导出**。

以下过程说明在将完整数据集导出到 Amazon S3 时，如何手动配置 EMR Serverless 或 P SageMaker rocessing 的远程任务设置。

------
#### [ EMR Serverless ]

要在导出到 Amazon S3 时配置 EMR Serverless 作业，请执行以下操作：

1. 在导出到 Amazon S3 侧面板中，关闭**自动作业配置**选项。

1. 选择 **EMR Serverless**。

1. 在**作业名称**中，输入 EMR Serverless 作业的名称。名称可以包含字母、数字、连字符和下划线。

1. 在 **IAM 角色**中，输入用户的 IAM 执行角色。此角色应拥有运行 EMR Serverless 应用程序所需的权限。有关更多信息，请参阅 [向用户授予在整个 ML 生命周期中使用大数据的权限](canvas-large-data-permissions.md)。

1. （可选）对于 **KMS 密钥**，请指定用于加密任务日志的 AWS KMS key 密钥 ID 或 ARN。如果不输入密钥，Canvas 会使用 EMR Serverless 的默认密钥。

1. （可选）在**监控配置**中，输入要向其发布 CloudWatch 日志的 Amazon Logs 日志组的名称。

1. （可选）对于**标签**，为 EMR Serverless 作业添加由键值对组成的元数据标签。这些标签可用于对作业进行分类和搜索。

1. 选择**导出**以启动任务。

------
#### [ SageMaker Processing ]

要在导出到 Amazon S3 的同时配置 SageMaker 处理任务，请执行以下操作：

1. 在**导出到 Amazon S3** 侧面板中，关闭**自动作业配置**选项。

1. 选择 “**SageMaker 处理**”。

1. 在 “**任务名称**” 中，输入 A SageMaker I 处理任务的名称。

1. 对于**实例类型**，选择要运行处理作业的计算实例的类型。

1. 对于**实例数**，指定要启动的计算实例数量。

1. 在 **IAM 角色**中，输入用户的 IAM 执行角色。此角色应具有 SageMaker AI 代表您创建和运行处理任务所需的权限。如果您将[AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)策略附加到您的 IAM 角色，则会授予这些权限。

1. 对于**卷大小**，输入连接到每个处理实例的 ML 存储卷的存储大小（以 GB 为单位）。根据预期的输入和输出数据大小选择大小。

1. （可选）对于**卷 KMS 密钥**，指定用于加密存储卷的 KMS 密钥。如果未指定密钥，则会使用默认的 Amazon EBS 加密密钥。

1. （可选）对于 **KMS 密钥**，指定 KMS 密钥以加密处理作业使用的输入和输出 Amazon S3 数据来源。

1. （可选）要**配置 Spark 内存**，请执行以下操作：

   1. 输入处理作业协调和调度的 Spark 驱动程序节点的**驱动程序内存（以 MB 为单位）**。

   1. 为在作业中运行单个任务的 Spark 执行器节点输入**执行器内存（以 MB 为单位）**。

1. （可选）对于**网络配置**，请执行以下操作：

   1. 对于**子网配置**，请输入要在 IDs 其中启动处理实例的 VPC 子网。默认情况下，此作业使用默认 VPC 的设置。

   1. 对于**安全组配置**，请输入用于控制入站和出站连接规则的安全组。 IDs 

   1. 打开**启用容器间流量加密**选项，以在作业期间加密处理容器之间的网络通信。

1. （可选）对于**员工计划**，您可以选择创建 Amazon EventBridge 计划，使处理任务按周期性间隔运行。选择**创建新计划**，然后填写对话框。有关填写本节和按计划运行处理作业的更多信息，请参阅 [创建自动处理新数据的计划](canvas-data-export-schedule-job.md)。

1. （可选）将**标签**添加为键值对，以便您可以对处理作业进行分类和搜索。

1. 选择**导出**以启动处理任务。

------

导出数据后，您应该能在指定的 Amazon S3 位置查找经过全面处理的数据集。

# 导出数据流
<a name="canvas-export-data-flow"></a>

导出数据流可将您在 Data Wrangler 中进行的操作转化为 Python 代码，并将其导出到 Jupyter Notebook 中，供您修改和运行。这有助于将数据转换的代码集成到机器学习管道中。

您可以在数据流中选择任何数据节点并导出。导出数据节点时，会导出该节点所代表的转换及其之前的转换。

**要将数据流导出为 Jupyter Notebook**

1. 导航至数据流。

1. 选择要导出的节点旁边的省略号图标。

1. 在上下文菜单中，将鼠标悬停在**导出**上，然后将鼠标悬停在**通过 Jupyter Notebook 导出**上。

1. 选择下列选项之一：
   + **SageMaker Pipelines**
   + **Amazon S3**
   + **SageMaker AI 推理管道**
   + **SageMaker AI 功能商店**
   + **Python Code**

1. 此时将打开**将数据流导出为笔记本**对话框。选择以下选项之一：
   + **下载本地副本**
   + **导出到 S3 位置**

1. 如果您选择了**导出到 S3 位置**，输入要将笔记本导出到的 Amazon S3 位置。

1. 选择**导出**。

您的 Jupyter Notebook 会下载到本地计算机，或者保存在您指定的 Amazon S3 位置。

# 添加目标节点
<a name="canvas-destination-nodes-add"></a>

 SageMaker Canvas 中的目标节点指定了存储经过处理和转换的数据的位置。当您选择将转换后的数据导出到 Amazon S3 时，Canvas 会使用指定的目标节点位置，并应用您在数据流中配置的所有转换。有关将作业导出到 Amazon S3 的更多信息，请参阅前一节 [导出到 Amazon S3](canvas-export-data.md#canvas-export-data-s3)。

默认情况下，选择将数据导出到 Amazon S3 会为数据流添加目标节点。但是，您可以在流中添加多个目标节点，这样就可以同时将不同的转换集或数据变化导出到不同的 Amazon S3 位置。例如，您可以创建一个目标节点，在应用所有转换后导出数据，而另一个目标节点只在进行某些初始转换（例如联接操作）后导出数据。这种灵活性使您能够导出转换后数据的不同版本或子集，并将其存储在不同的 S3 位置，以适用于各种使用场景。

按照以下步骤将目标节点添加到数据流中。

**要添加目标节点**

1. 导航至数据流。

1. 选择要放置目标节点的节点旁边的省略号图标。

1. 在上下文菜单中，将鼠标悬停在**导出**上，然后选择**添加目标**。

1. 在**导出目标**侧面板中，输入**数据集名称**以命名输出。

1. 对于 **Amazon S3 位置**，输入要将输出导出到的 Amazon S3 位置。您可以输入 S3 位置或 S3 接入点的 S3 URI、别名或 ARN。有关更多信息接入点，请参阅 *Amazon S3 用户指南*中的[使用 Amazon S3 接入点管理数据访问](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html)。

1. 在**导出设置**中，指定以下字段：

   1. **文件类型**：导出数据的文件格式。

   1. **分隔符**：用于分隔文件中值的分隔符。

   1. **压缩**：用于减小文件大小的压缩方法。

1. 对于**分区**，请指定以下字段：

   1. **分区数**- SageMaker Canvas 作为作业输出写入的数据集文件数。

   1. **选择列**：您可以从数据中选择要包含在分区中的列子集。

1. 如果您只想在数据流中添加目标节点，请选择**添加**；如果您想添加节点并启动导出作业，请选择**添加**，然后选择**导出**。

现在，您应该可以在流中看到一个新的目标节点。

# 编辑目标节点
<a name="canvas-destination-nodes-edit"></a>

Amazon SageMaker Canvas 数据流中的*目标节点*指定存储处理和转换后的数据的 Amazon S3 位置，并在数据流中应用所有配置的转换。您可以编辑现有目标节点的配置，然后选择重新运行作业以覆盖指定 Amazon S3 位置中的数据。有关添加新目标节点的更多信息，请参阅 [添加目标节点](canvas-destination-nodes-add.md)。

按照以下步骤编辑数据流中的目标节点并启动导出作业。

**要编辑目标节点**

1. 导航至数据流。

1. 选择要编辑的目标节点旁边的省略号图标。

1. 在上下文菜单中，选择**编辑**。

1. 此时将打开**编辑目标**侧面板。在此面板中，您可以编辑数据集名称、Amazon S3 位置以及导出和分区设置等详细信息。

1. （可选）在**要导出的其他节点**中，您可以在运行导出作业时选择更多目标节点进行处理。

1. 如果您希望 Canvas 对整个数据集应用数据流转换并导出结果，请选中**处理整个数据集**选项。如果您取消选择此选项，Canvas 将只对交互式 Data Wrangler 数据流中使用的数据集样本应用转换。

1. 如果您希望 Canvas 自动确定是使用 Canvas 应用程序内存还是 EMR Serverless 作业来运行作业，请选中**自动作业配置**选项。如果您取消选择此选项并手动配置作业，则可以选择使用 EMR Serverless 或 SageMaker 处理作业。有关如何配置 EMR Serverless 或 SageMaker 处理作业的说明，请参阅上一节。[导出到 Amazon S3](canvas-export-data.md#canvas-export-data-s3)

1. 完成更改后，选择**更新**。

保存对目标节点配置的更改不会自动重新运行作业或覆盖已处理和导出的数据。再次导出数据，使用新配置运行作业。如果您决定通过作业再次导出数据，Canvas 会使用更新的目标节点配置来转换数据并将其输出到指定位置，同时覆盖任何现有数据。

# 创建自动处理新数据的计划
<a name="canvas-data-export-schedule-job"></a>

**注意**  
以下部分仅适用于 SageMaker 处理作业。如果您使用默认的 Canvas 设置或 EMR Serverless 创建了远程作业来对完整数据集进行转换，则本节内容不适用。

如果您要定期处理数据，则可以创建一个计划来自动运行处理作业。例如，您可以创建一个计划，该计划在获得新数据时自动运行处理作业。有关处理作业的更多信息，请参阅 [导出到 Amazon S3](canvas-export-data.md#canvas-export-data-s3)。

创建作业时，必须指定有权创建该作业的 IAM 角色。您可以使用该[AmazonSageMakerCanvasDataPrepFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasDataPrepFullAccess.html)策略来添加权限。

将以下信任策略添加到角色中 EventBridge 以允许代入该角色。

```
{
    "Effect": "Allow",
    "Principal": {
        "Service": "events.amazonaws.com"
    },
    "Action": "sts:AssumeRole"
}
```

**重要**  
当您创建计划时，Data Wrangler 会创建一个输入。`eventRule` EventBridge您需要为创建的事件规则以及用于运行处理作业的实例都支付费用。  
有关 EventBridge 定价的信息，请参阅 [Amazon EventBridge 定价](https://aws.amazon.com/eventbridge/pricing/)。有关处理任务定价的信息，请参阅 [Amazon SageMaker 定价](https://aws.amazon.com/sagemaker/pricing/)。

使用以下方法之一设置计划：
+ [Cron 表达式](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html)
**注意**  
Data Wrangler 不支持以下表达式：  
LW\$1
天的缩写
月份的缩写
+ [Rate 表达式](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html#eb-rate-expressions)
+ 重复 – 设置每小时或每天运行作业的时间间隔。
+ 特定时间 – 设置运行作业的特定日期和时间。

以下各节提供了在将[数据导出到 Amazon S3](canvas-export-data.md#canvas-export-data-s3) 的同时填写 SageMaker AI 处理任务设置时安排任务的程序。以下所有说明均从 SageMaker 处理作业设置的 “**关联计划**” 部分开始。

------
#### [ CRON ]

使用以下步骤创建带有 CRON 表达式的计划。

1. 在 “**导出到 Amazon S3**” 侧面板中，确保已关闭**自动任务配置**开关，并选择了 “**SageMaker 处理**” 选项。

1. 在 “**SageMaker 处理**作业设置” 中，打开 “**关联计划**” 部分，然后选择 “**创建新计划**”。

1. 此时将打开**创建新角色**对话框。对于**计划名称**，指定计划的名称。

1. 对于**运行频率**，选择 **CRON**。

1. 在**分钟**、**小时**、**日**、**月**和**星期**字段中，输入有效的 CRON 表达式值。

1. 选择**创建**。

1. （可选）选择**添加其他计划**以按其他计划运行作业。
**注意**  
您最多可以关联两个计划。这些计划是独立的，除非时间重叠，否则不会相互影响。

1. 选择下列选项之一：
   + **计划并立即运行**：作业会立即运行，随后按计划运行。
   + **仅限计划**：作业仅按您指定的计划运行。

1. 填写完其他导出作业设置后，选择**导出**。

------
#### [ RATE ]

使用以下步骤创建带有 RATE 表达式的计划。

1. 在 “**导出到 Amazon S3**” 侧面板中，确保已关闭**自动任务配置**开关，并选择了 “**SageMaker 处理**” 选项。

1. 在 “**SageMaker 处理**作业设置” 中，打开 “**关联计划**” 部分，然后选择 “**创建新计划**”。

1. 此时将打开**创建新角色**对话框。对于**计划名称**，指定计划的名称。

1. 对于**运行频率**，选择 **Rate**。

1. 对于**值**，指定一个整数。

1. 对于**匹配程序**，选择以下项之一：
   + **分钟**
   + **小时**
   + **天**

1. 选择**创建**。

1. （可选）选择**添加其他计划**以按其他计划运行作业。
**注意**  
您最多可以关联两个计划。这些计划是独立的，除非时间重叠，否则不会相互影响。

1. 选择下列选项之一：
   + **计划并立即运行**：作业会立即运行，随后按计划运行。
   + **仅限计划**：作业仅按您指定的计划运行。

1. 填写完其他导出作业设置后，选择**导出**。

------
#### [ Recurring ]

通过以下步骤创建定期运行作业的计划。

1. 在 “**导出到 Amazon S3**” 侧面板中，确保已关闭**自动任务配置**开关，并选择了 “**SageMaker 处理**” 选项。

1. 在 “**SageMaker 处理**作业设置” 中，打开 “**关联计划**” 部分，然后选择 “**创建新计划**”。

1. 此时将打开**创建新角色**对话框。对于**计划名称**，指定计划的名称。

1. 对于**运行频率**，选择**重复**。

1. 对于**每 x 小时**，指定作业在一天中运行的每小时频率。有效值为 **1** 和 **23** 范围的整数（含）。

1. 对于**日期**，选择以下选项之一：
   + **每天**
   + **周末**
   + **工作日**
   + **选择日期**

   1. （可选）如果您选择了**选择日期**，请选择在一周中的哪几天运行作业。
**注意**  
计划会每天重置。如果您计划每五小时运行一次作业，则作业将在一天中的以下时间运行：  
00:00
05:00
10:00
15:00
20:00

1. 选择**创建**。

1. （可选）选择**添加其他计划**以按其他计划运行作业。
**注意**  
您最多可以关联两个计划。这些计划是独立的，除非时间重叠，否则不会相互影响。

1. 选择下列选项之一：
   + **计划并立即运行**：作业会立即运行，随后按计划运行。
   + **仅限计划**：作业仅按您指定的计划运行。

1. 填写完其他导出作业设置后，选择**导出**。

------
#### [ Specific time ]

通过以下过程创建在特定时间运行作业的计划。

1. 在 “**导出到 Amazon S3**” 侧面板中，确保已关闭**自动任务配置**开关，并选择了 “**SageMaker 处理**” 选项。

1. 在 “**SageMaker 处理**作业设置” 中，打开 “**关联计划**” 部分，然后选择 “**创建新计划**”。

1. 此时将打开**创建新角色**对话框。对于**计划名称**，指定计划的名称。

1. 对于**运行频率**，选择**开始时间**。

1. 在**开始时间**中，以 UTC 格式输入时间（例如，**09:00**）。开始时间默认为您所在的时区。

1. 对于**日期**，选择以下选项之一：
   + **每天**
   + **周末**
   + **工作日**
   + **选择日期**

   1. （可选）如果您选择了**选择日期**，请选择在一周中的哪几天运行作业。

1. 选择**创建**。

1. （可选）选择**添加其他计划**以按其他计划运行作业。
**注意**  
您最多可以关联两个计划。这些计划是独立的，除非时间重叠，否则不会相互影响。

1. 选择下列选项之一：
   + **计划并立即运行**：作业会立即运行，随后按计划运行。
   + **仅限计划**：作业仅按您指定的计划运行。

1. 填写完其他导出作业设置后，选择**导出**。

------

您可以使用 A SageMaker I AWS 管理控制台 查看计划运行的作业。处理作业在 Pipelines 中运行。每个处理作业都有各自的管道。作业作为管道中的一个处理步骤运行。您可以查看已在管道中创建的计划。有关查看管道的信息，请参阅 [查看管道详情](pipelines-studio-list.md)。

通过以下过程查看您已计划的作业。

要查看您已计划的作业，请执行以下操作。

1. 打开 Amazon SageMaker Studio 经典版。

1. 打开 Pipelines

1. 查看用于您已创建的作业的管道。

   运行作业的管道使用作业名称作为前缀。例如，如果您创建了一个名为 `housing-data-feature-enginnering` 的作业，则管道的名称为 `canvas-data-prep-housing-data-feature-engineering`。

1. 选择包含您的作业的管道。

1. 查看管道的状态。管道**状态**为**成功**时表示已成功运行处理作业。

要停止运行处理作业，请执行以下操作：

要停止运行处理作业，请删除指定计划的事件规则。删除事件规则时，会使与该计划关联的所有作业停止运行。有关删除规则的信息，请参阅[禁用或删除 Amazon EventBridge 规则](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-delete-rule.html)。

您还可以停止和删除与计划关联的管道。有关停止管道的信息，请参见[StopPipelineExecution](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopPipelineExecution.html)。有关删除管道的信息，请参阅[DeletePipeline](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DeletePipeline.html#API_DeletePipeline_RequestSyntax)。