

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建自动处理新数据的计划
<a name="canvas-data-export-schedule-job"></a>

**注意**  
以下部分仅适用于 SageMaker 处理作业。如果您使用默认的 Canvas 设置或 EMR Serverless 创建了远程作业来对完整数据集进行转换，则本节内容不适用。

如果您要定期处理数据，则可以创建一个计划来自动运行处理作业。例如，您可以创建一个计划，该计划在获得新数据时自动运行处理作业。有关处理作业的更多信息，请参阅 [导出到 Amazon S3](canvas-export-data.md#canvas-export-data-s3)。

创建作业时，必须指定有权创建该作业的 IAM 角色。您可以使用该[AmazonSageMakerCanvasDataPrepFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasDataPrepFullAccess.html)策略来添加权限。

将以下信任策略添加到角色中 EventBridge 以允许代入该角色。

```
{
    "Effect": "Allow",
    "Principal": {
        "Service": "events.amazonaws.com"
    },
    "Action": "sts:AssumeRole"
}
```

**重要**  
当您创建计划时，Data Wrangler 会创建一个输入。`eventRule` EventBridge您需要为创建的事件规则以及用于运行处理作业的实例都支付费用。  
有关 EventBridge 定价的信息，请参阅 [Amazon EventBridge 定价](https://aws.amazon.com/eventbridge/pricing/)。有关处理任务定价的信息，请参阅 [Amazon SageMaker 定价](https://aws.amazon.com/sagemaker/pricing/)。

使用以下方法之一设置计划：
+ [Cron 表达式](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html)
**注意**  
Data Wrangler 不支持以下表达式：  
LW\$1
天的缩写
月份的缩写
+ [Rate 表达式](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html#eb-rate-expressions)
+ 重复 – 设置每小时或每天运行作业的时间间隔。
+ 特定时间 – 设置运行作业的特定日期和时间。

以下各节提供了在将[数据导出到 Amazon S3](canvas-export-data.md#canvas-export-data-s3) 的同时填写 SageMaker AI 处理任务设置时安排任务的程序。以下所有说明均从 SageMaker 处理作业设置的 “**关联计划**” 部分开始。

------
#### [ CRON ]

使用以下步骤创建带有 CRON 表达式的计划。

1. 在 “**导出到 Amazon S3**” 侧面板中，确保已关闭**自动任务配置**开关，并选择了 “**SageMaker 处理**” 选项。

1. 在 “**SageMaker 处理**作业设置” 中，打开 “**关联计划**” 部分，然后选择 “**创建新计划**”。

1. 此时将打开**创建新角色**对话框。对于**计划名称**，指定计划的名称。

1. 对于**运行频率**，选择 **CRON**。

1. 在**分钟**、**小时**、**日**、**月**和**星期**字段中，输入有效的 CRON 表达式值。

1. 选择**创建**。

1. （可选）选择**添加其他计划**以按其他计划运行作业。
**注意**  
您最多可以关联两个计划。这些计划是独立的，除非时间重叠，否则不会相互影响。

1. 选择下列选项之一：
   + **计划并立即运行**：作业会立即运行，随后按计划运行。
   + **仅限计划**：作业仅按您指定的计划运行。

1. 填写完其他导出作业设置后，选择**导出**。

------
#### [ RATE ]

使用以下步骤创建带有 RATE 表达式的计划。

1. 在 “**导出到 Amazon S3**” 侧面板中，确保已关闭**自动任务配置**开关，并选择了 “**SageMaker 处理**” 选项。

1. 在 “**SageMaker 处理**作业设置” 中，打开 “**关联计划**” 部分，然后选择 “**创建新计划**”。

1. 此时将打开**创建新角色**对话框。对于**计划名称**，指定计划的名称。

1. 对于**运行频率**，选择 **Rate**。

1. 对于**值**，指定一个整数。

1. 对于**匹配程序**，选择以下项之一：
   + **分钟**
   + **小时**
   + **天**

1. 选择**创建**。

1. （可选）选择**添加其他计划**以按其他计划运行作业。
**注意**  
您最多可以关联两个计划。这些计划是独立的，除非时间重叠，否则不会相互影响。

1. 选择下列选项之一：
   + **计划并立即运行**：作业会立即运行，随后按计划运行。
   + **仅限计划**：作业仅按您指定的计划运行。

1. 填写完其他导出作业设置后，选择**导出**。

------
#### [ Recurring ]

通过以下步骤创建定期运行作业的计划。

1. 在 “**导出到 Amazon S3**” 侧面板中，确保已关闭**自动任务配置**开关，并选择了 “**SageMaker 处理**” 选项。

1. 在 “**SageMaker 处理**作业设置” 中，打开 “**关联计划**” 部分，然后选择 “**创建新计划**”。

1. 此时将打开**创建新角色**对话框。对于**计划名称**，指定计划的名称。

1. 对于**运行频率**，选择**重复**。

1. 对于**每 x 小时**，指定作业在一天中运行的每小时频率。有效值为 **1** 和 **23** 范围的整数（含）。

1. 对于**日期**，选择以下选项之一：
   + **每天**
   + **周末**
   + **工作日**
   + **选择日期**

   1. （可选）如果您选择了**选择日期**，请选择在一周中的哪几天运行作业。
**注意**  
计划会每天重置。如果您计划每五小时运行一次作业，则作业将在一天中的以下时间运行：  
00:00
05:00
10:00
15:00
20:00

1. 选择**创建**。

1. （可选）选择**添加其他计划**以按其他计划运行作业。
**注意**  
您最多可以关联两个计划。这些计划是独立的，除非时间重叠，否则不会相互影响。

1. 选择下列选项之一：
   + **计划并立即运行**：作业会立即运行，随后按计划运行。
   + **仅限计划**：作业仅按您指定的计划运行。

1. 填写完其他导出作业设置后，选择**导出**。

------
#### [ Specific time ]

通过以下过程创建在特定时间运行作业的计划。

1. 在 “**导出到 Amazon S3**” 侧面板中，确保已关闭**自动任务配置**开关，并选择了 “**SageMaker 处理**” 选项。

1. 在 “**SageMaker 处理**作业设置” 中，打开 “**关联计划**” 部分，然后选择 “**创建新计划**”。

1. 此时将打开**创建新角色**对话框。对于**计划名称**，指定计划的名称。

1. 对于**运行频率**，选择**开始时间**。

1. 在**开始时间**中，以 UTC 格式输入时间（例如，**09:00**）。开始时间默认为您所在的时区。

1. 对于**日期**，选择以下选项之一：
   + **每天**
   + **周末**
   + **工作日**
   + **选择日期**

   1. （可选）如果您选择了**选择日期**，请选择在一周中的哪几天运行作业。

1. 选择**创建**。

1. （可选）选择**添加其他计划**以按其他计划运行作业。
**注意**  
您最多可以关联两个计划。这些计划是独立的，除非时间重叠，否则不会相互影响。

1. 选择下列选项之一：
   + **计划并立即运行**：作业会立即运行，随后按计划运行。
   + **仅限计划**：作业仅按您指定的计划运行。

1. 填写完其他导出作业设置后，选择**导出**。

------

您可以使用 A SageMaker I AWS 管理控制台 查看计划运行的作业。处理作业在 Pipelines 中运行。每个处理作业都有各自的管道。作业作为管道中的一个处理步骤运行。您可以查看已在管道中创建的计划。有关查看管道的信息，请参阅 [查看管道详情](pipelines-studio-list.md)。

通过以下过程查看您已计划的作业。

要查看您已计划的作业，请执行以下操作。

1. 打开 Amazon SageMaker Studio 经典版。

1. 打开 Pipelines

1. 查看用于您已创建的作业的管道。

   运行作业的管道使用作业名称作为前缀。例如，如果您创建了一个名为 `housing-data-feature-enginnering` 的作业，则管道的名称为 `canvas-data-prep-housing-data-feature-engineering`。

1. 选择包含您的作业的管道。

1. 查看管道的状态。管道**状态**为**成功**时表示已成功运行处理作业。

要停止运行处理作业，请执行以下操作：

要停止运行处理作业，请删除指定计划的事件规则。删除事件规则时，会使与该计划关联的所有作业停止运行。有关删除规则的信息，请参阅[禁用或删除 Amazon EventBridge 规则](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-delete-rule.html)。

您还可以停止和删除与计划关联的管道。有关停止管道的信息，请参见[StopPipelineExecution](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopPipelineExecution.html)。有关删除管道的信息，请参阅[DeletePipeline](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DeletePipeline.html#API_DeletePipeline_RequestSyntax)。