

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建敏感数据发现作业
<a name="discovery-jobs-create"></a>

借助 Amazon Macie，您可以创建和运行敏感数据发现作业，以自动发现、记录和报告 Amazon Simple Storage Service (Amazon S3) 通用存储桶中的敏感数据。*敏感数据发现作业*是 Macie 执行的一系列自动处理和分析任务，用于检测和报告 Amazon S3 对象中的敏感数据。随着分析的进行，Macie 会提供有关其发现的敏感数据及其执行的分析的详细报告：*敏感数据调查发现*，用于报告 Macie 在单个 S3 对象中发现的敏感数据，以及*敏感数据发现结果*（记录有关单个 S3 对象分析的详细信息）。有关更多信息，请参阅 [查看作业结果](discovery-jobs-manage-results.md)。

创建作业时，首先要指定哪些 S3 存储桶存储您希望 Macie 在作业运行时分析的对象，即您选择的特定存储桶或符合特定标准的存储桶。然后，您可以指定运行作业的频率，即每天、每周或每月运行一次，或者定期运行一次。您也可以选择选项来优化作业的分析范围。这些选项包括派生自 S3 对象属性的自定义标准，例如标签、前缀以及对象上次修改时间。

定义作业的时间表和范围后，您可以指定要使用的托管数据标识符和自定义数据标识符：
+ *托管数据标识符*是一组内置标准和技术，旨在检测特定类型的敏感数据，例如信用卡号、 AWS 秘密访问密钥或特定国家或地区的护照号码。这些标识符可以检测许多国家和地区的大量且不断增长的敏感数据类型列表，包括多种类型的凭证数据、财务信息和个人身份信息（PII）。有关更多信息，请参阅 [使用托管数据标识符](managed-data-identifiers.md)。
+ *自定义数据标识符*是您为检测敏感数据定义的一组标准。使用自定义数据标识符，您可以检测反映组织特定场景、知识产权或专有数据（例如员工 IDs、客户账号或内部数据分类）的敏感数据。您可以补充 Macie 提供的托管数据标识符。有关更多信息，请参阅 [构建自定义数据标识符](custom-data-identifiers.md)。

然后，您可以选择要使用的允许列表。在 Macie 中，*允许列表*指定了要忽略的文本或文本模式。这些通常是针对您的特定场景或环境的敏感数据例外情况：例如，您的组织的公共代表姓名或电话号码，或者您的组织用于测试的示例数据。有关更多信息，请参阅 [使用允许列表定义敏感数据例外](allow-lists.md)。

选择完这些选项后，就可以输入作业的常规设置了，例如作业的名称和说明。然后，您可以查看并保存作业。

**Topics**
+ [开始之前：设置密钥资源](#discovery-jobs-create-prerequisites)
+ [步骤 1：选择 S3 存储桶](#discovery-jobs-create-step1)
+ [第 2 步：检查您的 S3 存储桶选择或标准](#discovery-jobs-create-step2)
+ [第 3 步：定义时间表并优化范围](#discovery-jobs-create-step3)
+ [第 4 步：选择托管数据标识符](#discovery-jobs-create-step4)
+ [第 5 步：选择自定义数据标识符](#discovery-jobs-create-step5)
+ [第 6 步：选择允许列表](#discovery-jobs-create-step6)
+ [第 7 步：输入常规设置](#discovery-jobs-create-step7)
+ [步骤 8：审核并创建](#discovery-jobs-create-step8)

## 开始之前：设置密钥资源
<a name="discovery-jobs-create-prerequisites"></a>

创建作业之前，最好执行以下步骤：
+ 确认您已配置了用于存储敏感数据发现结果的存储库。为此，请在 Amazon Macie 控制台的导航窗格中选择**发现结果**。要了解这些设置，请参阅 [存储和保留敏感数据发现结果](discovery-results-repository-s3.md)。
+ 创建希望作业使用的任何自定义数据标识符。要了解如何操作，请参阅 [构建自定义数据标识符](custom-data-identifiers.md)。
+ 创建您希望作业使用的任何允许列表。要了解如何操作，请参阅[使用允许列表定义敏感数据例外](allow-lists.md)。
+ 如果要分析加密的 S3 对象，请确保 Macie 可以访问和使用相应的加密密钥。有关更多信息，请参阅 [分析加密 S3 对象](discovery-supported-encryption-types.md)。
+ 如果您要分析具有限制性存储桶策略的 S3 存储桶中的对象，请确保允许 Macie 访问这些对象。有关更多信息，请参阅 [允许 Macie 访问 S3 存储桶和对象](monitoring-restrictive-s3-buckets.md)。

如果您在创建作业之前执行这些操作，则可以简化作业的创建并有助于确保作业可以分析所需的数据。

## 步骤 1：选择 S3 存储桶
<a name="discovery-jobs-create-step1"></a>

创建作业时，第一步是指定哪些 S3 存储桶存储了要让 Macie 在作业运行时分析的对象。您有两个选项来执行此步骤：
+ **选择特定存储桶**：使用此选项，您可以显式选择要分析的每个 S3 存储桶。然后，当作业运行时，Macie 仅分析您所选存储桶中的对象。
+ **指定存储桶标准**：使用此选项，您可以定义运行时标准来确定要分析哪些 S3 存储桶。标准由一个或多个派生自 S3 存储桶属性的条件组成。当作业运行时，Macie 会识别符合标准的存储桶，然后分析这些存储桶中的对象。

有关这些选项的详细信息，请参阅 [作业的范围选项](discovery-jobs-scope.md)。

以下各节提供了选择和配置每个选项的说明。选择所需选项的部分。

### 选择特定存储桶
<a name="discovery-jobs-create-step1-buckets-select"></a>

如果您选择明确选择要分析的每个 S3 存储桶，Macie 会为您提供当前通用存储桶的清单。 AWS 区域然后，您可以使用此清单为作业选择一个或多个存储桶。要了解此清单，请参阅 [选择特定 S3 存储桶](discovery-jobs-scope.md#discovery-jobs-scope-buckets-select)。

如果您是组织的 Macie 管理员，则清单中会包含组织中成员账户所拥有的存储桶。您可以选择多达 1000 个存储桶，涵盖多达 1000 个账户。

**为作业选择特定的 S3 存储桶**

1. 打开亚马逊 Macie 主机，网址为。[https://console.aws.amazon.com/macie/](https://console.aws.amazon.com/macie/)

1. 在导航窗格中，选择**作业**。

1. 请选择 **Create job (创建作业)**。

1. 在**选择 S3 存储桶**页面上，选择**选择特定存储桶**。Macie 会显示您账户在当前区域中的所有通用存储桶的表格。

1. 在**选择 S3 存储桶**部分，可以选择刷新 (![The refresh button, which is a button that displays an empty blue circle with an arrow.](http://docs.aws.amazon.com/zh_cn/macie/latest/user/images/btn-refresh-data.png))，从 Amazon S3 检索最新的存储桶元数据。

   如果信息图标 (![The information icon, which is a blue circle that has a lowercase letter i in it.](http://docs.aws.amazon.com/zh_cn/macie/latest/user/images/icon-info-blue.png)) 出现在任何存储桶名称旁边，我们建议您这样操作。此图标表明存储桶是在过去 24 小时内创建的，可能是 Macie 在[每日刷新周期](monitoring-s3-how-it-works.md#monitoring-s3-how-it-works-data-refresh)中最后一次从 Amazon S3 检索存储桶和对象元数据之后创建的。

1. 在表中，选中要分析任务的每个存储桶对应的复选框。
**提示**  
要更轻松地查找特定存储桶，请在表格上方的筛选框中输入筛选标准。您还可以通过选择列标题对表格进行排序。
要确定您是否已将作业配置为定期分析存储桶中的对象，请参阅**按作业监控**字段。如果此字段显示**是**，存储桶已显式包含在定期作业中，或者该存储桶在过去 24 小时内符合定期作业的标准。此外，其中至少有一个作业的状态非*已取消*。Macie 每天都会更新这些数据。
要确定现有定期或一次性作业最近一次分析存储桶中的对象的时间，请参阅**最新作业运行**字段。有关该作业的更多信息，请参阅存储桶的详细信息。
要显示存储桶的详细信息，请选择存储桶的名称。除了与作业相关的信息外，详细信息面板还提供有关存储桶的统计数据和其他信息，例如存储桶的公共访问设置。要详细了解此数据，请参阅 [查看 S3 存储桶清单](monitoring-s3-inventory-review.md)。

1. 选择完存储桶后，选择**下一步**。

在下一步中，您将检查并验证您的选择。

### 指定存储桶标准
<a name="discovery-jobs-create-step1-buckets-criteria"></a>

如果您选择指定运行时标准来确定要分析哪些 S3 存储桶，Macie 会提供一些选项来帮助您为标准中的各个条件选择字段、运算符和值。要了解有关这些选项的更多信息，请参阅 [指定 S3 存储桶条件](discovery-jobs-scope.md#discovery-jobs-scope-buckets-criteria)。

**为作业指定 S3 存储桶标准**

1. 打开亚马逊 Macie 主机，网址为。[https://console.aws.amazon.com/macie/](https://console.aws.amazon.com/macie/)

1. 在导航窗格中，选择**作业**。

1. 请选择 **Create job (创建作业)**。

1. 在**选择 S3 存储桶**页面上，选择**指定存储桶标准**。

1. 在**指定存储桶标准**下，执行以下操作以向标准添加条件：

   1. 将光标置于筛选框中，然后选择要用于条件的存储桶属性。

   1. 在第一个框中，为条件选择一个运算符**等于**或**不等于**。

   1. 在下一个框中，为该属性输入一个或多个值。

      根据存储桶属性的类型和性质，Macie 会显示不同的值输入选项。例如，如果您选择**有效权限**属性，Macie 会显示一个值列表供您选择。如果您选择**账户 ID** 属性，Macie 会显示一个文本框，您可以在其中输入一个或多 AWS 账户 IDs个。要在文本框中输入多个值，请输入每个值并用逗号分隔每个条目。

   1. 选择**应用**。Macie 添加条件并将其显示在筛选框下方。

      默认情况下，Macie 使用包含语句添加条件。这意味着作业配置为分析（*包含*）存储桶中符合条件的对象。要跳过（*排除*）符合条件的存储桶，请为条件选择**包含**，然后选择**排除**。

   1. 对要添加到标准的每个其他条件重复上述步骤。

1. 要测试您的标准，请展开**预览标准结果**部分。此部分显示一个包含当前符合条件的多达 25 个通用存储桶的表格。

1. 要优化标准，请执行以下任一操作：
   + 要移除条件，请选择条件的 **X**。
   + 要更改条件，请通过为条件选择 **X** 来移除该条件。然后添加具有正确设置的条件。
   + 要移除所有条件，请选择**清除筛选条件**。

   Macie 会更新标准结果表以反映您的更改。

1. 指定完存储桶标准后，选择**下一步**。

在下一步中，您将检查并验证您的标准。

## 第 2 步：检查您的 S3 存储桶选择或标准
<a name="discovery-jobs-create-step2"></a>

在此步骤中，请验证您在上一步中选择的设置是否正确：
+ **查看您的存储桶选择** - 如果您为作业选择了特定的 S3 存储桶，请查看存储桶表并根据需要更改存储桶选择。该表提供了对作业分析的预计范围和成本的深入了解。数据基于当前存储在存储桶中的对象的大小和类型。

  在表中，**估计成本**字段表示分析 S3 存储桶中对象的估计总成本（以美元为单位）。每个估计值都反映了作业将在存储桶中分析的预计未压缩数据量。如果有任何对象是压缩文件或存档文件，则该估计假设这些文件使用 3:1 的压缩比，并且作业可以分析所有提取的文件。有关更多信息，请参阅 [预测和监控作业成本](discovery-jobs-costs.md)。
+ **查看您的存储桶标准** - 如果您为作业指定了存储桶标准，请查看条件中的每个条件。要更改标准，请选择**上一步**，然后使用上一步中的筛选选项输入正确的标准。完成后，选择 **Next (下一步)**。

完成对设置的查看和验证后，选择**下一步**。

## 第 3 步：定义时间表并优化范围
<a name="discovery-jobs-create-step3"></a>

在此步骤中，您可以指定运行作业的频率，即每天、每周或每月运行一次，或者定期运行一次。您也可以选择各种选项来优化作业的分析范围。要了解有关这些选项的信息，请参阅 [作业的范围选项](discovery-jobs-scope.md)。

**定义时间表并优化作业范围**

1. 在**优化范围**页面上，指定您希望作业运行的频率：
   + 要仅运行一次作业，请在完成创建作业后立即选择**一次性作业**。
   + 要定期运行作业，请选择**计划作业**。对于**更新频率**，选择是每天、每周还是每月运行作业。然后使用**包含现有对象**选项来定义作业首次运行的范围：
     + 选中此复选框可在完成任务创建后立即分析所有现有对象。每次后续运行将仅分析在上一次运行之后创建或更改过的对象。
     + 清除此复选框可跳过对所有现有对象的分析。此作业的第一次运行仅分析在完成作业创建之后和第一次运行开始之前创建或更改的对象。每次后续运行将仅分析在上一次运行之后创建或更改过的对象。

       如果您已经分析了数据并希望继续定期对其进行分析，则清除此复选框会很有帮助。例如，如果您以前使用其他服务或应用程序对数据进行分类，而最近又开始使用 Macie，则可以使用此选项来确保持续发现和分类数据，而不会产生不必要的成本或重复分类数据。

1. （可选）要指定您希望作业分析的对象的百分比，请在**采样深度**框中输入该百分比。

   如果此值小于 100%，Macie 会随机选择要分析的对象，最多可达指定的百分比，并分析这些对象中的所有数据。默认值为 100%。

1. （可选）要添加确定作业分析中包含或排除哪些 S3 对象的特定标准，请展开**其他设置**部分，然后输入标准。这些标准由派生自 S3 对象属性的单个条件组成：
   + 要分析（*包括*）满足特定条件的对象，请输入条件类型和值，然后选择**包括**。
   + 要分析（*排除*）满足特定条件的对象，请输入条件类型和值，然后选择**排除**。

   对所需的每个包括或排除条件重复此步骤。

   如果您输入多个条件，则任何排除条件优先于包括条件。例如，如果包含文件扩展名为 .pdf 的对象并排除大于 5 MB 的对象，则作业会分析任何文件扩展名为 .pdf 的对象，除非该对象大于 5 MB。

1. 完成后，选择 **Next (下一步)**。

## 第 4 步：选择托管数据标识符
<a name="discovery-jobs-create-step4"></a>

在此步骤中，请指定希望作业在分析 S3 对象时使用的托管数据标识符。你有两个选择：
+ **使用推荐的设置** - 使用此选项，作业将使用我们为作业推荐的一组托管数据标识符来分析 S3 对象。该组用于检测常见的敏感数据类别和类型。要查看该组中当前的托管数据标识符列表，请参阅 [推荐用于作业的托管数据标识符](discovery-jobs-mdis-recommended.md)。每次在组中添加或移除托管数据标识符时，我们都会更新该列表。
+ **使用推荐的设置** - 使用此选项，作业将使用您选择的托管数据标识符来分析 S3 对象。这可以是当前可用的全部托管数据标识符，也可以仅为部分托管数据标识符。您也可以将作业配置为不使用任何托管数据标识符。相反，该作业只能使用您在下一步中选择的自定义数据标识符。要查看当前可用的托管数据标识符列表，请参阅 [快速参考：按类型划分的托管数据标识符](mdis-reference-quick.md)。每次发布新的托管数据标识符时，我们都会更新该列表。

选择任一选项时，Macie 都会显示托管数据标识符表。在表中，**敏感数据类型**字段指定了托管数据标识符的唯一标识符 (ID)。此 ID 描述了托管数据标识符旨在检测的敏感数据类型，例如：美国护照号码的 **USA\_PASSPORT\_NUMBER**、信用卡号的 **CREDIT\_CARD\_NUMBER** 和 PGP 私钥的 **PGP\_PRIVATE\_KEY**。要更快地找到特定的标识符，您可以按敏感数据类别或类型对表格进行排序和筛选。

**为作业选择托管数据标识符**

1. 在**选择托管数据标识符**页面的**托管数据标识符选项**下，执行以下操作之一：
   + 要使用我们为作业推荐的一组托管数据标识符，请选择**推荐**。

     如果您选择此选项并将作业配置为多次运行，则每次运行都会自动使用运行开始时推荐组中的所有托管数据标识符。这包括我们发布并添加到组中的新的托管数据标识符。它不包括我们从组中移除的托管数据标识符，不再推荐用于作业。
   + 要仅使用您选择的特定托管数据标识符，请选择**自定义**，然后选择**使用特定的托管数据标识符**。然后，在表中，选中您希望作业使用的每个托管数据标识符对应的复选框。

     如果您选择此选项并将作业配置为多次运行，则每次运行仅使用您选择的托管数据标识符。换句话说，作业每次运行时都使用这些相同的托管数据标识符。
   + 使用 Macie 当前提供的所有托管数据标识符，请选择**自定义**，然后选择**使用特定的托管数据标识符**。然后，在表格中，选中选择列标题中的复选框以选择所有行。

     如果您选择此选项并将作业配置为多次运行，则每次运行仅使用您选择的托管数据标识符。换句话说，作业每次运行时都使用这些相同的托管数据标识符。
   + 要不使用任何托管数据标识符而仅使用自定义数据标识符，请选择**自定义**，然后选择**不使用任何托管数据标识符**。然后，在下一步中，选择要使用的自定义数据标识符。

1. 完成后，选择 **Next (下一步)**。

## 第 5 步：选择自定义数据标识符
<a name="discovery-jobs-create-step5"></a>

在此步骤中，选择您希望作业在分析 S3 对象时使用的任何自定义数据标识符。除了配置作业要使用的任何托管数据标识符外，作业还将使用选定的标识符。要了解有关自定义数据标识符的更多信息，请参阅 [构建自定义数据标识符](custom-data-identifiers.md)。

**为作业选择自定义数据标识符**

1. 在**选择自定义数据标识符**页面上，选中您希望作业使用的每个自定义数据标识符对应的复选框。您可以选择多达 30 个自定义数据标识符。
**提示**  
要在选择自定义数据标识符之前查看或测试其设置，请选择该标识符名称旁边的链接图标 (![The link icon, which is a blue box that has an arrow in it.](http://docs.aws.amazon.com/zh_cn/macie/latest/user/images/icon-external-link.png))。Macie 会打开一个显示标识符设置的页面。  
您还可以使用此页面通过示例数据测试标识符。为此，请在**示例数据**框中输入最多包含 1,000 个字符，然后选择**测试**。Macie 使用标识符评测示例数据，然后报告匹配项的数量。

1. 选择完自定义数据标识符后，选择**下一步**。

## 第 6 步：选择允许列表
<a name="discovery-jobs-create-step6"></a>

在此步骤中，选择您希望作业在分析 S3 对象时使用的任何允许列表。要了解有关允许列表的更多信息，请参阅 [使用允许列表定义敏感数据例外](allow-lists.md)。

**为作业选择允许列表**

1. 在**选择允许列表**页面上，选中您希望作业使用的每个允许列表对应的复选框。您可以选择多达 10 个列表。
**提示**  
要在选择允许列表之前查看其设置，请选择列表名称旁边的链接图标 (![The link icon, which is a blue box that has an arrow in it.](http://docs.aws.amazon.com/zh_cn/macie/latest/user/images/icon-external-link.png))。Macie 会打开一个显示列表设置的页面。  
如果列表指定了正则表达式 (*regex*)，您也可以使用此页使用示例数据测试正则表达式。为此，请在**示例数据**框中输入最多包含 1,000 个字符的文本，然后选择**测试**。Macie 使用正则表达式评测示例数据，然后报告匹配项的数量。

1. 选择完允许列表后，选择**下一步**。

## 第 7 步：输入常规设置
<a name="discovery-jobs-create-step7"></a>

在此步骤中，请指定作业的名称和（可选）的作业说明。您也可以为作业分配标签。*标签*是您定义并分配给某些类型的 AWS 资源的标签。每个标签都包含一个必需的标签键和一个可选的标签值。标签可以帮助您以不同的方式识别、分类和管理资源，例如，按用途、所有者、环境或其他标准。要了解更多信息，请参阅[为 Macie 资源添加标签](tagging-resources.md)。

**输入作业的常规设置**

1. 在**输入常规设置**页面上，在**作业名称**框中输入作业的名称。名称可以包含多达 500 个字符。

1. （可选）对于**作业说明**，输入作业的简短说明。说明可包含多达 200 个字符。

1. （可选）在**标签**下，选择**添加标记**，然后最多可输入 50 个标签来分配给作业。

1. 完成后，选择 **Next (下一步)**。

## 步骤 8：审核并创建
<a name="discovery-jobs-create-step8"></a>

在最后一步中，检查作业的配置设置并验证设置是否正确。这是重要的一步。创建作业后，您无法更改任何设置。这有助于确保您拥有敏感数据调查发现和发现结果的不可变历史记录，以便您执行数据隐私和保护的审计或调查。

根据作业的设置，您还可以查看运行一次作业的总估计成本（以美元为单位）。如果您为作业选择了特定的 S3 存储桶，则估计值将基于所选存储桶中对象的大小和类型，以及该作业可以分析的数据量。如果您为作业指定了存储桶标准，则估计值将基于多达 500 个存储桶中当前符合标准的对象的大小和类型，以及该作业可以分析的数据量。要了解此估计值，请参阅 [预测和监控作业成本](discovery-jobs-costs.md)。

**审核和创建作业**

1. 在**查看并创建**页面上，查看每项设置并验证其是否正确。要更改设置，选择包含该设置的部分中的**编辑**，然后输入正确的设置。您也可以使用导航选项卡转到包含设置的页面。

1. 验证完设置后，选择**提交**以创建并保存作业。Macie 会检查设置并通知您任何需要解决的问题。
**注意**  
如果您尚未为敏感数据发现结果配置存储库，Macie 会显示警告，并且不会保存作业。要解决此问题，请在**敏感数据发现结果的存储库**部分中选择**配置**。然后输入存储库的配置设置。要了解如何操作，请参阅[存储和保留敏感数据发现结果](discovery-results-repository-s3.md)。输入设置后，返回到**查看并创建**页面，在该页面的**敏感数据发现结果的存储库**部分中选择刷新（![The refresh button, which is a button that displays an empty blue circle with an arrow.](http://docs.aws.amazon.com/zh_cn/macie/latest/user/images/btn-refresh-data.png)）。  
虽然我们不建议这样做，但您可以暂时覆盖存储库要求并保存作业。如果您这样做，您就有可能丢失作业中的发现结果 — Macie 只会将结果保留 90 天。要暂时覆盖该要求，请选中 “覆盖” 选项的复选框。

1. 如果 Macie 通知您要解决的问题，请解决这些问题，然后再次选择**提交**以创建并保存作业。

如果您将作业配置为运行一次、每天运行或者在每周或每月的当前日期运行，Macie 将会在您保存之后，立即开始运行该作业。否则，Macie 会准备在每周或每月中的指定日期运行作业。要监控作业，您可以[检查作业的状态](discovery-jobs-status-check.md)。