本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Macie 发现敏感数据
<a name="data-classification"></a>

借助 Amazon Macie，您可以自动发现、记录和报告 Amazon Simple Storage Service (Amazon S3) 数据资产中的敏感数据。您可以通过两种方式执行此操作：通过配置 Macie 以执行自动敏感数据发现，以及通过创建并运行敏感数据发现作业。

通过自动敏感数据发现，可以广泛了解敏感数据可能存放在您的 Amazon S3 数据资产中的位置。使用此选项，Macie 可以每天评测您的 S3 存储桶清单，并使用采样技术从您的存储桶中识别和选择具有代表性的 S3 对象。然后，Macie 检索并分析所选对象，检查它们是否有敏感数据。有关更多信息，请参阅 [执行自动敏感数据发现](discovery-asdd.md)。

敏感数据发现作业可提供更深入、更有针对性的分析。使用此选项，您可以定义分析的广度和深度 — 您选择的特定 S3 存储桶或符合特定条件的存储桶。您还可以通过选择选项（例如源自 S3 对象属性的自定义标准）来细化分析范围。此外，您可以将作业配置为仅运行一次以进行按需分析和评测，或者定期运行以进行定期分析、评测和监控。有关更多信息，请参阅 [运行敏感数据发现作业](discovery-jobs.md)。

无论是自动敏感数据发现还是敏感数据发现任务，您都可以将 Macie 配置为使用其提供的托管数据标识符、您定义的自定义数据标识符或两者的组合来分析 S3 对象。您还可以使用允许列表对分析进行微调。在配置自动敏感数据发现或敏感数据发现任务的设置时，需要指定要使用的设置：
+ **托管数据标识符**-这些是内置的标准和技术，旨在检测特定类型的敏感数据。例如，他们可以检测特定国家和地区的信用卡号、 AWS 秘密访问密钥和护照号码。他们可以检测到许多国家和地区的大量且不断增长的敏感数据类型。这包括多种类型的个人身份信息 (PII)、财务信息和凭证数据。有关更多信息，请参阅 [使用托管数据标识符](managed-data-identifiers.md)。
+ **自定义数据标识符**-这些是您为检测敏感数据而定义的自定义标准。每个自定义数据标识符指定一个正则表达式 (*regex*)，该正则表达式定义要匹配的文本模式，以及（可选）字符序列和优化结果的邻近规则。您可以使用它们来检测反映您的特定场景、知识产权或专有数据的敏感数据，例如员工 IDs、客户账号或内部数据分类。有关更多信息，请参阅 [构建自定义数据标识符](custom-data-identifiers.md)。
+ **允许列表** — 这些列表指定您希望 Macie 忽略的文本和文本模式。您可以使用它们来为您的特定场景或环境指定敏感数据例外情况，例如，贵组织的公共名称或电话号码，或者您的组织用于测试的示例数据。如果 Macie 在允许列表中找到与条目或模式匹配的文本，则 Macie 不会报告出现的文本。即使文本符合托管或自定义数据标识符的标准，情况也是如此。有关更多信息，请参阅 [使用允许列表定义敏感数据例外](allow-lists.md)。

当 Macie 分析 S3 对象时，Macie 会从 Amazon S3 中检索该对象的最新版本，然后检查该对象的内容中是否有敏感数据。如果以下条件成立，则 Macie 可以分析对象：
+ 该对象使用支持的文件或存储格式，并使用支持的存储类存储在 S3 通用存储桶中。有关更多信息，请参阅 [支持的存储类别和格式](discovery-supported-storage.md)。
+ 如果对象已加密，则会使用 Macie 可以访问并允许使用的密钥进行加密。有关更多信息，请参阅 [分析加密 S3 对象](discovery-supported-encryption-types.md)。
+ 如果对象存储在具有限制性存储桶策略的存储桶中，则该策略允许 Macie 访问存储桶中的对象。有关更多信息，请参阅 [允许 Macie 访问 S3 存储桶和对象](monitoring-restrictive-s3-buckets.md)。

为了帮助您满足和保持对数据安全性和隐私性要求的合规性，Macie 会生成其发现的敏感数据及其所执行分析（*敏感数据调查发现*和*敏感数据发现结果*）的记录。*敏感数据调查发现*是 Macie 在 S3 对象中发现的敏感数据的详细报告。*敏感数据发现结果*是关于对象分析的详细信息的记录。每种类型的记录都遵循标准化架构，该架构可以帮助您根据需要使用其他应用程序、服务和系统来对它们进行查询、监控和处理。

**提示**  
尽管 Macie 针对 Amazon S3 进行了优化，但您可以使用它来发现当前存储在其他位置的资源中的敏感数据。为此，您可以暂时或永久地将数据移动到 Amazon S3。例如，将 Amazon Relational Database Service 或 Amazon Aurora 快照以 Apache Parquet 格式导出到 Amazon S3。或者将 Amazon DynamoDB 表导出到 Amazon S3。然后，您可以创建作业来分析 Amazon S3 中的数据。

**Topics**
+ [使用托管数据标识符](managed-data-identifiers.md)
+ [构建自定义数据标识符](custom-data-identifiers.md)
+ [使用允许列表定义敏感数据例外](allow-lists.md)
+ [执行自动敏感数据发现](discovery-asdd.md)
+ [运行敏感数据发现作业](discovery-jobs.md)
+ [分析加密 S3 对象](discovery-supported-encryption-types.md)
+ [存储和保留敏感数据发现结果](discovery-results-repository-s3.md)
+ [支持的存储类别和格式](discovery-supported-storage.md)