

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 推荐的数据层
<a name="data-layer-definitions"></a>

如果您处理非敏感数据，例如不包含个人身份信息 (PII) 的数据，我们建议您在上的数据湖中使用至少三个不同的数据层。 AWS 云

但是，根据数据的复杂性和用例，您可能需要额外的图层。例如，如果您处理敏感数据，例如 PII 数据，我们建议您使用额外的亚马逊简单存储服务 (Amazon S3) 存储桶作为着陆区。然后，在将数据移动到原始数据层之前对其进行屏蔽。有关这方面的更多信息，请参阅本指南的 “[处理敏感数据](sensitive-data.md)” 部分。

每个数据层都必须有一个单独的 Amazon S3 存储桶。下表描述了推荐的数据层。


****  

| 数据层名称 | 说明 | 生命周期策略策略示例 | 
| --- | --- | --- | 
| Raw | 包含未经处理的原始数据。数据被摄取到该层的数据湖中。如果可能，您应保留原始文件格式并在 Amazon S3 存储桶中开启版本控制。 | 一年后，将文件移至 [Amazon S3 不频繁访问 (IA) 存储类别](https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage-class-intro.html#sc-infreq-data-access)。在 Amazon S3 IA 中存放两年后，将其存档到 [Amazon Glacier 存储类别](https://docs.aws.amazon.com/AmazonS3/latest/userguide/glacier-storage-classes.html)。 | 
| 阶段 | 包含经过优化的中间处理数据（例如，从 CSV 到 Apache Parquet 转换的原始文件或数据转换）。 AWS Glue 作业从原始层读取文件并验证数据。然后，该 AWS Glue 作业将数据存储在 Apache Parquet 格式的文件中，元数据存储在中的表中。 AWS Glue Data Catalog | 可以在规定的时间段后删除数据，也可以根据贵组织的要求删除数据。某些数据衍生物，例如原始 JSON 格式的 Apache Avro 转换，可以在较短的时间后（例如 90 天后）从数据湖中删除。 | 
| 分析 | 以消费就绪的格式（例如 Apache Parquet）包含特定用例的汇总数据。 | 可以将数据移至 Amazon S3 IA，然后在规定的时间段后或根据贵组织的要求将其删除。 | 

**注意**  
您必须根据组织需求、监管要求、查询模式和成本考虑因素来评估所有推荐的生命周期策略策略。