

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为数据湖层定义 Amazon S3 存储桶和路径名称
<a name="welcome"></a>

*Andres Cantor，亚马逊 Web Services*

*2025 年 4 月*（[文档历史记录](doc-history.md)）

本指南可帮助您为托管在上的亚马逊简单存储服务 (Amazon S3) 存储桶和数据湖中的路径创建一致的命名标准。 AWS 云该指南针对 Amazon S3 存储桶和路径的命名标准可帮助您改善数据湖的监管和可观察性，按数据层确定成本 AWS 账户，并提供命名 AWS Identity and Access Management (IAM) 角色和策略的方法。

我们建议您在数据湖中至少使用三个数据层，并且每个层都使用单独的 Amazon S3 存储桶。但是，某些用例可能需要额外的 Amazon S3 存储桶和数据层，具体取决于您生成和存储的数据类型。例如，如果您存储敏感数据，我们建议您使用着陆区数据层和单独的 Amazon S3 存储桶。以下列表描述了为您的数据湖推荐的三个数据层：
+ **原始数据层**-包含原始数据，是最初摄取数据的层。如果可能，我们建议您保留原始文件格式并在 Amazon S3 存储桶中开启版本控制。
+ **舞台数据层**-包含经过优化的中间处理数据（例如，从 CSV 到 Apache Parquet 转换的原始文件或数据转换）。 AWS Glue 作业从原始层读取文件并验证数据。然后，该 AWS Glue 作业将数据存储在 Apache Parquet 格式的文件中，元数据存储在中的表中。 AWS Glue Data Catalog
+ **分析数据层** — 包含特定用例的聚合数据，采用可供消费的格式，例如 Apache Parquet。

## 目标受众
<a name="intended-audience"></a>

本指南的建议基于作者在使用无服务器数据湖框架 (SDLF) 实现[数据湖方面的经验，适用于想要在无服务器数据湖框架 (SDLF)](https://sdlf.workshop.aws/en/) 上建立数据湖的数据架构师、数据工程师或解决方案架构师。 AWS 云但是，请务必调整本指南的方法，以满足贵组织的政策和要求。

该指南包含以下部分：
+ [推荐的数据层](data-layer-definitions.md)
+ [在您的数据层中命名 Amazon S3 存储桶](naming-structure-data-layers.md)
+ [将 Amazon S3 存储桶映射到数据湖中的 IAM 策略](iam-policies-data-lake.md)
+ [处理敏感数据](sensitive-data.md)

## 目标业务成果
<a name="targeted-business-outcomes"></a>

在对 Amazon S3 存储桶和数据湖中的路径实施命名标准后，您应该期待以下结果： AWS 云
+ 能够为存储桶提供差异化访问策略，从而改善数据湖的治理
+ 使用 Amazon S3 存储桶名称中的相关 AWS 账户 ID 提高对个人 AWS 账户 总成本的可见性，通过使用存储桶[的成本分配标签，提高对数据层总成本](https://docs.aws.amazon.com/AmazonS3/latest/userguide/CostAllocTagging.html)的可见性
+ 通过使用基于图层的版本控制和基于路径的生命周期策略，实现更具成本效益的数据存储
+ 满足数据屏蔽和数据加密的安全要求
+ 通过增强开发人员对底层数据存储的可见性来简化数据源跟踪 AWS 区域 AWS 账户 