

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# データレイクレイヤーの Amazon S3 バケットとパス名の定義
<a name="welcome"></a>

*Andres Cantor、Amazon Web Services*

*2025 年* 4 月 ([ドキュメント履歴](doc-history.md)）

このガイドは、 でホストされているデータレイクで Amazon Simple Storage Service (Amazon S3) バケットとパスの一貫した命名基準を作成するのに役立ちます AWS クラウド。このガイドの Amazon S3 バケットとパスの命名基準は、データレイクのガバナンスとオブザーバビリティを向上させ、データレイヤー別にコストを特定し AWS アカウント、 AWS Identity and Access Management (IAM) ロールとポリシーの命名方法を提供します。

データレイクには少なくとも 3 つのデータレイヤーを使用し、各レイヤーは個別の Amazon S3 バケットを使用することをお勧めします。ただし、生成して保存するデータ型によっては、追加の Amazon S3 バケットとデータレイヤーが必要になるユースケースもあります。たとえば、機密データを保存する場合は、ランディングゾーンのデータレイヤーと別の Amazon S3 バケットを使用することをお勧めします。次のリストは、データレイクに推奨される 3 つのデータレイヤーを示しています。
+ **Raw データレイヤー** – raw データが含まれ、データが最初に取り込まれるレイヤーです。可能であれば、元のファイル形式を保持し、Amazon S3 バケットでバージョニングを有効にすることをお勧めします。
+ **ステージデータレイヤー** – 消費用に最適化された中間処理データ (CSV から Apache Parquet に変換された未加工ファイルやデータ変換など) が含まれます。 AWS Glue ジョブは raw レイヤーからファイルを読み取り、データを検証します。次に、 AWS Glue ジョブは Apache Parquet 形式のファイルにデータを保存し、メタデータは のテーブルに保存されます AWS Glue Data Catalog。
+ **分析データレイヤー** – Apache Parquet など、特定のユースケースの集計データをすぐに使用できる形式で格納します。

## 対象者
<a name="intended-audience"></a>

このガイドの推奨事項は、[サーバーレスデータレイクフレームワーク (SDLF) を使用してデータレイク](https://sdlf.workshop.aws/en/)を実装した作成者の経験に基づいており、 でデータレイクをセットアップしたいデータアーキテクト、データエンジニア、またはソリューションアーキテクトを対象としています AWS クラウド。ただし、このガイドのアプローチは、組織のポリシーと要件を満たすように適応してください。

このガイドには、以下のセクションが含まれています。
+ [推奨されるデータレイヤー](data-layer-definitions.md)
+ [データレイヤー内の Amazon S3 バケットに名前を付ける](naming-structure-data-layers.md)
+ [Amazon S3 バケットをデータレイクの IAM ポリシーにマッピングする](iam-policies-data-lake.md)
+ [機密データの処理](sensitive-data.md)

## ターゲットを絞ったビジネス成果
<a name="targeted-business-outcomes"></a>

のデータレイクに Amazon S3 バケットとパスの命名基準を実装した後、次の結果が期待されます AWS クラウド。
+ バケットに差別化されたアクセスポリシーを提供できるようにすることで、データレイクのガバナンスを改善
+ Amazon S3 バケット名で関連する AWS アカウント ID AWS アカウント を使用し、バケットのコスト[配分タグを使用してデータレイヤー](https://docs.aws.amazon.com/AmazonS3/latest/userguide/CostAllocTagging.html)の全体的なコストを可視化
+ レイヤーベースのバージョニングとパスベースのライフサイクルポリシーを使用した、コスト効率の高いデータストレージ
+ データマスキングとデータ暗号化のセキュリティ要件を満たす
+ 開発者が基盤となるデータストレージ AWS アカウント の AWS リージョン と を可視化できるようにすることで、データソースのトレースを簡素化する