Ekspor struktur direktori induk S3 Ekspor menyegarkan Ekspor penimpaan dan buat yang baru Ekspor nama dan potongan file data Integrasi Amazon Redshift Integrasi Amazon Athena Ringkasan

Memahami pengiriman ekspor

Di bagian berikut, Anda akan menemukan informasi tentang pengiriman ekspor Anda.

Struktur direktori induk ekspor S3: Bagaimana data ekspor terstruktur di direktori S3 tempat ekspor Anda dikirim.
Ekspor penyegaran: Seberapa sering pembaruan ekspor Anda di direktori S3 Anda.
Ekspor penimpaan dan buat yang baru: Bagaimana pengiriman ekspor Anda berubah dengan penimpaan dan menciptakan preferensi pengiriman baru.
Ekspor nama dan potongan file data: Bagaimana file ekspor (gzip/csv atau Parket) diberi nama.

Ekspor struktur direktori induk S3

Setiap ekspor mengirimkan data dari kueri ke S3 (sebagai satu atau lebih gzip/csv atau file Parket) dan file Manifest.json metadata yang berisi informasi tentang definisi ekspor pada saat ekspor dijalankan.

Data

Data yang dihasilkan dari kueri ekspor disimpan di jalur file S3 berikut:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/

Partisi sesuai dengan tabel yang sedang ditanyakan. Untuk CUR 2.0, partisi sesuai dengan “periode penagihan” dari ekspor CUR 2.0 yang diberikan.

prefix: Awalan file S3 yang Anda tetapkan untuk ekspor.

export-name: Nama yang Anda tetapkan untuk ekspor.

partition: Partisi menjelaskan bagaimana tabel tunggal dipartisi menjadi tabel terpisah untuk pengiriman. Untuk CUR 2.0, partisi sesuai dengan “periode penagihan” dalam formatBILLING_PERIOD=YYYY-MM. Misalnya, partisi untuk November 2023 adalah 2023-11.

Berikut ini adalah contoh path file S3:

s3://my-data-export-s3-bucket/my-cur-files/business_group_a_cur/data/BILLING_PERIOD=2023-11

Metadata

File Manifest.json metadata untuk kueri disimpan di jalur file S3 berikut:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/<export-name>-Manifest.json

Manifest.jsonFile diperbarui setiap kali ekspor di-refresh. Manifest.jsonFile baru dibuat untuk setiap partisi baru yang dibuat oleh ekspor. Untuk CUR 2.0, ini berarti Manifest.json file baru dihasilkan ketika periode penagihan baru dimulai.

File manifes berisi informasi berikut:

Semua kolom yang termasuk dalam ekspor.
Daftar file ekspor dan jalur filenya. Kami merekomendasikan untuk mengidentifikasi file mana yang akan dicerna dengan membaca daftar ini secara terprogram.
Periode waktu yang dicakup oleh ekspor.
Bagian bernama additionalOutputFiles yang mencantumkan file tambahan yang dikirimkan jika Anda memiliki integrasi Athena atau Amazon Redshift.

Manifest.jsonIni hanya dikirim setelah semua file data ekspor telah dikirim ke S3.

Ekspor menyegarkan

Ekspor Data menyegarkan ekspor Anda setiap kali data sumber diperbarui. Untuk CUR 2.0, ini terjadi setidaknya sekali sehari. Periode penagihan saat ini (partisi) diperbarui hingga periode penagihan berakhir, di mana pengiriman periode penagihan berikutnya dimulai. Pengiriman periode penagihan berikutnya hanya berisi biaya dan data penagihan untuk periode penagihan tersebut. Setelah periode penagihan berakhir, AWS dapat memperbarui pengiriman ekspor untuk periode penagihan sebelumnya dalam dua minggu pertama setelah berakhir.

Ekspor penimpaan dan buat yang baru

Saat membuat ekspor, Anda dapat memilih untuk membuat file ekspor baru atau menimpa file ekspor yang ada dengan setiap penyegaran.

Buat yang baru

Membuat file ekspor baru menggunakan lebih banyak penyimpanan S3 karena semua penyegaran ekspor disimpan. Menimpa file ekspor sebelumnya menggunakan lebih sedikit penyimpanan S3 karena hanya versi terbaru dari setiap penyegaran periode penagihan yang disimpan.

Saat dalam mode “buat baru”, file ekspor dikirim ke jalur S3 berikut:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>

timestampIni adalah tanggal dan waktu ketika ekspor dijalankan. execution-idIni adalah ID unik yang ditetapkan untuk eksekusi.

Untuk “buat baru”, dua Manifest.json file dikirimkan dengan setiap eksekusi ekspor. Satu disimpan dalam metadata/<partition>/<timestamp>-<execution-id> direktori, dan yang lainnya ditimpa dalam metadata/<partition> direktori. Manifes dalam metadata/<partition> direktori selalu mewakili penyegaran terbaru dan datanya digunakan untuk mengidentifikasi lokasi file ekspor yang paling baru disegarkan.

Menimpa

Penimpaan hanya berlaku untuk penyegaran partisi yang sama (yaitu, periode penagihan). Setelah periode penagihan baru dimulai, ekspor membuat direktori S3 baru dengan nama berdasarkan partisi atau periode penagihan terbaru, dan mulai mengirimkan partisi ekspor baru di sana. Ekspor partisi sebelumnya tidak ditimpa kecuali data untuk partisi tertentu diperbarui.

Saat dalam mode “timpa”, file ekspor dikirim ke jalur S3 berikut:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/

File ekspor dalam direktori file ini ditimpa dengan setiap pengiriman partisi yang sama (yaitu, periode penagihan).

File ekspor dikirim sebagai beberapa “potongan” (file terpisah gzip/csv atau Parket) ketika ekspor menjadi cukup besar. Jika ukuran ekspor berkurang selama sebulan (karena kueri atau koreksi data yang berubah), lebih sedikit potongan mungkin diperlukan untuk mengirimkan penyegaran ekspor. Dalam hal ini, Ekspor Data menimpa potongan tambahan apa pun dari penyegaran terakhir dengan data kosong.

Untuk menimpa, satu Manifest.json file dikirimkan dengan setiap eksekusi ekspor. Itu disimpan dalam metadata/<partition> direktori dan ditimpa dengan setiap penyegaran.

Ekspor nama dan potongan file data

Ekspor memberikan hasil satu eksekusi sebagai satu file (gzip/csv atau Parket) atau dalam beberapa “potongan” (file terpisah gzip/csv atau Parket) ketika ekspor menjadi cukup besar.

Ekspor diberi nama sebagai berikut untuk format gzip/csv file:

<export-name>-<chunk-number>.csv.gz

Ekspor diberi nama sebagai berikut untuk format Parket:

<export-name>-<chunk-number>.snappy.parquet

Nomor potongan selalu memiliki lima digit. Nomor potongan dihitung mulai dari. 00001

catatan

Jika Anda memilih opsi Integrasi Laporan Athena atau Redshift saat membuat CUR 2.0, bagian di bawah ini mengenai integrasi Redshift dan Athena mungkin relevan bagi Anda.

Integrasi Amazon Redshift

Jika Anda memilih opsi untuk integrasi Amazon Redshift, AWS juga membuat dan mengirimkan file dengan perintah SQL yang Anda perlukan untuk mengunggah laporan Anda ke Amazon Redshift. Untuk mengunggah ekspor data ke Amazon Redshift, selesaikan langkah-langkah berikut.

Untuk mengunggah ekspor data ke Amazon Redshift

Buat cluster Amazon Redshift. Untuk informasi selengkapnya, lihat Membuat Cluster di Panduan Manajemen Pergeseran Merah Amazon.
Masuk ke Konsol AWS Manajemen dan buka konsol Amazon S3 di. https://console.aws.amazon.com/s3/
Arahkan ke lokasi Amazon S3 tempat Anda menyimpan Ekspor AWS Data.
Unduh RedshiftCommands.sql file yang disimpan bersama file manifes Anda di S3, dan file pembantu Redshift di:

<bucket>/<prefix>/<export-name>/metadata/<partition>/<export-name>-RedshiftCommands.sql
Dalam copy perintah, ganti <AWS_ROLE> dengan ARN peran IAM yang memiliki izin untuk mengakses bucket Amazon S3 tempat Anda menyimpan Ekspor Data Anda. AWS
Ganti <S3_BUCKET_REGION> dengan Wilayah bucket Amazon S3 tempat Anda berada. Misalnya, us-east-1.
Gunakan klien SQL untuk terhubung ke cluster. Untuk informasi selengkapnya, lihat Mengakses Cluster dan Database Amazon Redshift di Panduan Manajemen Pergeseran Merah Amazon.
Salin perintah SQL dari RedshiftCommands.sql file ke klien SQL Anda dalam urutan berikut:
1. buat tabel — Membuat tabel Amazon Redshift dengan skema yang disesuaikan agar sesuai dengan laporan Anda.
2. salin - Menggunakan peran IAM yang disediakan untuk mengunggah file Ekspor AWS Data dari S3 ke Amazon Redshift.
3. buat tabel tag - Membuat tabel yang memungkinkan Anda memetakan tag AWS yang ditentukan ke tag yang ditentukan pengguna.
4. insert - Menyisipkan tag yang ditentukan pengguna ke dalam tabel tag.
Setelah menyalin semua data dari Ekspor AWS Data ke Amazon Redshift, Anda dapat melakukan kueri data menggunakan SQL. Untuk informasi selengkapnya, lihat Amazon Redshift SQL di Panduan Pengembang Database Amazon Redshift.

Integrasi Amazon Athena

Jika Anda memilih opsi untuk integrasi Amazon Athena, AWS juga membuat dan mengirimkan beberapa file untuk membantu mengatur semua sumber daya yang Anda butuhkan. AWS mengirimkan CloudFormation template, file SQL untuk membuat tabel Athena Anda secara manual, dan folder status untuk memeriksa status penyegaran ekspor Anda. File-file ini menggunakan konvensi penamaan berikut.

CloudFormation template untuk menyiapkan sumber daya Athena:

<prefix>/<export-name>/crawler-cfn.yml

SQL untuk membuat tabel Athena Anda secara manual:

<prefix>/<export-name>/metadata/<partition>/<export-name>-create-table.sql

Ekspor folder status penyegaran:

<prefix>/<export-name>/execution_status/

Menyiapkan Athena menggunakan template CloudFormation

Untuk menggunakan template Athena CloudFormation

Arahkan ke crawler-cfn.yml file di bucket S3 Anda dan pilih tombol Copy di sebelah Object URL.
Buka CloudFormation konsol di https://console.aws.amazon.com/cloudformation/.
Jika Anda belum pernah menggunakan CloudFormation sebelumnya, pilih Create New Stack. Atau, pilih Buat Tumpukan.
Di bawah Siapkan templat, pilih Pilih templat yang ada.
Di bawah Tentukan templat, untuk sumber Template, pilih URL Amazon S3.
Tempelkan URL Objek S3 ke dalam kotak URL Amazon S3.
Pilih Berikutnya.
Untuk nama Stack, masukkan nama untuk template Anda dan pilih Berikutnya.
Di bagian bawah halaman, pilih Saya mengakui yang AWS CloudFormation mungkin membuat sumber daya IAM.
Pilih Berikutnya, lalu pilih Kirim.

Untuk memperbarui template Athena CloudFormation yang ada

Buka konsol Amazon S3 di. https://console.aws.amazon.com/s3/
Dari daftar bucket, pilih bucket tempat Anda memilih untuk menerima Ekspor AWS Data.
Pilih awalan jalur laporan (your-report-path-prefix/), lalu pilih nama laporan Anda (your-report-name/).
Pilih file .yml template dan pilih tombol Copy di sebelah Object URL.
Buka CloudFormation konsol di https://console.aws.amazon.com/cloudformation/.
Pilih tumpukan yang sebelumnya dibuat, lalu pilih Update stack > Make a direct update.
Di bawah Siapkan template, pilih Ganti template yang ada.
Di bawah Sumber templat, pilih URL Amazon S3.
Tempelkan URL Objek S3 ke dalam kotak URL Amazon S3.
Pilih Berikutnya.
Pada halaman Tentukan detail tumpukan, ubah detail apa pun, lalu pilih Berikutnya.
Di bagian bawah halaman, pilih Saya mengakui yang AWS CloudFormation mungkin membuat sumber daya IAM.
Pilih Berikutnya, lalu pilih Kirim.

Menyiapkan Athena secara manual

Jika Anda tidak ingin menggunakan CloudFormation template, Anda dapat membuat tabel Athena Anda secara manual menggunakan file SQL yang disediakan.

Untuk membuat tabel Athena secara manual

create-table.sqlFile untuk ekspor Anda terletak di:

<bucket>/<prefix>/<export-name>/metadata/BILLING_PERIOD=YYYY-MM/<export-name>-create-table.sql
Di panel kueri New query 1, tempel SQL dari file. Untuk<database name>.<table name>, gunakan database dan nama tabel dari baris pertama SQL.
Jalankan berikut ini untuk membuat database:

CREATE DATABASE <database name>

Untuk memuat partisi laporan baru, jalankan SQL berikut:

ALTER TABLE `<database name>`.<table name> ADD PARTITION (billing_period='YYYY-MM') LOCATION 's3://<bucket>/<prefix>/<export-name>/data/BILLING_PERIOD=YYYY-MM/'; YYYY-MM dimana periode penagihan dinyatakan sebagai tahun 4 digit dan bulan 2 digit. Misalnya 2026-05.

Untuk informasi selengkapnya, lihat Menanyakan Laporan Biaya dan Penggunaan menggunakan Amazon Athena.

Ringkasan

Ekspor nama file data dengan direktori untuk membuat baru

Parquet:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>/<export-name>-<chunk-number>.snappy.parquet

gzip/csv:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>/<export-name>-<chunk-number>.csv.gz

Ekspor nama file data dengan direktori untuk menimpa

Parquet:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<export-name>-<chunk-number>.snappy.parquet

gzip/csv:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<export-name>-<chunk-number>.csv.gz

Manifestasikan nama file dengan direktori untuk membuat baru

Mode “buat baru” memberikan Manifest.json ke dua lokasi.

Lokasi pertama adalah dalam folder yang mewakili eksekusi tertentu dari ekspor (dinamai oleh timestamp danexecution-id). Manifest ini sesuai dengan eksekusi spesifik itu. Jalur file adalah sebagai berikut:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/<timestamp>-<execution-id>

Lokasi kedua ada di folder partisi yang berisi semua eksekusi. Manifest ini adalah file yang sama dari eksekusi ekspor terbaru. Anda dapat membaca Manifest ini untuk mengidentifikasi jalur file yang tepat dari semua file ekspor terbaru. Jalur file adalah sebagai berikut:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/Manifest.json

Manifestasikan nama file dengan direktori untuk menimpa

Mode “timpa” dikirimkan Manifest.json ke satu lokasi.

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>

Manifest dalam direktori ini ditimpa dengan setiap penyegaran partisi yang diberikan (yaitu, periode penagihan).

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Melihat dan mengelola ekspor data

Mengedit detail ekspor