Esporta la struttura della directory principale di S3 Aggiornamento dell'esportazione Esporta la sovrascrittura e creane una nuova Esporta i nomi e i blocchi dei file di dati Integrazione con Amazon Redshift Integrazione con Amazon Athena Riepilogo

Informazioni sulla consegna delle esportazioni

Nelle sezioni seguenti, troverai informazioni sulla spedizione per l'esportazione.

Esporta la struttura della directory principale di S3: come sono strutturati i dati di esportazione nella directory S3 in cui viene recapitata l'esportazione.
Aggiornamento delle esportazioni: con quale frequenza le esportazioni vengono aggiornate nella directory S3.
Esporta, sovrascrittura e creane di nuove: in che modo la spedizione da esportare cambia con la sovrascrittura e crea nuove preferenze di spedizione.
Esporta nomi e blocchi dei file di dati: come vengono denominati i file di esportazione (gzip/csv o Parquet).

Esporta la struttura della directory principale di S3

Ogni esportazione invia i dati dalla query a S3 (come uno gzip/csv o più file Parquet) e un file di Manifest.json metadati contenente informazioni sulla definizione di esportazione al momento dell'esecuzione dell'esportazione.

Dati

I dati risultanti dalla query di esportazione vengono archiviati nel seguente percorso del file S3:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/

La partizione corrisponde alla tabella su cui viene eseguita la query. Per CUR 2.0, la partizione corrisponde al «periodo di fatturazione» di una determinata esportazione CUR 2.0.

prefix: Il prefisso del file S3 che assegnate all'esportazione.

export-name: il nome che assegnate all'esportazione.

partition: La partizione descrive come una singola tabella viene partizionata in tabelle separate per la consegna. Per CUR 2.0, la partizione corrisponde al «periodo di fatturazione» nel formato. BILLING_PERIOD=YYYY-MM Ad esempio, la partizione per novembre 2023 è 2023-11.

Di seguito è riportato un esempio di percorso di file S3:

s3://my-data-export-s3-bucket/my-cur-files/business_group_a_cur/data/BILLING_PERIOD=2023-11

Metadati

Il file di Manifest.json metadati per la query è memorizzato nel seguente percorso del file S3:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/<export-name>-Manifest.json

Il Manifest.json file viene aggiornato ogni volta che l'esportazione viene aggiornata. Viene creato un nuovo Manifest.json file per ogni nuova partizione creata dall'esportazione. Per CUR 2.0, ciò significa che viene generato un nuovo Manifest.json file all'inizio di un nuovo periodo di fatturazione.

I file manifesto contengono le seguenti informazioni:

Tutte le colonne incluse nell'esportazione.
Un elenco dei file esportati e il relativo percorso. Consigliamo di identificare i file da importare leggendo questo elenco a livello di codice.
Il periodo di tempo coperto dall'esportazione.
Una sezione chiamata additionalOutputFiles che elenca i file aggiuntivi che vengono forniti se disponi dell'integrazione con Athena o Amazon Redshift.

Manifest.jsonViene consegnato solo dopo che tutti i file di dati di esportazione sono stati consegnati a S3.

Aggiornamento dell'esportazione

Data Exports aggiorna le esportazioni ogni volta che i dati di origine vengono aggiornati. Per CUR 2.0, ciò si verifica almeno una volta al giorno. Il periodo di fatturazione corrente (partizione) viene aggiornato fino al termine del periodo di fatturazione, momento in cui iniziano le consegne del periodo di fatturazione successivo. Le consegne del periodo di fatturazione successivo contengono solo addebiti e dati di fatturazione per quel periodo di fatturazione. Al termine del periodo di fatturazione, AWS può aggiornare la spedizione per l'esportazione relativa al periodo di fatturazione precedente entro le prime due settimane dalla scadenza.

Esporta la sovrascrittura e creane una nuova

Quando crei un'esportazione, puoi scegliere di creare nuovi file di esportazione o sovrascrivere i file di esportazione esistenti ad ogni aggiornamento.

Crea nuovo

La creazione di nuovi file di esportazione utilizza più spazio di archiviazione S3 perché tutti gli aggiornamenti delle esportazioni vengono mantenuti. La sovrascrittura dei file di esportazione precedenti utilizza meno spazio di archiviazione S3 perché viene conservata solo la versione più recente di ogni aggiornamento del periodo di fatturazione.

In modalità «crea nuovo», i file di esportazione vengono recapitati nel seguente percorso S3:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>

Sono timestamp la data e l'ora in cui è stata eseguita l'esportazione. execution-idè l'ID univoco assegnato all'esecuzione.

Per «crea nuovo», vengono consegnati due Manifest.json file con ogni esecuzione di esportazione. Uno viene memorizzato nella metadata/<partition>/<timestamp>-<execution-id> directory e l'altro viene sovrascritto nella metadata/<partition> directory. Il manifesto nella metadata/<partition> directory rappresenta sempre l'aggiornamento più recente e i relativi dati vengono utilizzati per identificare la posizione dei file di esportazione aggiornati più di recente.

Sovrascrive

La sovrascrittura si applica solo agli aggiornamenti della stessa partizione (ovvero, periodo di fatturazione). All'inizio di un nuovo periodo di fatturazione, l'esportazione crea una nuova directory S3 con un nome basato sull'ultima partizione o periodo di fatturazione e inizia a recapitarvi la nuova partizione di esportazione. L'esportazione della partizione precedente non viene sovrascritta a meno che i dati per quella partizione specifica non vengano aggiornati.

In modalità «sovrascrittura», i file di esportazione vengono consegnati al seguente percorso S3:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/

I file di esportazione in questa directory di file vengono sovrascritti a ogni consegna della stessa partizione (ovvero, periodo di fatturazione).

I file di esportazione vengono consegnati come «blocchi» multipli (file separati gzip/csv o Parquet) quando l'esportazione diventa sufficientemente grande. Se le dimensioni dell'esportazione diminuiscono nel corso del mese (a causa di una modifica della query o di una correzione dei dati), potrebbero essere necessari meno blocchi per aggiornare l'esportazione. In questo caso, Data Exports sovrascrive tutti i blocchi aggiuntivi dell'ultimo aggiornamento con dati vuoti.

Per la sovrascrittura, viene fornito un Manifest.json file per ogni esecuzione di esportazione. Viene memorizzato nella metadata/<partition> directory e viene sovrascritto ad ogni aggiornamento.

Esporta i nomi e i blocchi dei file di dati

Le esportazioni forniscono i risultati di un'esecuzione come unico file (gzip/csv o Parquet) o in più «blocchi» (file separati gzip/csv o Parquet) quando l'esportazione diventa sufficientemente grande.

Le esportazioni sono denominate come segue in base al gzip/csv formato di file:

<export-name>-<chunk-number>.csv.gz

Le esportazioni sono denominate come segue per il formato Parquet:

<export-name>-<chunk-number>.snappy.parquet

I numeri a blocchi hanno sempre cinque cifre. I numeri dei blocchi vengono enumerati a partire da. 00001

Nota

Se hai scelto l'opzione Athena o Redshift Report Integration durante la creazione di CUR 2.0, la sezione seguente relativa alle integrazioni di Redshift e Athena potrebbe essere pertinente per te.

Integrazione con Amazon Redshift

Se hai scelto l'opzione per l'integrazione con Amazon Redshift, crea e distribuisce AWS anche un file con i comandi SQL necessari per caricare il report in Amazon Redshift. Per caricare un'esportazione di dati su Amazon Redshift, completa i seguenti passaggi.

Per caricare un'esportazione di dati su Amazon Redshift

Crea un cluster Amazon Redshift. Per ulteriori informazioni, consulta Creazione di un cluster nella Amazon Redshift Management Guide.
Accedi alla console di AWS gestione e apri la console Amazon S3 all'indirizzo. https://console.aws.amazon.com/s3/
Passa alla posizione Amazon S3 in cui archiviare l'esportazione AWS dei dati.
Scarica il RedshiftCommands.sql file archiviato insieme al file manifest in S3 e il file helper Redshift all'indirizzo:

<bucket>/<prefix>/<export-name>/metadata/<partition>/<export-name>-RedshiftCommands.sql
Nel copy comando, sostituisci <AWS_ROLE> con l'ARN di un ruolo IAM che dispone delle autorizzazioni per accedere al bucket Amazon S3 in cui memorizzi l'esportazione dei dati. AWS
Sostituisci <S3_BUCKET_REGION> con la regione in cui si trova il bucket Amazon S3. Ad esempio, us-east-1.
Utilizza un client SQL per la connessione al cluster. Per ulteriori informazioni, consulta Accedere a cluster e database Amazon Redshift nella Amazon Redshift Management Guide.
Copia i comandi SQL dal file RedshiftCommands.sql nel tuo client SQL in questo ordine:
1. crea tabella: crea una tabella Amazon Redshift con uno schema personalizzato in base al rapporto.
2. copy: utilizza il ruolo IAM fornito per caricare i file di esportazione AWS dei dati da S3 ad Amazon Redshift.
3. create tag table: crea una tabella che consente di mappare i tag definiti dall'utente ai tag AWS definiti dall'utente.
4. insert — Inserisce i tag definiti dall'utente nella tabella dei tag.
Dopo aver copiato tutti i AWS dati da Data Export in Amazon Redshift, puoi interrogare i dati utilizzando SQL. Per ulteriori informazioni, consulta Amazon Redshift SQL nella Amazon Redshift Database Developer Guide.

Integrazione con Amazon Athena

Se hai scelto l'opzione per l'integrazione con Amazon Athena, crea e distribuisce AWS anche più file per aiutarti a configurare tutte le risorse di cui hai bisogno. AWS fornisce un CloudFormation modello, un file SQL per creare manualmente la tabella Athena e una cartella di stato per controllare lo stato di aggiornamento dell'esportazione. Questi file usano le seguenti convenzioni di denominazione.

CloudFormation modello per configurare le risorse Athena:

<prefix>/<export-name>/crawler-cfn.yml

File SQL per creare manualmente la tabella Athena:

<prefix>/<export-name>/metadata/<partition>/<export-name>-create-table.sql

Esporta la cartella di stato di aggiornamento:

<prefix>/<export-name>/execution_status/

Configurazione di Athena tramite modelli CloudFormation

Per utilizzare il modello Athena CloudFormation

Vai al crawler-cfn.yml file nel tuo bucket S3 e seleziona il pulsante Copia accanto all'URL dell'oggetto.
Apri la CloudFormation console all'indirizzo. https://console.aws.amazon.com/cloudformation/
Se non l'hai mai usato CloudFormation prima, scegli Crea nuovo stack. In caso contrario, selezionare Create Stack (Crea stack).
In Prepara modello, seleziona Scegli un modello esistente.
In Specificare modello, per Origine modello, scegli URL Amazon S3.
Incolla l'URL dell'oggetto S3 nella casella URL Amazon S3.
Scegli Next (Successivo).
In Stack name (Nome stack), immettere un nome per il modello e selezionare Next (Avanti).
Nella parte inferiore della pagina, seleziona Riconosco che AWS CloudFormation potrebbe creare risorse IAM.
Scegli Successivo, quindi scegli Invia.

Per aggiornare il modello Athena CloudFormation esistente

Apri la console Amazon S3 all'indirizzo. https://console.aws.amazon.com/s3/
Dall'elenco dei bucket, scegli il bucket in cui hai scelto di ricevere l'esportazione dei dati AWS .
Scegli il prefisso del percorso del rapporto (your-report-path-prefix/), quindi scegli il nome del rapporto (). your-report-name/
Scegli il file .yml modello e seleziona il pulsante Copia accanto all'URL dell'oggetto.
Apri la CloudFormation console all'indirizzo https://console.aws.amazon.com/cloudformation/.
Seleziona lo stack creato in precedenza, quindi scegli Aggiorna stack > Effettua un aggiornamento diretto.
In Prepara modello, scegli Sostituisci modello esistente.
In Origine modello, scegli l'URL di Amazon S3.
Incolla l'URL dell'oggetto S3 nella casella URL Amazon S3.
Scegli Next (Successivo).
Nella pagina Specificare i dettagli dello stack, modifica i dettagli, quindi scegli Avanti.
Nella parte inferiore della pagina, seleziona Riconosco che AWS CloudFormation potrebbe creare risorse IAM.
Scegli Successivo, quindi scegli Invia.

Configurazione manuale di Athena

Se non desideri utilizzare il CloudFormation modello, puoi creare la tabella Athena manualmente utilizzando il file SQL fornito.

Per creare manualmente una tabella Athena

Il create-table.sql file per l'esportazione si trova in:

<bucket>/<prefix>/<export-name>/metadata/BILLING_PERIOD=YYYY-MM/<export-name>-create-table.sql
Nel riquadro Nuova query 1, incolla il codice SQL dal file. Per<database name>.<table name>, usa il nome del database e della tabella dalla prima riga del codice SQL.
Esegui quanto segue per creare il database:

CREATE DATABASE <database name>

Per caricare una nuova partizione di report, esegui il seguente comando SQL:

ALTER TABLE `<database name>`.<table name> ADD PARTITION (billing_period='YYYY-MM') LOCATION 's3://<bucket>/<prefix>/<export-name>/data/BILLING_PERIOD=YYYY-MM/';dove YYYY-MM è il periodo di fatturazione espresso come anno a 4 cifre e mese a 2 cifre. Ad esempio 2026-05.

Per ulteriori informazioni, consulta Interrogazione di report su costi e utilizzo con Amazon Athena.

Riepilogo

Esporta i nomi dei file di dati con la directory per crearne di nuovi

Parquet:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>/<export-name>-<chunk-number>.snappy.parquet

gzip/csv:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<timestamp>-<execution-id>/<export-name>-<chunk-number>.csv.gz

Esporta i nomi dei file di dati con la directory per la sovrascrittura

Parquet:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<export-name>-<chunk-number>.snappy.parquet

gzip/csv:

s3://<bucket-name>/<prefix>/<export-name>/data/<partition>/<export-name>-<chunk-number>.csv.gz

Nomi di file manifesto con directory per crearne di nuovi

La modalità «crea nuovo» effettua consegne Manifest.json in due posizioni.

La prima posizione si trova in una cartella che rappresenta un'esecuzione specifica di un'esportazione (denominata con timestamp andexecution-id). Questo manifesto corrisponde a quell'esecuzione specifica. Il percorso del file è il seguente:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/<timestamp>-<execution-id>

La seconda posizione si trova in una cartella di partizione contenente tutte le esecuzioni. Questo manifesto è lo stesso file dell'esecuzione più recente dell'esportazione. Potete leggere questo Manifest per identificare i percorsi esatti di tutti i file di esportazione recenti. Il percorso del file è il seguente:

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>/Manifest.json

Nomi di file manifesto con directory per la sovrascrittura

La modalità «sovrascrittura» effettua consegne in un'Manifest.jsonunica posizione.

s3://<bucket-name>/<prefix>/<export-name>/metadata/<partition>

Il manifesto in questa directory viene sovrascritto ad ogni aggiornamento di una determinata partizione (ovvero, periodo di fatturazione).

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Visualizzazione e gestione delle esportazioni di dati

Modifica dei dettagli di esportazione