Esecuzione di query nel data lake

Puoi usare Amazon Redshift per interrogare i dati in Amazon S3 senza doverli caricare nelle tabelle Amazon Redshift. Amazon Redshift fornisce funzionalità SQL progettate per l'elaborazione analitica online veloce (OLAP) di dataset di grandi dimensioni archiviati sia nei cluster Amazon Redshift che nei data lake Amazon S3. È possibile interrogare i dati in molti formati, tra cui Iceberg, Parquet, ORC, RCFile,,, TextFile SequenceFile, RegexSerde OpenCSV e AVRO. È possibile creare schemi e tabelle esterni per definire la struttura dei file in Amazon S3. Quindi, puoi utilizzare un catalogo di dati esterno, ad esempio il tuo metastore Apache Hive. AWS Glue Le modifiche al tipo di catalogo di dati sono immediatamente disponibili per tutti i cluster Amazon Redshift.

Dopo aver registrato i dati in un AWS Glue Data Catalog e aver abilitato AWS Lake Formation, puoi iniziare a interrogare il tuo data lake.

È possibile partizionare le tabelle esterne in una o più colonne per ottimizzare le prestazioni delle query tramite l'eliminazione delle partizioni. È possibile eseguire query e join sulle tabelle esterne con le tabelle Amazon Redshift. Puoi accedere a tabelle esterne da più cluster Amazon Redshift e interrogare i dati di Amazon S3 da qualsiasi cluster nella stessa regione. AWS Quando aggiorni i file di dati Amazon S3, i dati possono essere sottoposti a query immediatamente da qualsiasi cluster Amazon Redshift.

Utilizzo del motore di query integrato Data Lake per RG e Redshift Serverless

I cluster Amazon Redshift RG e Amazon Redshift Serverless includono un motore di query Data Lake integrato che funziona sulle risorse di elaborazione proprie del cluster, fornendo un'esperienza unificata per i casi d'uso di data lake e data warehouse.

Il motore di query Data Lake integrato elimina la necessità di utilizzare Redshift Spectrum ed elimina i costi associati a Redshift Spectrum. Non è richiesta alcuna configurazione aggiuntiva per abilitare il motore di query integrato Data Lake, in quanto è abilitato per impostazione predefinita.

Nota

In alcuni casi, è possibile osservare prestazioni più lente su RG rispetto ai cluster RA3 che eseguono Redshift Spectrum, che si ridimensiona in modo indipendente utilizzando risorse di elaborazione dedicate. Se osservi un rallentamento delle prestazioni delle query, prendi in considerazione l'aggiunta di più nodi o l'aggiornamento a istanze RG di dimensioni maggiori.

Utilizzo di Redshift Spectrum per DC2 e RA3

Nei cluster con provisioning DC2 e RA3, Redshift Spectrum risiede su server Amazon Redshift dedicati indipendenti dal cluster. Redshift Spectrum completa numerose attività che richiedono un importante capacità di calcolo, come l'aggregazione e il filtraggio di predicati, sul livello Redshift Spectrum. Redshift Spectrum inoltre si dimensiona in modo intelligente per trarre vantaggio dall'elaborazione massiva parallela.

Per ulteriori informazioni su Redshift Spectrum, incluse le modalità di utilizzo di Redshift Spectrum e data lake, consultare Nozioni di base su Amazon Redshift Spectrum nella Guida per gli sviluppatori di database di Amazon Redshift.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Eseguire query sui dati non presenti nel database Amazon Redshift

Esecuzione di query su origini dati remote