

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# AWS Glue ETL
<a name="aws-glue-etl"></a>

AWS Glue ETL supporta l'estrazione di dati da varie fonti, la loro trasformazione per soddisfare le esigenze aziendali e il caricamento in una destinazione a scelta. Questo servizio utilizza il motore Apache Spark per distribuire carichi di lavoro di big data tra i nodi di lavoro, consentendo trasformazioni più rapide con l'elaborazione in memoria.

AWS Glue supporta una varietà di fonti di dati, tra cui Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB e Amazon Relational Database Service (Amazon RDS). Per ulteriori informazioni sulle fonti di dati supportate, consulta [Tipi di connessione e](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html) opzioni per ETL in. AWS Glue

## Creazione in AWS Glue
<a name="authoring-etl"></a>

AWS Glue offre diversi modi per creare lavori ETL, a seconda dell'esperienza e del caso d'uso:
+ I [job della shell Python](https://docs.aws.amazon.com/glue/latest/dg/add-job-python.html) sono progettati per eseguire script ETL di base scritti in Python. Questi job vengono eseguiti su una singola macchina e sono più adatti per set di dati di piccole o medie dimensioni.
+ I [job di Apache Spark](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming.html) possono essere scritti in Python o Scala. Questi job utilizzano Spark per scalare orizzontalmente i carichi di lavoro su molti nodi di lavoro, in modo da poter gestire set di dati di grandi dimensioni e trasformazioni complesse.
+ [AWS Glue streaming ETL](https://docs.aws.amazon.com/glue/latest/dg/add-job-streaming.html) [utilizza il motore Apache Spark Structured Streaming per trasformare i dati di streaming in processi microbatch utilizzando la semantica Exactly-Once.](https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#overview) Puoi creare lavori di AWS Glue streaming in Python o Scala.
+ [AWS Glue Studio](https://docs.aws.amazon.com/glue/latest/dg/author-job-glue.html)è un'interfaccia boxes-and-arrows in stile visivo per rendere l'ETL basato su Spark accessibile agli sviluppatori che non conoscono la programmazione di Apache Spark.

## Unità di elaborazione dati (DPU)
<a name="dpu-worker-type"></a>

AWS Glue utilizza le unità di elaborazione dati (DPUs) per misurare le risorse di calcolo allocate a un processo ETL e calcolare i costi. Ogni DPU equivale a 4 v CPUs e 16 GB di memoria. DPUsdeve essere assegnato al AWS Glue lavoro in base alla complessità e al volume di dati. [L'allocazione della quantità appropriata DPUs consentirà di](https://docs.aws.amazon.com/glue/latest/dg/monitor-debug-capacity.html#monitor-debug-capacity-fix) bilanciare le esigenze prestazionali con i vincoli di costo.

AWS Glue offre [diversi tipi di lavoratori](https://docs.aws.amazon.com/glue/latest/dg/add-job.html#create-job) ottimizzati per vari carichi di lavoro:
+ G.1X o G.2X (per la maggior parte delle trasformazioni, dei join e delle query dei dati)
+ G.4X o G.8X (per trasformazioni, aggregazioni, join e query di dati più impegnative)
+ G.025X (per flussi di dati sporadici e a basso volume)
+ Standard (per AWS Glue le versioni 1.0 o precedenti; non consigliato per le versioni successive di) AWS Glue

## Usare la shell Python
<a name="python-shell"></a>

Per un job in Python shell, puoi usare 1 DPU per usare 16 GB di memoria o 0,0625 DPU per usare 1 GB di memoria. La shell Python è pensata per lavori ETL di base con set di dati di piccole o medie dimensioni (fino a circa 10 GB).

## Confronto dei tipi di lavoratori
<a name="compare-worker-types"></a>

La tabella seguente mostra i diversi tipi di AWS Glue worker per carichi di lavoro batch, streaming ed AWS Glue Studio ETL che utilizzano l'ambiente Apache Spark.


|  |  |  |  |  |  |  | 
| --- |--- |--- |--- |--- |--- |--- |
|  | **G.1X** | **G.2X** | **G.4X** | **G.8X** | **G.025X** | **Standard** | 
| VPCU | 4 | 8 | 16 | 32 | 2 | 4 | 
| Memoria | 16 GB | 32 GB | 64 GB | 128 GB | 4 GB | 16 GB | 
| Spazio su disco | 64 GB | 128 GB | 256 GB | 512 GB | 64 GB | 50 GB | 
| Esecutore per lavoratore | 1  | 1 | 1 | 1 | 1 | 2 | 
| DPU | 1 | 2 | 4 | 8 | 0.25 | 1 | 

Il tipo di worker Standard non è consigliato per la AWS Glue versione 2.0 e successive. Il tipo di worker G.025X è disponibile solo per i lavori di streaming che utilizzano la AWS Glue versione 3.0 o successiva.