

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Opzioni del formato dati per input e output in AWS Glue per Spark
<a name="aws-glue-programming-etl-format"></a>

Queste pagine offrono informazioni sul supporto delle funzionalità e sui parametri di configurazione per i formati di dati supportati da AWS Glue per Spark. Consulta quanto riportato di seguito per una descrizione dell'uso e dell'applicabilità di queste informazioni. 

## Supporto delle funzionalità per tutti i formati di dati in AWS Glue
<a name="aws-glue-programming-etl-format-features"></a>

 Ogni formato di dati può supportare diverse funzionalità di AWS Glue. Le funzioni comuni indicate di seguito possono essere supportate o meno in base al tipo di formato. Consulta la documentazione relativa al formato dati per capire come sfruttare le nostre funzioni per soddisfare i tuoi requisiti. 


|  |  | 
| --- |--- |
| Lettura | AWS Glue è in grado di riconoscere e interpretare questo formato di dati senza risorse aggiuntive, come i connettori. | 
| Scrittura | AWS Glue può scrivere dati in questo formato senza risorse aggiuntive. Puoi includere librerie di terzi nel tuo processo e utilizzare funzioni standard di Apache Spark per scrivere i dati, come con altri ambienti Spark. Per ulteriori informazioni sull’inclusione di librerie, consulta [Usare le librerie Python con Glue AWS](aws-glue-programming-python-libraries.md). | 
| Lettura in streaming | AWS Glue è in grado di riconoscere e interpretare questo formato di dati da un flusso di messaggi Apache Kafka, Amazon Managed Streaming for Apache Kafka o Amazon Kinesis. Prevediamo che i flussi presentino i dati in un formato coerente, quindi vengano letti come DataFrames. | 
| Gruppo di file piccoli | AWS Glue può raggruppare i file per il lavoro in batch inviato a ciascun nodo durante l'esecuzione delle trasformazioni di AWS Glue. Ciò può migliorare significativamente le prestazioni per carichi di lavoro che implicano grandi quantità di file piccoli. Per ulteriori informazioni, consulta [Lettura di file di input in gruppi di grandi dimensioni](grouping-input-files.md).  | 
| Segnalibri di processo | AWS Glue è in grado di monitorare l'avanzamento delle trasformazioni che eseguono lo stesso lavoro sullo stesso set di dati in tutte le esecuzioni di lavoro con i segnalibri dei lavori. Ciò può migliorare le prestazioni per carichi di lavoro che implicano set di dati in cui occorre operare solo su nuovi dati dall'ultima esecuzione del processo. Per ulteriori informazioni, consulta [Monitoraggio dei dati elaborati mediante segnalibri di processo](monitor-continuations.md). | 

## Parametri utilizzati per interagire con i formati di dati in AWS Glue
<a name="aws-glue-programming-etl-format-parameters"></a>

Alcuni tipi di connessione AWS Glue supportano più `format` tipi, pertanto è necessario specificare informazioni sul formato dei dati con un `format_options` oggetto quando si utilizzano metodi come`GlueContext.write_dynamic_frame.from_options`.
+ `s3`— Per ulteriori informazioni, vedere Tipi di connessione e opzioni per ETL in AWS Glue:[Parametri di connessione di S3](aws-glue-programming-etl-connect-s3-home.md#aws-glue-programming-etl-connect-s3). Puoi anche visualizzare la documentazione relativa ai metodi che facilitano questo tipo di connessione: [create\_dynamic\_frame\_from\_options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create_dynamic_frame_from_options) e [write\_dynamic\_frame\_from\_options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-write_dynamic_frame_from_options) in Python e i metodi Scala corrispondenti [formato def getSourceWith](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-getSourceWithFormat) e [Formato def getSinkWith](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-getSinkWithFormat). 

  
+ `kinesis`— Per ulteriori informazioni, vedere Tipi di connessione e opzioni per ETL in AWS Glue:[Parametri di connessione Kinesis](aws-glue-programming-etl-connect-kinesis-home.md#aws-glue-programming-etl-connect-kinesis). Puoi anche visualizzare la documentazione relativa ai metodi che facilitano questo tipo di connessione: [create\_data\_frame\_from\_options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create-dataframe-from-options) e il metodo Scala corrispondente [def createDataFrame FromOptions](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-createDataFrameFromOptions).
+ `kafka`— Per ulteriori informazioni, vedere Tipi di connessione e opzioni per ETL in AWS Glue:[Parametri di connessione Kafka](aws-glue-programming-etl-connect-kafka-home.md#aws-glue-programming-etl-connect-kafka). Puoi anche visualizzare la documentazione relativa ai metodi che facilitano questo tipo di connessione: [create\_data\_frame\_from\_options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create-dataframe-from-options) e il metodo Scala corrispondente [def createDataFrame FromOptions](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-createDataFrameFromOptions).

Alcuni tipi di connessione non richiedono `format_options`. Ad esempio, nell'utilizzo normale, una connessione JDBC a un database relazionale recupera i dati in un formato dati tabulare coerente. Pertanto, la lettura da una connessione JDBC non richiedere `format_options`.

Alcuni metodi per la lettura e la scrittura di dati in Glue non richiedono `format_options`. Ad esempio, utilizzando `GlueContext.create_dynamic_frame.from_catalog` con i crawler AWS Glue. I crawler determinano la forma dei dati. Quando si utilizzano i crawler, un classificatore AWS Glue esaminerà i dati per prendere decisioni intelligenti su come rappresentare il formato dei dati. Quindi memorizzerà una rappresentazione dei dati nel AWS Glue Data Catalog, che può essere utilizzata all'interno di uno script AWS Glue ETL per recuperare i dati con il `GlueContext.create_dynamic_frame.from_catalog` metodo. I crawler eliminano la necessità di specificare manualmente informazioni sul formato dati.

Per i lavori che accedono a tabelle AWS Lake Formation gestite, AWS Glue supporta la lettura e la scrittura di tutti i formati supportati dalle tabelle governate da Lake Formation. Per l'elenco corrente dei formati supportati per le tabelle AWS Lake Formation governate, consulta [Notes and Restrictions for Governed Tables](https://docs.aws.amazon.com/lake-formation/latest/dg/governed-table-restrictions.html) nella *AWS Lake Formation Developer Guide*.

**Nota**  
Per scrivere Apache Parquet, AWS Glue ETL supporta solo la scrittura su una tabella governata, specificando un'opzione per un tipo di scritture Parquet personalizzata ottimizzata per Dynamic Frames. Quando scrivi su una tabella governata con il formato `parquet`, è necessario aggiungere la chiave `useGlueParquetWriter` con un valore di `true` nei parametri della tabella.

**Topics**
+ [Supporto delle funzionalità per tutti i formati di dati in AWS Glue](#aws-glue-programming-etl-format-features)
+ [Parametri utilizzati per interagire con i formati di dati in AWS Glue](#aws-glue-programming-etl-format-parameters)
+ [Utilizzo del formato CSV in AWS Glue](aws-glue-programming-etl-format-csv-home.md)
+ [Utilizzo del formato Parquet in AWS Glue](aws-glue-programming-etl-format-parquet-home.md)
+ [Utilizzo del formato XML in AWS Glue](aws-glue-programming-etl-format-xml-home.md)
+ [Utilizzo del formato Avro in AWS Glue](aws-glue-programming-etl-format-avro-home.md)
+ [Utilizzo del formato GrokLog in Glue AWS](aws-glue-programming-etl-format-grokLog-home.md)
+ [Utilizzo del formato Ion in AWS Glue](aws-glue-programming-etl-format-ion-home.md)
+ [Utilizzo del formato JSON in AWS Glue](aws-glue-programming-etl-format-json-home.md)
+ [Utilizzo del formato ORC in AWS Glue](aws-glue-programming-etl-format-orc-home.md)
+ [Utilizzo di framework di data lake con AWS Glue processi ETL](aws-glue-programming-etl-datalake-native-frameworks.md)
+ [Riferimento alla configurazione condivisa](#aws-glue-programming-etl-format-shared-reference)

## Riferimento alla configurazione condivisa
<a name="aws-glue-programming-etl-format-shared-reference"></a>

 È possibile utilizzare i seguenti valori di `format_options` con ogni tipo di formato. 
+ `attachFilename`: una stringa nel formato appropriato da utilizzare come nome di colonna. Se si fornisce questa opzione, il nome del file di origine del record verrà aggiunto al record. Il valore del parametro verrà utilizzato come nome della colonna.
+ `attachTimestamp`: una stringa nel formato appropriato da utilizzare come nome di colonna. Se si fornisce questa opzione, l'ora di modifica del file di origine del record verrà aggiunta al record. Il valore del parametro verrà utilizzato come nome della colonna.