View a markdown version of this page

Interrogazione di tabelle configurate utilizzando l'editor di codice SQL - AWS Clean Rooms

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Interrogazione di tabelle configurate utilizzando l'editor di codice SQL

In qualità di membro in grado di eseguire query, puoi creare una query manualmente scrivendo codice SQL nell'editor di codice SQL. L'editor di codice SQL si trova nella sezione Analisi della scheda Analisi della AWS Clean Rooms console.

L'editor di codice SQL viene visualizzato per impostazione predefinita. Se desideri utilizzare il generatore di analisi per creare query, consulta. Esecuzione di interrogazioni con il generatore di analisi

Importante

Se inizi a scrivere una query SQL nell'editor di codice e poi attivi l'interfaccia utente di Analysis Builder, la query non viene salvata.

AWS Clean Rooms supporta molti comandi, funzioni e condizioni SQL. Per ulteriori informazioni, vedere AWS Clean Rooms SQL Reference.

Suggerimento

Se viene eseguita una manutenzione pianificata mentre è in esecuzione una query, la query viene terminata e ripristinata. È necessario riavviare la query.

Per interrogare le tabelle configurate utilizzando l'editor di codice SQL
  1. Accedi a Console di gestione AWS e apri la AWS Clean Rooms console all'indirizzo https://console.aws.amazon.com/cleanrooms.

  2. Nel riquadro di navigazione a sinistra, scegli Collaborazioni.

  3. Scegli la collaborazione per la quale è stato assegnato lo status di Membro Esegui interrogazioni.

  4. Nella scheda Analisi, in Tabelle, visualizza l'elenco delle tabelle e il tipo di regola di analisi associato (regola di analisi di aggregazione, regola di analisi dell'elenco o regola di analisi personalizzata).

    Nota

    Se non vedi le tabelle che ti aspetti nell'elenco, potrebbe essere per i seguenti motivi:

  5. (Facoltativo) Per visualizzare lo schema e i controlli delle regole di analisi della tabella, espandi la tabella selezionando l'icona del segno più (+).

  6. Nella sezione Analisi, per la modalità Analisi, seleziona Scrivi codice SQL.

    Nota

    La sezione Analisi viene visualizzata solo se il membro che può ricevere i risultati e il membro responsabile del pagamento dei costi di elaborazione delle query hanno aderito alla collaborazione come membri attivi.

  7. Crea la query digitandola nell'editor di codice SQL.

    Per ulteriori informazioni sui comandi e le funzioni SQL supportati, consulta AWS Clean Rooms SQL Reference.

    È inoltre possibile utilizzare le seguenti opzioni per creare la query.

    Use an example query

    Per utilizzare una query di esempio

    1. Seleziona i tre punti verticali accanto alla tabella.

    2. In Inserisci nell'editor, scegli Interrogazione di esempio.

      Nota

      L'inserimento di una query di esempio la aggiunge alla query già presente nell'editor.

      Viene visualizzato l'esempio di interrogazione. Tutte le tabelle elencate in Tabelle sono incluse nella query.

    3. Modificate i valori segnaposto nella query.

    Insert column names or functions

    Per inserire il nome o la funzione di una colonna

    1. Seleziona i tre punti verticali accanto a una colonna.

    2. In Inserisci nell'editor, scegli Nome colonna.

    3. Per inserire manualmente una funzione consentita su una colonna,

      1. Seleziona i tre punti verticali accanto a una colonna.

      2. Seleziona Inserisci nell'editor.

      3. Seleziona il nome della funzione consentita (ad esempio INNER JOINSUM,SUM DISTINCT, oCOUNT).

    4. Premi Ctrl + Spazio per visualizzare gli schemi delle tabelle nell'editor di codice.

      Nota

      I membri che possono eseguire query possono visualizzare e utilizzare le colonne delle partizioni in ogni associazione di tabelle configurata. Assicurati che la colonna della partizione sia etichettata come colonna di partizione nella AWS Glue tabella sottostante la tabella configurata.

    5. Modifica i valori segnaposto nella query.

  8. Specificare il tipo di lavoratore supportato e il numero di lavoratori.

    È possibile scegliere il tipo di istanza e il numero di istanze (worker) per eseguire le query SQL.

    Infatti CR.1X, puoi selezionare fino a 128 lavoratori o un minimo di 4 lavoratori.

    Infatti CR.4X, puoi selezionare fino a 32 lavoratori o un minimo di 4 lavoratori.

    Utilizza la tabella seguente per determinare il tipo e il numero di lavoratori necessari per il tuo caso d'uso.

    Tipo di lavoratore VPCU Memoria (GB) Archiviazione (GB) Numero di worker Unità di elaborazione totali per camere bianche (CRPU)
    CR.1X (predefinito) 4 30 100 4 8
    128 256
    CR.4X 16 120 400 4 32
    32 256
    Nota

    I diversi tipi di lavoratori e il numero di lavoratori hanno costi associati. Per ulteriori informazioni sui prezzi, consulta la pagina AWS Clean Rooms dei prezzi.

  9. Per Invia risultati a, specifica chi può ricevere risultati.

    Nota

    Per ricevere risultati, il membro della collaborazione deve essere configurato come destinatario dei risultati e deve essere un partecipante attivo alla collaborazione (Stato: Attivo)

  10. (Solo membro che può eseguire interrogazioni) La casella di controllo Usa le impostazioni dei risultati predefinite è selezionata per impostazione predefinita. Mantieni selezionata questa opzione se desideri mantenere le impostazioni predefinite dei risultati.

    Se desideri specificare impostazioni di risultato diverse per questa query, deseleziona la casella di controllo Usa le impostazioni dei risultati predefinite, quindi scegli quanto segue.

    1. Formato dei risultati (CSV o PARQUET)

    2. File dei risultati (singoli o multipli)

    3. Destinazione dei risultati in Amazon S3

    Ogni membro che può ricevere risultati può specificare un formato di risultato, file di risultati e destinazione dei risultati diversi in Amazon S3.

  11. Per specificare le proprietà di Spark:

    1. Espandi le proprietà di Spark.

    2. Scegli Aggiungi proprietà Spark.

    3. Nella finestra di dialogo delle proprietà di Spark, scegli il nome di una proprietà dall'elenco a discesa e inserisci un valore.

    Le tabelle seguenti forniscono una definizione per ogni proprietà.

    Per ulteriori informazioni sulle proprietà di Spark, consulta Spark Properties nella documentazione di Apache Spark.

    Nota

    Puoi configurare un massimo di 50 proprietà Spark. Il valore di ogni proprietà può contenere fino a 500 caratteri.

    Nome proprietà Description Valore predefinito

    Spark.task.maxFailures

    Controlla quante volte consecutive un'attività può fallire prima che il lavoro fallisca. Richiede un valore maggiore o uguale a 1. Il numero di tentativi consentiti è uguale a questo valore meno 1. Il conteggio degli errori viene azzerato se un tentativo ha esito positivo. Gli errori nelle diverse attività non si accumulano entro questo limite.

    4

    spark.sql.files.max PartitionBytes

    Imposta il numero massimo di byte da comprimere in una singola partizione durante la lettura da fonti basate su file come Parquet, JSON e ORC.

    128 MB

    Spark.Hadoop.fs.s3.max riprova

    Imposta il numero massimo di tentativi di nuovo tentativo per le operazioni sui file di Amazon S3.

    (nessuno)

    spark.network.timeout

    Imposta il timeout predefinito per tutte le interazioni di rete. Sostituisce le seguenti impostazioni di timeout se non sono configurate:

    • spark.storage.block ManagerHeartbeatTimeoutMs

    • spark.shuffle.io.ConnectionTimeout

    • spark.rpc.askTimeout

    • spark.rpc.lookupTimeout

    120 secondi

    spark.rdd.compress

    Speciifica se comprimere le partizioni RDD serializzate utilizzando spark.io.compression.codec. Si applica a StorageLevel.MEMORY _ONLY_SER in Java e Scala o StorageLevel.MEMORY _ONLY in Python. Riduce lo spazio di archiviazione ma richiede tempi di elaborazione della CPU aggiuntivi.

    false

    spark.shuffle.spill.compress

    Speciifica se comprimere i dati relativi alle fuoriuscite casuali utilizzando spark.io.compression.codec.

    true

    spark.shuffle.com/press

    Speciifica se comprimere i file di output delle mappe. La compressione utilizza spark.io.compression.codec.

    true

    spark.shuffle.service.index.cache.size

    Imposta il limite di dimensione della cache, in byte, se non diversamente specificato.

    100 m

    Spark.shuffle.io.max riprova

    Imposta il numero massimo di tentativi per i recuperi che non riescono a causa di eccezioni. IO-related

    3

    spark.shuffle.io.RetryWait

    Imposta il tempo di attesa tra i tentativi di recupero. Il ritardo massimo causato dai nuovi tentativi è di 15 secondi per impostazione predefinita, calcolato come maxRetries * RetryWait.

    5 secondi

    Spark.shuffle.io.ConnectionTimeout

    Imposta il timeout per le connessioni stabilite tra server shuffle e client da contrassegnare come inattive e chiuse se ci sono ancora richieste di recupero in sospeso ma non c'è traffico sul canale.

    (valore di spark.network.timeout)

    spark.driver.max ResultSize

    Imposta il limite di dimensione totale dei risultati serializzati di tutte le partizioni per ogni azione Spark, in byte. Deve essere almeno 1 M o 0 per un numero illimitato.

    1 g

    spark.memory.fraction

    Imposta la frazione di (spazio heap - 300 MB) utilizzata per l'esecuzione e l'archiviazione. Più basso è questo valore, più frequentemente si verificano fuoriuscite ed eliminazione dei dati memorizzati nella cache. Si consiglia di lasciare questo valore al valore predefinito.

    0.6

    spark.scheduler.mode

    Imposta la modalità di pianificazione tra i lavori inviati allo stesso. SparkContext Può essere impostato su FAIR per utilizzare la condivisione equa invece di mettere in coda i lavori uno dopo l'altro. Valori supportati: FAIR, FIFO.

    FIFO

    spark.sql.adaptive.advisory PartitionSizeInBytes

    Imposta la dimensione di destinazione in byte per le partizioni shuffle durante l'ottimizzazione adattiva quando spark.sql.adaptive.enabled è true. Controlla la dimensione della partizione quando si uniscono partizioni piccole o si dividono partizioni inclinate.

    (valore di PostShuffleInputSize spark.sql.adaptive.shuffle.target)

    spark.sql.adaptive.auto BroadcastJoinThreshold

    Imposta la dimensione massima della tabella in byte per la trasmissione ai nodi di lavoro durante i join. Si applica solo in un framework adattivo. Utilizza lo stesso valore predefinito di BroadcastJoinThreshold spark.sql.auto. Imposta su -1 per disabilitare la trasmissione.

    (nessuno)

    spark.sql.adaptive.coalesce Partitions.enabled

    Specifica se unire partizioni shuffle contigue basate su spark.sql.adaptive.advisory per ottimizzare le dimensioni delle attività. PartitionSizeInBytes Richiede che spark.sql.adaptive.enabled sia vero.

    true

    spark.sql.adaptive.coalesce Partitions.initialPartitionNum

    Definisce il numero iniziale di partizioni shuffle prima della coalescenza. Richiede che spark.sql.adaptive.enabled e spark.sql.adaptive.coalesce siano true. Partitions.enabled Il valore predefinito è spark.sql.shuffle.partitions.

    (nessuno)

    spark.sql.adaptive.coalesce Partitions.minPartitionSize

    Imposta la dimensione minima per le partizioni shuffle coalescenti per evitare che diventino troppo piccole durante l'ottimizzazione adattiva.

    1 MB

    spark.sql.adaptive.coalesce Partitions.parallelismFirst

    Specifica se calcolare le dimensioni delle partizioni in base al parallelismo del cluster anziché a spark.sql.adaptive.advisory durante la coalescenza delle partizioni. PartitionSizeInBytes Genera partizioni di dimensioni inferiori rispetto alla dimensione di destinazione configurata per massimizzare il parallelismo. Si consiglia di impostarlo su false nei cluster occupati per migliorare l'utilizzo delle risorse evitando attività troppo piccole.

    true

    spark.sql.adaptive.enabled

    Speciifica se abilitare l'esecuzione adattiva delle query per riottimizzare i piani di interrogazione durante l'esecuzione delle query, sulla base di statistiche di runtime accurate.

    true

    spark.sql.adaptive.force OptimizeSkewedJoin

    Specifica se forzare l'abilitazione anche se introduce uno shuffle aggiuntivo. OptimizeSkewedJoin

    false

    spark.sql.adaptive.local ShuffleReader.enabled

    Speciifica se utilizzare i lettori shuffle locali quando il partizionamento shuffle non è richiesto, ad esempio dopo la conversione da join sort-merge a join broadcast-hash. Richiede che spark.sql.adaptive.enabled sia true.

    true

    spark.sql.adaptive.max ShuffledHashJoinLocalMapThreshold

    Imposta la dimensione massima della partizione in byte per la creazione di mappe hash locali. Assegna la priorità agli hash join mischiati rispetto ai join sort-merge quando:

    • Questo valore è uguale o superiore a spark.sql.adaptive.advisory PartitionSizeInBytes

    • Tutte le dimensioni delle partizioni rientrano in questo limite

    Sostituisce l'impostazione spark.sql.join.prefer. SortMergeJoin

    0 byte

    spark.sql.adaptive.optimize SkewsInRebalancePartitions.enabled

    Specifica se ottimizzare le partizioni shuffle inclinate suddividendole in partizioni più piccole basate su spark.sql.adaptive.advisory. PartitionSizeInBytes Richiede che spark.sql.adaptive.enabled sia true.

    true

    spark.sql.adaptive.rebalance PartitionsSmallPartitionFactor

    Definisce il fattore di soglia dimensionale per l'unione delle partizioni durante la divisione. Le partizioni più piccole di questo fattore moltiplicate per spark.sql.adaptive.advisory vengono unite. PartitionSizeInBytes

    0.2

    spark.sql.adaptive.skew Join.enabled

    Speciifica se gestire l'inclinazione dei dati nei join mescolati suddividendo e, facoltativamente, replicando le partizioni inclinate. Si applica agli hash join di tipo sort-merge e shuffled. Richiede che spark.sql.adaptive.enabled sia vero.

    true

    spark.sql.adaptive.skew Join.skewedPartitionFactor

    Determina il fattore di dimensione che determina l'inclinazione della partizione. Una partizione è inclinata quando la sua dimensione supera entrambe le dimensioni:

    • Questo fattore viene moltiplicato per la dimensione media della partizione

    • Il valore di spark.sql.adaptive.skew Join.skewedPartitionThresholdInBytes

    5

    spark.sql.adaptive.skew Join.skewedPartitionThresholdInBytes

    Imposta la soglia di dimensione in byte per identificare le partizioni inclinate. Una partizione è inclinata quando la sua dimensione supera entrambe:

    • Questa soglia

    • La dimensione mediana della partizione moltiplicata per spark.sql.adaptive.skew Join.skewedPartitionFactor

    Consigliamo di impostare questo valore più grande di spark.sql.adaptive.advisory. PartitionSizeInBytes

    256 MB

    Spark.sql.BroadcastTimeout

    Controlla il periodo di timeout in secondi per le operazioni di trasmissione durante i join di trasmissione.

    300 secondi

    spark.sql.cbo.enabled

    Speciifica se abilitare l'ottimizzazione basata sui costi (CBO) per la stima delle statistiche del piano.

    false

    spark.sql.cbo.join Reorder.dp.star.filter

    Speciifica se applicare l'euristica del filtro star-join durante l'enumerazione dei join basata sui costi.

    false

    spark.sql.cbo.join Reorder.dp.threshold

    Imposta il numero massimo di nodi uniti consentiti nell'algoritmo di programmazione dinamica.

    12

    spark.sql.cbo.join Reorder.enabled

    Speciifica se abilitare il riordino dei join nell'ottimizzazione basata sui costi (CBO).

    false

    spark.sql.cbo.plan Stats.enabled

    Speciifica se recuperare il conteggio delle righe e le statistiche delle colonne dal catalogo durante la generazione del piano logico.

    false

    spark.sql.cbo.star SchemaDetection

    Specifica se abilitare il riordino dei join in base al rilevamento dello schema a stella.

    false

    spark.sql.files.max PartitionNum

    Imposta il numero massimo di partizioni di file suddivise per sorgenti basate su file (Parquet, JSON e ORC). Ridimensiona le partizioni quando il conteggio iniziale supera questo valore. Si tratta di un obiettivo consigliato, non di un limite garantito.

    (nessuno)

    spark.sql.files.max RecordsPerFile

    Imposta il numero massimo di record da scrivere su un singolo file. Nessun limite si applica se impostato su zero o su un valore negativo.

    0

    spark.sql.files.min PartitionNum

    Imposta il numero minimo di partizioni di file suddivise per sorgenti basate su file (Parquet, JSON e ORC). Il NodeDefaultParallelism valore predefinito è spark.sql.leaf. Questo è un obiettivo consigliato, non un limite garantito.

    (nessuno)

    spark.sql.in MemoryColumnarStorage.batchSize

    Controlla la dimensione del batch per la memorizzazione nella cache colonnare. L'aumento delle dimensioni migliora l'utilizzo e la compressione della memoria, ma aumenta il rischio di errori di esaurimento della memoria.

    10000

    spark.sql.in MemoryColumnarStorage.compressed

    Speciifica se selezionare automaticamente i codec di compressione per le colonne in base alle statistiche dei dati.

    true

    spark.sql.in MemoryColumnarStorage.enableVectorizedReader

    Specifica se abilitare la lettura vettoriale per la memorizzazione nella cache colonnare.

    true

    spark.sql.legacy.allow HashOnMapType

    Speciifica se consentire le operazioni di hash su strutture di dati di tipo mappa. Questa impostazione precedente mantiene la compatibilità con la gestione dei tipi di mappa delle versioni precedenti di Spark.

    (nessuno)

    spark.sql.legacy.allow NegativeScaleOfDecimal

    Speciifica se consentire valori di scala negativi nelle definizioni dei tipi decimali. Questa impostazione precedente mantiene la compatibilità con le versioni precedenti di Spark che supportavano scale decimali negative.

    (nessuno)

    spark.sql.legacy.cast ComplexTypesToString.enabled

    Specifica se abilitare il comportamento legacy per trasmettere tipi complessi alle stringhe. Mantiene la compatibilità con le regole di conversione dei tipi delle versioni precedenti di Spark.

    (nessuno)

    spark.sql.legacy.char VarcharAsString

    Speciifica se trattare i tipi CHAR e VARCHAR come tipi STRING. Questa impostazione legacy garantisce la compatibilità con la gestione dei tipi di stringa delle versioni precedenti di Spark.

    (nessuno)

    spark.sql.legacy.create EmptyCollectionUsingStringType

    Speciifica se creare raccolte vuote utilizzando elementi di tipo stringa. Questa impostazione legacy mantiene la compatibilità con il comportamento di inizializzazione delle raccolte delle versioni precedenti di Spark.

    (nessuno)

    spark.sql.legacy.exponent LiteralAsDecimal.enabled

    Speciifica se interpretare i valori letterali esponenziali come tipi decimali. Questa impostazione precedente mantiene la compatibilità con la gestione letterale numerica delle versioni precedenti di Spark.

    (nessuno)

    spark.sql.legacy.json.allow EmptyString.enabled

    Specifica se consentire l'utilizzo di stringhe vuote nell'elaborazione JSON. Questa impostazione legacy mantiene la compatibilità con il comportamento di analisi JSON delle versioni precedenti di Spark.

    (nessuno)

    spark.sql.legacy.parquet.int96 RebaseModelRead

    Specifica se utilizzare la modalità di rebase timestamp INT96 legacy durante la lettura dei file Parquet. Questa impostazione precedente mantiene la compatibilità con la gestione dei timestamp delle versioni precedenti di Spark.

    (nessuno)

    spark.sql.legacy.time ParserPolicy

    Controlla il comportamento di analisi temporale per la compatibilità con le versioni precedenti. Questa impostazione precedente determina il modo in cui i timestamp e le date vengono analizzati dalle stringhe.

    (nessuno)

    spark.sql.legacy.type Coercion.datetimeToString.enabled

    Speciifica se abilitare il comportamento di coercizione di tipo legacy durante la conversione dei valori datetime in stringhe. Mantiene la compatibilità con le regole di conversione datetime delle versioni precedenti di Spark.

    (nessuno)

    spark.sql.max SinglePartitionBytes

    Imposta la dimensione massima della partizione in byte. Il planner introduce le operazioni di shuffle per partizioni più grandi per migliorare il parallelismo.

    128 m

    Spark.sql.metadataCachettl secondi

    Controlla il time-to-live (TTL) per le cache dei metadati. Si applica ai metadati dei file di partizione e alle cache del catalogo delle sessioni. Richiede:

    • Un valore positivo maggiore di zero

    • spark.sql.CatalogImplementation impostato su hive

    • PartitionFileCacheSize spark.sql.hive.filesource maggiore di zero

    • spark.sql.hive.manage impostato su FilesourcePartitions true

    -1000 ms

    spark.sql.optimizer.collapse ProjectAlwaysInline

    Speciifica se comprimere le proiezioni adiacenti e le espressioni in linea, anche quando ciò causa la duplicazione.

    false

    spark.sql.optimizer.dynamic PartitionPruning.enabled

    Speciifica se generare predicati per le colonne di partizione utilizzate come chiavi di unione.

    true

    spark.sql.optimizer.enable CsvExpressionOptimization

    Speciifica se ottimizzare le espressioni CSV in SQL Optimizer eliminando le colonne non necessarie dalle operazioni from_csv.

    true

    spark.sql.optimizer.enable JsonExpressionOptimization

    Speciifica se ottimizzare le espressioni JSON in SQL Optimizer mediante:

    • Eliminazione delle colonne non necessarie dalle operazioni from_json

    • Semplificazione delle combinazioni from_json e to_json

    • Ottimizzazione delle operazioni named_struct

    true

    spark.sql.optimizer.ExcludedRules

    Definisce le regole di ottimizzazione da disabilitare, identificate da nomi di regole separati da virgole. Alcune regole non possono essere disabilitate in quanto sono necessarie per la correttezza. L'ottimizzatore registra quali regole sono state disabilitate correttamente.

    (nessuno)

    spark.sql.optimizer.runtime.bloom Filter.applicationSideScanSizeThreshold

    Imposta la dimensione minima della scansione aggregata in byte richiesta per iniettare un filtro Bloom sul lato dell'applicazione.

    10 GB

    spark.sql.optimizer.runtime.bloom Filter.creationSideThreshold

    Definisce la soglia di dimensione massima per l'iniezione di un filtro Bloom sul lato di creazione.

    10 MB

    spark.sql.optimizer.runtime.bloom Filter.enabled

    Speciifica se inserire un filtro Bloom per ridurre i dati di shuffle quando un lato di uno shuffle join ha un predicato selettivo.

    true

    spark.sql.optimizer.runtime.bloom Filter.expectedNumItems

    Definisce il numero predefinito di elementi previsti nel filtro Bloom di runtime.

    1000000

    spark.sql.optimizer.runtime.bloom Filter.maxNumBits

    Imposta il numero massimo di bit consentiti nel filtro Bloom di runtime.

    67108864

    spark.sql.optimizer.runtime.bloom Filter.maxNumItems

    Imposta il numero massimo di elementi previsti consentiti nel filtro Bloom di runtime.

    4000000

    spark.sql.optimizer.runtime.bloom Filter.numBits

    Definisce il numero predefinito di bit utilizzati nel filtro Bloom di runtime.

    8388608

    spark.sql.optimizer.runtime.rowlevel OperationGroupFilter.enabled

    Speciifica se abilitare il filtraggio dei gruppi di runtime per le operazioni a livello di riga. Consente alle fonti di dati di:

    • Elimina interi gruppi di dati (come file o partizioni) utilizzando i filtri delle fonti di dati

    • Esegui query di runtime per identificare i record corrispondenti

    • Elimina i gruppi non necessari per evitare costose riscritture

    Restrizioni:

    • Non tutte le espressioni possono essere convertite in filtri di origine dati

    • Alcune espressioni richiedono la valutazione di Spark (come le sottoquery)

    true

    spark.sql.optimizer.runtime Filter.number.threshold

    Imposta il numero totale di filtri di runtime iniettati (non DPP). Questo serve a evitare che gli OOM dei driver contengano troppi filtri Bloom.

    10

    spark.sql.optimizer.runtime Filter.semiJoinReduction.enabled

    Speciifica se inserire un semi-join per ridurre i dati shuffle quando un lato di uno shuffle join ha un predicato selettivo.

    false

    Spark.sql.parquet.aggregatePushdown

    Speciifica se inviare gli aggregati a Parquet per l'ottimizzazione. Supporti:

    • MIN e MAX per i tipi booleano, intero, float e data

    • COUNT per tutti i tipi di dati

    Genera un'eccezione se le statistiche non sono presenti nel piè di pagina di un file Parquet.

    false

    spark.sql.parquet.columnar ReaderBatchSize

    Controlla il numero di righe in ogni batch di lettori vettorializzati di Parquet. Scegliete un valore che bilanci il sovraccarico prestazionale e l'utilizzo della memoria per evitare errori di esaurimento della memoria.

    4096

    spark.sql.parquet.enable VectorizedReader

    Specifica se abilitare la decodifica vettoriale di Parquet.

    true

    spark.sql.shuffle.partitions

    Imposta il numero predefinito di partizioni per lo shuffling dei dati durante le unioni o le aggregazioni. Non può essere modificato tra il riavvio di una query di streaming strutturata dalla stessa posizione di checkpoint.

    200

    spark.sql.shuffled HashJoinFactor

    Definisce il fattore di moltiplicazione utilizzato per determinare l'idoneità allo shuffle hash join. Uno shuffle hash join viene selezionato quando la dimensione dei dati su lato piccolo moltiplicata per questo fattore è inferiore alla dimensione dei dati su lato grande.

    3

    spark.sql.sources.parallel PartitionDiscovery.threshold

    Imposta il numero massimo di percorsi per l'elenco dei file lato driver con fonti basate su file (Parquet, JSON e ORC). Se viene superato durante il rilevamento delle partizioni, i file vengono elencati utilizzando un job distribuito Spark separato.

    32

    spark.sql.statistics.histogram.enabled

    Speciifica se generare istogrammi di altezza equa durante il calcolo delle statistiche sulle colonne per migliorare l'accuratezza della stima. Richiede una scansione della tabella aggiuntiva oltre a quella necessaria per le statistiche di base sulle colonne.

    false

    spark.dynamic Allocation.executorIdleTimeout

    Imposta la durata in cui un esecutore deve rimanere inattivo prima di essere rimosso quando l'allocazione dinamica è abilitata.

    anni '60

    scintilla. dinamica Allocation.schedulerBacklogTimeout

    Imposta la durata per cui le attività in sospeso devono essere archiviate prima che vengano richiesti nuovi esecutori quando l'allocazione dinamica è abilitata.

    1s

    spark.dynamic Allocation.sustainedSchedulerBacklogTimeout

    Uguale a spark.dynamicAllocation.schedulerBacklogTimeout, ma utilizzato solo per le successive richieste dell'esecutore.

    (valore di spark.dynamic) Allocation.schedulerBacklogTimeout

    spark.scheduler.min RegisteredResourcesRatio

    Imposta il rapporto minimo tra risorse registrate (risorse registrate/ risorse totali previste) da attendere prima dell'inizio della pianificazione. Specificato come doppio tra 0,0 e 1,0. Indipendentemente dal fatto che sia stato raggiunto il rapporto minimo di risorse, il tempo massimo di attesa prima dell'inizio della pianificazione è controllato da spark.scheduler.max. RegisteredResourcesWaitingTime

    0.8

    spark.scheduler.max RegisteredResourcesWaitingTime

    Imposta il tempo massimo di attesa per la registrazione delle risorse prima dell'inizio della pianificazione.

    30 secondi

    spark.sql.hive.metastore PartitionPruningFallbackOnException

    Specifica se ricorrere al recupero di tutte le partizioni dal metastore di Hive ed eseguire l'eliminazione delle partizioni sul lato client Spark quando vengono rilevate dal metastore. MetaException

    false

    Nome proprietà Description Valore predefinito

    spark.sql.auto BroadcastJoinThreshold

    Imposta la dimensione massima della tabella in byte per la trasmissione ai nodi di lavoro durante i join. Imposta su -1 per disabilitare la trasmissione.

    10 MB (-1 per 32 CR.4X lavoratori)

    spark.dynamic Allocation.enabled

    Speciifica se utilizzare l'allocazione dinamica delle risorse, che aumenta e riduce il numero di esecutori registrati con questa applicazione in base al carico di lavoro.

    true

    spark.io.compression.codec

    Imposta il codec usato per comprimere dati interni come partizioni RDD, registro eventi, variabili di trasmissione e uscite casuali. Valori supportati: lz4, snappy, zstd, gzip.

    snappy

    spark.sql.session.Timezone

    Definisce il fuso orario della sessione per la gestione dei timestamp nelle stringhe letterali e nella conversione degli oggetti Java. Accetta:

    • Region-based ID in area/city formato (come America/Los _Angeles)

    • Offset di zona in HH:mm:ss formato (+/-) HH, (+/-) HH:mm o (+/-) (ad esempio -08 o + 01:00)

    • UTC o Z come alias per + 00:00

    UTC

  12. (Facoltativo) Per Compute payer, seleziona il membro della collaborazione che paga i costi di elaborazione delle query.

    Nota

    Se nella collaborazione c'è un solo candidato pagante per il calcolo delle query, il valore predefinito è quel pagante.

  13. Scegli Esegui.

    Nota

    Non è possibile eseguire la query se il membro che può ricevere i risultati non ha configurato le impostazioni dei risultati della query.

  14. Visualizza i risultati.

    Per ulteriori informazioni, consulta Ricezione e utilizzo dei risultati delle analisi.

  15. Continua a modificare i parametri ed esegui nuovamente la query oppure scegli il pulsante + per iniziare una nuova query in una nuova scheda.

Nota

AWS Clean Rooms mira a fornire messaggi di errore chiari. Se un messaggio di errore non contiene dettagli sufficienti per aiutarti a risolvere il problema, contatta il team dell'account. Fornisci loro una descrizione di come si è verificato l'errore e il messaggio di errore (inclusi eventuali identificatori). Per ulteriori informazioni, consulta Risoluzione dei problemi AWS Clean Rooms.