Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creazione di un canale di input ML in AWS Clean Rooms ML
Prerequisiti:
-
E con accesso a Account AWS AWS Clean Rooms
-
Una configurazione di collaborazione in AWS Clean Rooms cui si desidera creare il canale di input ML
-
Autorizzazioni per interrogare i dati e creare canali di input ML nella collaborazione.
-
(Facoltativo) Un algoritmo modello esistente da associare al canale di input ML o autorizzazioni per crearne uno nuovo
-
(Facoltativo) Tabelle con regole di analisi che possono essere eseguite per il modello specificato.
-
(Facoltativo) Una query SQL esistente o un modello di analisi da utilizzare per generare il set di dati
-
(Facoltativo) Un ruolo di servizio esistente con le autorizzazioni appropriate o le autorizzazioni per creare un nuovo ruolo di servizio
-
(Facoltativo) Una AWS KMS chiave personalizzata se desideri utilizzare la tua chiave di crittografia
-
Autorizzazioni appropriate per creare e gestire modelli ML nell'ambito della collaborazione
Un canale di input ML è un set di dati creato da una specifica query di dati. I membri con la capacità di interrogare i dati possono preparare i propri dati per la formazione e l'inferenza creando un canale di input ML. La creazione di un canale di input ML consente di utilizzare tali dati in diversi modelli di formazione all'interno della stessa collaborazione. È necessario creare canali di input ML separati per l'addestramento e l'inferenza.
Per creare un canale di input ML, è necessario specificare la query SQL utilizzata per interrogare i dati di input e creare il canale di input ML. I risultati di questa query non vengono mai condivisi con nessun membro e rimangono entro i limiti di Clean Rooms ML. Il riferimento Amazon Resource Name (ARN) viene utilizzato nei passaggi successivi per addestrare un modello o eseguire un'inferenza.
- Console
-
Per creare un canale di input ML (console)
-
Accedi a Console di gestione AWS e apri la AWS Clean Rooms console all'indirizzo https://console.aws.amazon.com/cleanrooms
. -
Nel riquadro di navigazione a sinistra, scegli Collaborazioni.
-
Nella pagina Collaborazioni, scegli la collaborazione in cui desideri creare un canale di input ML.
-
Dopo l'apertura della collaborazione, scegli la scheda Modelli ML.
-
In Modelli ML personalizzati, nella sezione Canali di input ML, scegli Crea canale di input ML.
-
Nella pagina Crea canale di ingresso ML, per i dettagli del canale di ingresso ML, procedi come segue:
-
In Nome, inserisci un nome univoco per il tuo canale.
-
(Facoltativo) In Descrizione, inserisci una descrizione del tuo canale.
-
Per Algoritmo del modello associato, selezionate l'algoritmo da utilizzare.
Scegli Associa un algoritmo del modello per aggiungerne uno nuovo.
-
-
Per Dataset, scegli un metodo per generare il set di dati di addestramento:
-
Scegliete una query SQL per utilizzare i risultati di una query SQL come set di dati di addestramento.
Se hai scelto una query SQL, inserisci la tua query nel campo Query SQL.
(Facoltativo) Per importare una query che hai usato di recente, scegli Importa da query recenti.
-
Scegli Modello di analisi per utilizzare i risultati di un modello di analisi come set di dati di addestramento.
avvertimento
La generazione di dati sintetici protegge dall'inferire attributi individuali se nel set di dati originale sono presenti individui specifici o se sono presenti gli attributi di apprendimento di tali individui. Tuttavia, non impedisce che i valori letterali del set di dati originale, comprese le informazioni di identificazione personale (PII), compaiano nel set di dati sintetico.
Consigliamo di evitare valori nel set di dati di input associati a un solo interessato, poiché potrebbero identificare nuovamente un interessato. Ad esempio, se un solo utente vive in un codice postale, la presenza di quel codice postale nel set di dati sintetico confermerebbe che l'utente era nel set di dati originale. Per mitigare questo rischio è possibile utilizzare tecniche come il tronco di valori ad alta precisione o la sostituzione di cataloghi non comuni con altri. Queste trasformazioni possono far parte della query utilizzata per creare il canale di input ML.
-
Se non è associata alcuna tabella, scegliete Associa tabella per aggiungere tabelle con una regola di analisi che può essere eseguita per il modello specificato.
-
Scegli il tipo di lavoratore da utilizzare durante la creazione di questo canale dati. Il tipo di lavoratore predefinito è CR.1X. Specificare il numero di lavoratori da utilizzare. Il numero di lavoratori predefinito è 16. Per specificare le proprietà di Spark:
-
Espandi le proprietà di Spark.
-
Scegli Aggiungi proprietà Spark.
-
Nella finestra di dialogo delle proprietà di Spark, scegli il nome di una proprietà dall'elenco a discesa e inserisci un valore.
Le tabelle seguenti forniscono una definizione per ogni proprietà.
Per ulteriori informazioni sulle proprietà di Spark, consulta Spark Properties nella documentazione
di Apache Spark. Nota
Puoi configurare un massimo di 50 proprietà Spark. Il valore di ogni proprietà può contenere fino a 500 caratteri.
Nome proprietà Description Valore predefinito spark.task.maxFailures
Controlla quante volte consecutive un'attività può fallire prima che il lavoro fallisca. Richiede un valore maggiore o uguale a 1. Il numero di tentativi consentiti è uguale a questo valore meno 1. Il conteggio degli errori viene azzerato se un tentativo ha esito positivo. Gli errori nelle diverse attività non si accumulano entro questo limite.
4
spark.sql.files.max PartitionBytes
Imposta il numero massimo di byte da comprimere in una singola partizione durante la lettura da fonti basate su file come Parquet, JSON e ORC.
128 MB
Spark.Hadoop.fs.s3.max riprova
Imposta il numero massimo di tentativi di nuovo tentativo per le operazioni sui file di Amazon S3.
(nessuno)
spark.network.timeout
Imposta il timeout predefinito per tutte le interazioni di rete. Sostituisce le seguenti impostazioni di timeout se non sono configurate:
-
spark.storage.block ManagerHeartbeatTimeoutMs
-
spark.shuffle.io.ConnectionTimeout
-
spark.rpc.askTimeout
-
spark.rpc.lookupTimeout
120 secondi
spark.rdd.compress
Speciifica se comprimere le partizioni RDD serializzate utilizzando spark.io.compression.codec. Si applica a StorageLevel.MEMORY _ONLY_SER in Java e Scala o StorageLevel.MEMORY _ONLY in Python. Riduce lo spazio di archiviazione ma richiede tempi di elaborazione della CPU aggiuntivi.
false
spark.shuffle.spill.compress
Speciifica se comprimere i dati relativi alle fuoriuscite casuali utilizzando spark.io.compression.codec.
true
spark.shuffle.com/press
Speciifica se comprimere i file di output delle mappe. La compressione utilizza spark.io.compression.codec.
true
spark.shuffle.service.index.cache.size
Imposta il limite di dimensione della cache, in byte, se non diversamente specificato.
100 m
Spark.shuffle.io.max riprova
Imposta il numero massimo di tentativi per i recuperi che non riescono a causa di eccezioni. IO-related
3
spark.shuffle.io.RetryWait
Imposta il tempo di attesa tra i tentativi di recupero. Il ritardo massimo causato dai nuovi tentativi è di 15 secondi per impostazione predefinita, calcolato come maxRetries * RetryWait.
5 secondi
Spark.shuffle.io.ConnectionTimeout
Imposta il timeout per le connessioni stabilite tra server shuffle e client da contrassegnare come inattive e chiuse se ci sono ancora richieste di recupero in sospeso ma non c'è traffico sul canale.
(valore di spark.network.timeout)
spark.driver.max ResultSize
Imposta il limite di dimensione totale dei risultati serializzati di tutte le partizioni per ogni azione Spark, in byte. Deve essere almeno 1 M o 0 per un numero illimitato.
1 g
spark.memory.fraction
Imposta la frazione di (spazio heap - 300 MB) utilizzata per l'esecuzione e l'archiviazione. Più basso è questo valore, più frequentemente si verificano fuoriuscite ed eliminazione dei dati memorizzati nella cache. Si consiglia di lasciare questo valore al valore predefinito.
0.6
spark.scheduler.mode
Imposta la modalità di pianificazione tra i lavori inviati allo stesso. SparkContext Può essere impostato su FAIR per utilizzare la condivisione equa invece di mettere in coda i lavori uno dopo l'altro. Valori supportati: FAIR, FIFO.
FIFO
spark.sql.adaptive.advisory PartitionSizeInBytes
Imposta la dimensione di destinazione in byte per le partizioni shuffle durante l'ottimizzazione adattiva quando spark.sql.adaptive.enabled è true. Controlla la dimensione della partizione quando si uniscono partizioni piccole o si dividono partizioni inclinate.
(valore di PostShuffleInputSize spark.sql.adaptive.shuffle.target)
spark.sql.adaptive.auto BroadcastJoinThreshold
Imposta la dimensione massima della tabella in byte per la trasmissione ai nodi di lavoro durante i join. Si applica solo in un framework adattivo. Utilizza lo stesso valore predefinito di BroadcastJoinThreshold spark.sql.auto. Imposta su -1 per disabilitare la trasmissione.
(nessuno)
spark.sql.adaptive.coalesce Partitions.enabled
Specifica se unire partizioni shuffle contigue basate su spark.sql.adaptive.advisory per ottimizzare le dimensioni delle attività. PartitionSizeInBytes Richiede che spark.sql.adaptive.enabled sia vero.
true
spark.sql.adaptive.coalesce Partitions.initialPartitionNum
Definisce il numero iniziale di partizioni shuffle prima della coalescenza. Richiede che spark.sql.adaptive.enabled e spark.sql.adaptive.coalesce siano true. Partitions.enabled Il valore predefinito è spark.sql.shuffle.partitions.
(nessuno)
spark.sql.adaptive.coalesce Partitions.minPartitionSize
Imposta la dimensione minima per le partizioni shuffle coalescenti per evitare che diventino troppo piccole durante l'ottimizzazione adattiva.
1 MB
spark.sql.adaptive.coalesce Partitions.parallelismFirst
Specifica se calcolare le dimensioni delle partizioni in base al parallelismo del cluster anziché a spark.sql.adaptive.advisory durante la coalescenza delle partizioni. PartitionSizeInBytes Genera partizioni di dimensioni inferiori rispetto alla dimensione di destinazione configurata per massimizzare il parallelismo. Si consiglia di impostarlo su false nei cluster occupati per migliorare l'utilizzo delle risorse evitando attività troppo piccole.
true
spark.sql.adaptive.enabled
Speciifica se abilitare l'esecuzione adattiva delle query per riottimizzare i piani di query durante l'esecuzione delle query, sulla base di statistiche di runtime accurate.
true
spark.sql.adaptive.force OptimizeSkewedJoin
Specifica se forzare l'abilitazione anche se introduce uno shuffle aggiuntivo. OptimizeSkewedJoin
false
spark.sql.adaptive.local ShuffleReader.enabled
Speciifica se utilizzare i lettori shuffle locali quando il partizionamento shuffle non è richiesto, ad esempio dopo la conversione da join sort-merge a join broadcast-hash. Richiede che spark.sql.adaptive.enabled sia true.
true
spark.sql.adaptive.max ShuffledHashJoinLocalMapThreshold
Imposta la dimensione massima della partizione in byte per la creazione di mappe hash locali. Assegna la priorità agli hash join mischiati rispetto ai join sort-merge quando:
-
Questo valore è uguale o superiore a spark.sql.adaptive.advisory PartitionSizeInBytes
-
Tutte le dimensioni delle partizioni rientrano in questo limite
Sostituisce l'impostazione spark.sql.join.prefer. SortMergeJoin
0 byte
spark.sql.adaptive.optimize SkewsInRebalancePartitions.enabled
Specifica se ottimizzare le partizioni shuffle inclinate suddividendole in partizioni più piccole basate su spark.sql.adaptive.advisory. PartitionSizeInBytes Richiede che spark.sql.adaptive.enabled sia true.
true
spark.sql.adaptive.rebalance PartitionsSmallPartitionFactor
Definisce il fattore di soglia dimensionale per l'unione delle partizioni durante la divisione. Le partizioni più piccole di questo fattore moltiplicate per spark.sql.adaptive.advisory vengono unite. PartitionSizeInBytes
0.2
spark.sql.adaptive.skew Join.enabled
Speciifica se gestire l'inclinazione dei dati nei join mescolati suddividendo e, facoltativamente, replicando le partizioni inclinate. Si applica agli hash join di tipo sort-merge e shuffled. Richiede che spark.sql.adaptive.enabled sia vero.
true
spark.sql.adaptive.skew Join.skewedPartitionFactor
Determina il fattore di dimensione che determina l'inclinazione della partizione. Una partizione è inclinata quando le sue dimensioni superano entrambe le partizioni:
-
Questo fattore viene moltiplicato per la dimensione media della partizione
-
Il valore di spark.sql.adaptive.skew Join.skewedPartitionThresholdInBytes
5
spark.sql.adaptive.skew Join.skewedPartitionThresholdInBytes
Imposta la soglia di dimensione in byte per identificare le partizioni inclinate. Una partizione è inclinata quando la sua dimensione supera entrambe:
-
Questa soglia
-
La dimensione mediana della partizione moltiplicata per spark.sql.adaptive.skew Join.skewedPartitionFactor
Consigliamo di impostare questo valore più grande di spark.sql.adaptive.advisory. PartitionSizeInBytes
256 MB
Spark.sql.BroadcastTimeout
Controlla il periodo di timeout in secondi per le operazioni di trasmissione durante i join di trasmissione.
300 secondi
spark.sql.cbo.enabled
Speciifica se abilitare l'ottimizzazione basata sui costi (CBO) per la stima delle statistiche del piano.
false
spark.sql.cbo.join Reorder.dp.star.filter
Speciifica se applicare l'euristica del filtro star-join durante l'enumerazione dei join basata sui costi.
false
spark.sql.cbo.join Reorder.dp.threshold
Imposta il numero massimo di nodi uniti consentiti nell'algoritmo di programmazione dinamica.
12
spark.sql.cbo.join Reorder.enabled
Speciifica se abilitare il riordino dei join nell'ottimizzazione basata sui costi (CBO).
false
spark.sql.cbo.plan Stats.enabled
Speciifica se recuperare il conteggio delle righe e le statistiche delle colonne dal catalogo durante la generazione del piano logico.
false
spark.sql.cbo.star SchemaDetection
Specifica se abilitare il riordino dei join in base al rilevamento dello schema a stella.
false
spark.sql.files.max PartitionNum
Imposta il numero massimo di partizioni di file suddivise per sorgenti basate su file (Parquet, JSON e ORC). Ridimensiona le partizioni quando il conteggio iniziale supera questo valore. Si tratta di un obiettivo consigliato, non di un limite garantito.
(nessuno)
spark.sql.files.max RecordsPerFile
Imposta il numero massimo di record da scrivere su un singolo file. Nessun limite si applica se impostato su zero o su un valore negativo.
0
spark.sql.files.min PartitionNum
Imposta il numero minimo di partizioni di file suddivise per sorgenti basate su file (Parquet, JSON e ORC). Il NodeDefaultParallelism valore predefinito è spark.sql.leaf. Questo è un obiettivo consigliato, non un limite garantito.
(nessuno)
spark.sql.in MemoryColumnarStorage.batchSize
Controlla la dimensione del batch per la memorizzazione nella cache colonnare. L'aumento delle dimensioni migliora l'utilizzo e la compressione della memoria, ma aumenta il rischio di errori di esaurimento della memoria.
10000
spark.sql.in MemoryColumnarStorage.compressed
Speciifica se selezionare automaticamente i codec di compressione per le colonne in base alle statistiche dei dati.
true
spark.sql.in MemoryColumnarStorage.enableVectorizedReader
Speciifica se abilitare la lettura vettoriale per la memorizzazione nella cache colonnare.
true
spark.sql.legacy.allow HashOnMapType
Speciifica se consentire le operazioni di hash su strutture di dati di tipo mappa. Questa impostazione precedente mantiene la compatibilità con la gestione dei tipi di mappa delle versioni precedenti di Spark.
(nessuno)
spark.sql.legacy.allow NegativeScaleOfDecimal
Speciifica se consentire valori di scala negativi nelle definizioni dei tipi decimali. Questa impostazione precedente mantiene la compatibilità con le versioni precedenti di Spark che supportavano scale decimali negative.
(nessuno)
spark.sql.legacy.cast ComplexTypesToString.enabled
Specifica se abilitare il comportamento legacy per trasmettere tipi complessi alle stringhe. Mantiene la compatibilità con le regole di conversione dei tipi delle versioni precedenti di Spark.
(nessuno)
spark.sql.legacy.char VarcharAsString
Speciifica se trattare i tipi CHAR e VARCHAR come tipi STRING. Questa impostazione legacy garantisce la compatibilità con la gestione dei tipi di stringa delle versioni precedenti di Spark.
(nessuno)
spark.sql.legacy.create EmptyCollectionUsingStringType
Speciifica se creare raccolte vuote utilizzando elementi di tipo stringa. Questa impostazione legacy mantiene la compatibilità con il comportamento di inizializzazione delle raccolte delle versioni precedenti di Spark.
(nessuno)
spark.sql.legacy.exponent LiteralAsDecimal.enabled
Speciifica se interpretare i valori letterali esponenziali come tipi decimali. Questa impostazione precedente mantiene la compatibilità con la gestione letterale numerica delle versioni precedenti di Spark.
(nessuno)
spark.sql.legacy.json.allow EmptyString.enabled
Speciifica se consentire stringhe vuote nell'elaborazione JSON. Questa impostazione legacy mantiene la compatibilità con il comportamento di analisi JSON delle versioni precedenti di Spark.
(nessuno)
spark.sql.legacy.parquet.int96 RebaseModelRead
Specifica se utilizzare la modalità di rebase timestamp INT96 legacy durante la lettura dei file Parquet. Questa impostazione precedente mantiene la compatibilità con la gestione dei timestamp delle versioni precedenti di Spark.
(nessuno)
spark.sql.legacy.time ParserPolicy
Controlla il comportamento di analisi temporale per la compatibilità con le versioni precedenti. Questa impostazione precedente determina il modo in cui i timestamp e le date vengono analizzati dalle stringhe.
(nessuno)
spark.sql.legacy.type Coercion.datetimeToString.enabled
Speciifica se abilitare il comportamento di coercizione di tipo legacy durante la conversione dei valori datetime in stringhe. Mantiene la compatibilità con le regole di conversione datetime delle versioni precedenti di Spark.
(nessuno)
spark.sql.max SinglePartitionBytes
Imposta la dimensione massima della partizione in byte. Il planner introduce le operazioni di shuffle per partizioni più grandi per migliorare il parallelismo.
128 m
Spark.sql.metadataCachettl secondi
Controlla il time-to-live (TTL) per le cache dei metadati. Si applica ai metadati dei file di partizione e alle cache del catalogo delle sessioni. Richiede:
-
Un valore positivo maggiore di zero
-
spark.sql.CatalogImplementation impostato su hive
-
PartitionFileCacheSize spark.sql.hive.filesource maggiore di zero
-
spark.sql.hive.manage impostato su FilesourcePartitions true
-1000 ms
spark.sql.optimizer.collapse ProjectAlwaysInline
Speciifica se comprimere le proiezioni adiacenti e le espressioni in linea, anche quando ciò causa la duplicazione.
false
spark.sql.optimizer.dynamic PartitionPruning.enabled
Speciifica se generare predicati per le colonne di partizione utilizzate come chiavi di unione.
true
spark.sql.optimizer.enable CsvExpressionOptimization
Speciifica se ottimizzare le espressioni CSV in SQL Optimizer eliminando le colonne non necessarie dalle operazioni from_csv.
true
spark.sql.optimizer.enable JsonExpressionOptimization
Speciifica se ottimizzare le espressioni JSON in SQL Optimizer mediante:
-
Eliminazione delle colonne non necessarie dalle operazioni from_json
-
Semplificazione delle combinazioni from_json e to_json
-
Ottimizzazione delle operazioni named_struct
true
spark.sql.optimizer.ExcludedRules
Definisce le regole di ottimizzazione da disabilitare, identificate da nomi di regole separati da virgole. Alcune regole non possono essere disabilitate in quanto sono necessarie per la correttezza. L'ottimizzatore registra quali regole sono state disabilitate correttamente.
(nessuno)
spark.sql.optimizer.runtime.bloom Filter.applicationSideScanSizeThreshold
Imposta la dimensione minima della scansione aggregata in byte richiesta per iniettare un filtro Bloom sul lato dell'applicazione.
10 GB
spark.sql.optimizer.runtime.bloom Filter.creationSideThreshold
Definisce la soglia di dimensione massima per l'iniezione di un filtro Bloom sul lato di creazione.
10 MB
spark.sql.optimizer.runtime.bloom Filter.enabled
Speciifica se inserire un filtro Bloom per ridurre i dati di shuffle quando un lato di uno shuffle join ha un predicato selettivo.
true
spark.sql.optimizer.runtime.bloom Filter.expectedNumItems
Definisce il numero predefinito di elementi previsti nel filtro Bloom di runtime.
1000000
spark.sql.optimizer.runtime.bloom Filter.maxNumBits
Imposta il numero massimo di bit consentiti nel filtro Bloom di runtime.
67108864
spark.sql.optimizer.runtime.bloom Filter.maxNumItems
Imposta il numero massimo di elementi previsti consentiti nel filtro Bloom di runtime.
4000000
spark.sql.optimizer.runtime.bloom Filter.numBits
Definisce il numero predefinito di bit utilizzati nel filtro Bloom di runtime.
8388608
spark.sql.optimizer.runtime.rowlevel OperationGroupFilter.enabled
Speciifica se abilitare il filtraggio dei gruppi di runtime per le operazioni a livello di riga. Consente alle fonti di dati di:
-
Elimina interi gruppi di dati (come file o partizioni) utilizzando i filtri delle fonti di dati
-
Esegui query di runtime per identificare i record corrispondenti
-
Scarta i gruppi non necessari per evitare costose riscritture
Restrizioni:
-
Non tutte le espressioni possono essere convertite in filtri di origine dati
-
Alcune espressioni richiedono la valutazione di Spark (come le sottoquery)
true
spark.sql.optimizer.runtime Filter.number.threshold
Imposta il numero totale di filtri di runtime iniettati (non DPP). Questo serve a evitare che gli OOM dei driver contengano troppi filtri Bloom.
10
spark.sql.optimizer.runtime Filter.semiJoinReduction.enabled
Speciifica se inserire un semi-join per ridurre i dati shuffle quando un lato di uno shuffle join ha un predicato selettivo.
false
Spark.sql.parquet.aggregatePushdown
Speciifica se inviare gli aggregati a Parquet per l'ottimizzazione. Supporti:
-
MIN e MAX per i tipi booleano, intero, float e data
-
COUNT per tutti i tipi di dati
Genera un'eccezione se le statistiche non sono presenti nel piè di pagina di un file Parquet.
false
spark.sql.parquet.columnar ReaderBatchSize
Controlla il numero di righe in ogni batch di lettori vettorializzati di Parquet. Scegliete un valore che bilanci il sovraccarico prestazionale e l'utilizzo della memoria per evitare errori di esaurimento della memoria.
4096
spark.sql.parquet.enable VectorizedReader
Specifica se abilitare la decodifica vettoriale di Parquet.
true
spark.sql.shuffle.partitions
Imposta il numero predefinito di partizioni per lo shuffling dei dati durante le unioni o le aggregazioni. Non può essere modificato tra il riavvio di una query di streaming strutturata dalla stessa posizione di checkpoint.
200
spark.sql.shuffled HashJoinFactor
Definisce il fattore di moltiplicazione utilizzato per determinare l'idoneità allo shuffle hash join. Uno shuffle hash join viene selezionato quando la dimensione dei dati su lato piccolo moltiplicata per questo fattore è inferiore alla dimensione dei dati su lato grande.
3
spark.sql.sources.parallel PartitionDiscovery.threshold
Imposta il numero massimo di percorsi per l'elenco dei file lato driver con fonti basate su file (Parquet, JSON e ORC). Se viene superato durante il rilevamento delle partizioni, i file vengono elencati utilizzando un job distribuito Spark separato.
32
spark.sql.statistics.histogram.enabled
Speciifica se generare istogrammi di altezza equa durante il calcolo delle statistiche sulle colonne per migliorare l'accuratezza della stima. Richiede una scansione della tabella aggiuntiva oltre a quella necessaria per le statistiche di base sulle colonne.
false
spark.dynamic Allocation.executorIdleTimeout
Imposta la durata in cui un esecutore deve rimanere inattivo prima di essere rimosso quando l'allocazione dinamica è abilitata.
anni '60
scintilla. dinamica Allocation.schedulerBacklogTimeout
Imposta la durata per cui le attività in sospeso devono essere archiviate prima che vengano richiesti nuovi esecutori quando l'allocazione dinamica è abilitata.
1s
spark.dynamic Allocation.sustainedSchedulerBacklogTimeout
Uguale a spark.dynamicAllocation.schedulerBacklogTimeout, ma utilizzato solo per le successive richieste dell'esecutore.
(valore di spark.dynamic) Allocation.schedulerBacklogTimeout
spark.scheduler.min RegisteredResourcesRatio
Imposta il rapporto minimo tra risorse registrate (risorse registrate/ risorse totali previste) da attendere prima dell'inizio della pianificazione. Specificato come doppio tra 0,0 e 1,0. Indipendentemente dal fatto che sia stato raggiunto il rapporto minimo di risorse, il tempo massimo di attesa prima dell'inizio della pianificazione è controllato da spark.scheduler.max. RegisteredResourcesWaitingTime
0.8
spark.scheduler.max RegisteredResourcesWaitingTime
Imposta il tempo massimo di attesa per la registrazione delle risorse prima dell'inizio della pianificazione.
30 secondi
spark.sql.hive.metastore PartitionPruningFallbackOnException
Specifica se ricorrere al recupero di tutte le partizioni dal metastore di Hive ed eseguire l'eliminazione delle partizioni sul lato client Spark quando vengono rilevate dal metastore. MetaException
false
Nome proprietà Description Valore predefinito spark.sql.auto BroadcastJoinThreshold
Imposta la dimensione massima della tabella in byte per la trasmissione ai nodi di lavoro durante i join. Imposta su -1 per disabilitare la trasmissione.
10 MB (-1 per 32 CR.4X lavoratori)
spark.dynamic Allocation.enabled
Speciifica se utilizzare l'allocazione dinamica delle risorse, che aumenta e riduce il numero di esecutori registrati con questa applicazione in base al carico di lavoro.
true
spark.io.compression.codec
Imposta il codec usato per comprimere dati interni come partizioni RDD, registro eventi, variabili di trasmissione e uscite casuali. Valori supportati: lz4, snappy, zstd, gzip.
snappy
spark.sql.session.Timezone
Definisce il fuso orario della sessione per la gestione dei timestamp nelle stringhe letterali e nella conversione degli oggetti Java. Accetta:
-
Region-based ID in area/city formato (come America/Los _Angeles)
-
Offset di zona in HH:mm:ss formato (+/-) HH, (+/-) HH:mm o (+/-) (ad esempio -08 o + 01:00)
-
UTC o Z come alias per + 00:00
UTC
-
-
Per Conservazione dei dati in giorni, inserisci il numero di giorni in cui conservare i dati.
-
Per il formato dei risultati, scegliete CSV o Parquet come formato di dati da utilizzare per il canale di input ML.
-
-
Per l'accesso al servizio, scegliete il nome del ruolo di servizio esistente che verrà utilizzato per accedere a questa tabella o scegliete Crea e utilizza un nuovo ruolo di servizio.
-
Per la crittografia, scegli il segreto Encrypt con una chiave KMS personalizzata per specificare la tua chiave KMS e le informazioni correlate. Altrimenti, Clean Rooms ML gestirà la crittografia.
-
(Facoltativo) Per Compute payer, seleziona il membro della collaborazione che paga i costi di elaborazione delle query.
Nota
Se nella collaborazione c'è un solo candidato pagante per il calcolo delle query, il valore predefinito è quel pagante.
-
(Facoltativo) Per Synthetic data generation payer, seleziona il membro della collaborazione che paga i costi di generazione di dati sintetici.
Nota
Questa opzione viene visualizzata quando il canale di input ML utilizza un modello di analisi configurato per l'output di dati sintetici. Se nella collaborazione è presente un solo pagatore candidato per la generazione di dati sintetici, il valore predefinito è quel pagatore.
-
Scegli Crea canale di input ML.
Ci vorranno alcuni minuti per creare il canale di ingresso ML. È possibile visualizzare un elenco di canali di ingresso ML nella scheda Modelli ML.
Nota
Dopo aver creato il canale di input ML, non è possibile modificarlo.
-
- API
-
Per creare un canale di input ML (API)
Esegui il codice seguente con i tuoi parametri specifici:
import boto3 acr_client = boto3.client('cleanroomsml') acr_client.create_ml_input_channel( name="ml_input_channel_name", membershipIdentifier='membership_id', configuredModelAlgorithmAssociations=[configured_model_algorithm_association_arn], retentionInDays=1, inputChannel={ "dataSource": { "protectedQueryInputParameters": { "sqlParameters": { "queryString": "select * fromtable", "computeConfiguration": { "worker": { "type": "CR.1X", "number":16, "properties": { "spark": { "spark configuration key": "spark configuration value", } } } }, "resultFormat": "PARQUET" } } }, "roleArn": "arn:aws:iam::111122223333:role/role_name" } ) channel_arn = resp['ML Input Channel ARN']