Regole di importazione dei dati Regole relative ai dati di scadenza Configurazioni di esempio

Personalizzazione della sincronizzazione per i file S3

S3 Files ti consente di controllare il flusso di dati tra il file system e il bucket S3 collegato tramite una configurazione di sincronizzazione. Le impostazioni predefinite bilanciano latenza e costi per la maggior parte dei carichi di lavoro, ma puoi ottimizzarle in base ai tuoi modelli di accesso. L'importazione anticipata di più dati riduce la latenza di lettura a scapito di costi di archiviazione e scrittura più elevati. L'importazione di meno dati mantiene bassi i costi di archiviazione, ma significa che vengono servite più letture da S3 con una latenza più elevata. Ogni configurazione ha due componenti: le regole di importazione dei dati, che controllano quali dati vengono copiati sul file system e quando, e le regole sui dati di scadenza, che controllano per quanto tempo i dati inutilizzati rimangono nel file system. È possibile aggiornare queste regole utilizzando la console di AWS gestione o l' PutSynchronizationConfiguration API.

Regole di importazione dei dati

Le regole di importazione dei dati controllano il modo in cui i dati vengono copiati dal bucket al file system. È possibile avere un massimo di 10 regole di importazione dei dati per file system. Ogni regola di importazione dei dati ha i seguenti parametri:

prefisso: il prefisso S3 a cui si applica la regola. Specificate una stringa vuota («») per l'intero bucket (ambito del file system) o un prefisso specifico (ad esempio, «data/ml/») all'interno del file system. Il prefisso deve terminare con una barra (/), a meno che non si specifichi l'intero bucket con «». È necessario includere esattamente una regola di importazione per la directory principale. Impostazione predefinita: «» (intero bucket o ambito del file system).

trigger — Quando importare i dati: ON_DIRECTORY_FIRST_ACCESS o ON_FILE_ACCESS. Impostazione predefinita: ON_DIRECTORY_FIRST_ACCESS.

ON_DIRECTORY_FIRST_ACCESS: i dati del file vengono importati quando si accede per la prima volta a una directory. Ad esempio, quando accedete per la prima volta a una directory elencandone il contenuto o aprendo un file al suo interno, vengono importati i dati per tutti i file figlio immediati presenti in quella directory di dimensioni inferiori alla soglia. sizeLessThan Questa opzione è utile per i carichi di lavoro che richiedono una bassa latenza al primo accesso ai file.
ON_FILE_ACCESS — I dati del file vengono importati solo quando un file viene letto per la prima volta. Questa opzione riduce al minimo i dati importati a scapito di una maggiore latenza alla prima lettura.

sizeLessThan— Dimensione massima del file (in byte) da importare automaticamente. Sebbene S3 Files importi i metadati per tutti i file, importa solo i dati per i file più piccoli di questa soglia. Minimo: 0 byte (nessun dato importato, i metadati verranno comunque importati). Massimo: 52.673.613.135.872 byte (48 TiB). Impostazione predefinita: 131.072 byte (128 KiB).

Comportamento della corrispondenza dei prefissi

Quando più regole di importazione dei dati corrispondono a un file, S3 Files applica la regola con il prefisso più specifico. Ad esempio, supponiamo di avere tre regole:

Regola 1: prefisso = «» (intero bucket), sizeLessThan = 64 KiB, trigger = ON_FILE_ACCESS
Regola 2: prefisso = «hot/», = 1 MiB, trigger sizeLessThan = ON_DIRECTORY_FIRST_ACCESS
Regola 3: prefix = «hot/LargeData/», = 256 KB, trigger = sizeLessThan ON_DIRECTORY_FIRST_ACCESS

Per un file in hot/largeData/data.txt, S3 Files applies Rule 3. For a file at hot/data.txt, S3 Files applies Rule 2. For a file at cold/data formato.txt, S3 Files applica la regola 1 perché non esiste una regola specifica per il prefisso cold/.

Regole relative ai dati di scadenza

Le regole relative ai dati di scadenza controllano quando i dati non utilizzati vengono rimossi dal file system per ottimizzare i costi di archiviazione. S3 Files rimuove i dati dopo che non sono stati letti per una durata specificata e le modifiche sono già state sincronizzate con il bucket S3. Ogni volta che un file viene letto, il relativo timer di scadenza si reimposta, prolungando il tempo di permanenza dei dati nel file system. È possibile specificare il seguente parametro nelle regole relative ai dati di scadenza:

daysAfterLastAccesso: numero di giorni dopo l'ultima lettura quando i dati vengono rimossi dal file system. Minimo: 1 giorno. Massimo: 365 giorni. Impostazione predefinita: 30 giorni.

Se hai carichi di lavoro di lunga durata che accedono spesso agli stessi dati, prendi in considerazione periodi di scadenza più lunghi (30-90 giorni). Per i dati temporanei, prendi in considerazione periodi più brevi (1-7 giorni).

Configurazioni di esempio

Condivisione di file per scopi generici (configurazione predefinita): un team di sviluppatori e data scientist monta un file system S3 per condividere codice, file di configurazione e set di dati di piccole dimensioni. La maggior parte dei file ha una dimensione inferiore a 128 KiB e viene letta ripetutamente nel corso della giornata. La configurazione predefinita è ideale per questo carico di lavoro: ON_DIRECTORY_FIRST_ACCESS importa metadati e dati di file di piccole dimensioni quando si accede per la prima volta a qualsiasi file in una directory, il che funziona bene quando è probabile che si acceda contemporaneamente ai file nella stessa directory, come i file di origine in un progetto o i file di configurazione in una distribuzione. L'accesso successivo da parte di qualsiasi utente è rapido. Quando un utente apre un file di grandi dimensioni come un archivio di log, S3 Files lo trasmette automaticamente direttamente da S3 per un throughput elevato. La finestra di scadenza di 30 giorni mantiene i file utilizzati attivamente sul file system senza pulizia manuale.

Formazione ML con letture ripetute: un processo di formazione legge ripetutamente migliaia di file di piccole dimensioni (<10 MiB) in più epoche. Per ridurre al minimo la latenza, impostate una sizeLessThan soglia alta (ad esempio, 10 MiB) con ON_DIRECTORY_FIRST_ACCESS in modo che i dati del file vengano precaricati quando lo script di addestramento elenca per la prima volta ciascuna directory. Imposta una scadenza breve (ad esempio, 3 giorni) in modo che i dati vengano rimossi dal file system subito dopo il completamento del processo di formazione.

Carichi di lavoro agentici con ampio rilevamento dei file: un agente di intelligenza artificiale esplora un ampio archivio di documenti, codice o file di knowledge base per rispondere alle domande, leggendo molti file di piccole dimensioni una volta mentre cerca il contesto pertinente. Imposta su 0 sizeLessThan in modo che nessun dato venga importato nel file system. L'agente può sfogliare l'intero albero di directory a bassa latenza per scoprire i file, mentre ogni file letto viene fornito direttamente da S3. Ciò mantiene bassi i costi per i carichi di lavoro che toccano molti file in modo imprevedibile ma che raramente rivisitano lo stesso file, e si ridimensiona naturalmente man mano che si aggiungono più agenti che leggono in parallelo.

Prefissi caldi e freddi: un file system contiene sia i file di configurazione a cui si accede di frequente che i dati di archivio a cui si accede raramente. config/ archive/ Crea due regole di importazione: una per config/ con un valore alto sizeLessThan e ON_DIRECTORY_FIRST_ACCESS e una per con impostato su 0 e ON_FILE_ACCESS. archive/ sizeLessThan Ciò mantiene i file di configurazione sul file system per un accesso rapido, evitando al contempo i costi di archiviazione per i dati di archiviazione che vengono letti raramente.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Sincronizzazione dei dati

Monitoraggio e controllo