Dati tabulari

I dati tabulari si riferiscono ai dati che possono essere caricati in un frame di dati bidimensionale. Nel frame, ogni riga rappresenta un record e ogni record ha una o più colonne. I valori all'interno di ogni cella del frame di dati possono essere di tipo numerico, categorico o testuale.

Prerequisiti del set di dati tabulari

Prima dell'analisi, al set di dati dovrebbe aver completato tutte le fasi di pre-elaborazione necessarie. Questo include la pulizia dei dati o l’ingegneria delle funzionalità.

È possibile fornire uno o più set di dati. Se fornite più set di dati, utilizzate quanto segue per identificarli nel processo di elaborazione di SageMaker Clarify.

Utilizzate una configurazione ProcessingInputdenominata dataset o di analisi dataset_uri per specificare il set di dati principale. Per ulteriori informazioni su dataset_uri, consulta l’elenco di parametri in File di configurazione dell’analisi.
Utilizza il parametro baseline fornito nel file di configurazione dell'analisi. Il set di dati di base è necessario per l'analisi SHAP. Per ulteriori informazioni sul file di configurazione dell’analisi, inclusi gli esempi, consulta File di configurazione dell’analisi.

Questa tabella elenca i formati di dati supportati, le relative estensioni di file e i tipi MIME.

Formato dei dati	Estensione di file	Tipo MIME
CSV	csv	`text/csv`
JSON Lines	jsonl	`application/jsonlines`
JSON	json	`application/json`
Parquet	parquet	«application/x-parquet»

Le successive sezioni mostrano esempi di set di dati tabulari nei formati CSV, JSON Lines e Apache Parquet.

Il processo di elaborazione SageMaker Clarify è progettato per caricare file di dati CSV nel dialetto csv.excel. Tuttavia, è sufficientemente flessibile da supportare altri terminatori di linea, tra cui \n e \r.

Per motivi di compatibilità, tutti i file di dati CSV forniti al processo di elaborazione SageMaker Clarify devono essere codificati in. UTF-8

Se il set di dati non contiene una riga di intestazione, procedi come indicato di seguito:

Imposta l'etichetta di configurazione dell'analisi sull'indice 0. Questo significa che la prima colonna è l'etichetta Ground Truth.
Se il parametro headers è specificato, imposta label sull'intestazione della colonna dell'etichetta per indicare la posizione della colonna di etichetta. Tutte le altre colonne sono designate come funzionalità.

Di seguito è riportato un set di dati che non contiene una riga di intestazione.
```
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

Se i dati contengono una riga di intestazione, imposta il parametro label sull'indice 0. Per indicare la posizione della colonna dell'etichetta, usa l'intestazione Label dell'etichetta Ground Truth. Tutte le altre colonne sono designate come funzionalità.

Di seguito è riportato un esempio di set di dati contenente una riga di intestazione.


Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...

JSON è un formato flessibile per la rappresentazione di dati strutturati che contiene qualsiasi livello di complessità. Il supporto SageMaker Clarify per JSON non è limitato a nessun formato specifico e consente quindi formati di dati più flessibili rispetto ai set di dati nei formati CSV o JSON Lines. Questa guida mostra come impostare una configurazione di analisi per dati tabulari in formato JSON.

Nota

Per garantire la compatibilità, tutti i file di dati JSON forniti al processo di elaborazione SageMaker Clarify devono essere codificati in. UTF-8

Di seguito è riportato un esempio di dati di input con record che contengono una chiave di livello superiore, un elenco di funzionalità e un'etichetta.


[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]

Un esempio di analisi della configurazione per il precedente esempio di set di dati di input dovrebbe impostare i seguenti parametri:

Il parametro label deve utilizzare l'espressione JMESPath [*].label per estrarre l'etichetta Ground Truth per ogni record nel set di dati. L'espressione JMESPath dovrebbe produrre un elenco di etichette in cui l'etichetta i^th corrisponde al record i^th.
Il parametro features deve utilizzare l'espressione JMESPath [*].features per estrarre una matrice di funzionalità per ogni record nel set di dati. L'espressione JMESPath dovrebbe produrre una matrice 2D o una matrice in cui la riga i^th contiene i valori delle funzionalità corrispondenti al record i^th.

Di seguito è riportato un esempio di dati di input con record che contiene una chiave di livello superiore e una chiave nidficata che contiene un elenco di funzionalità e un'etichetta.


{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}

Un esempio di analisi della configurazione per il precedente esempio di set di dati di input dovrebbe impostare i seguenti parametri:

Il parametro label utilizza l'espressione JMESPath data[*].label per estrarre l'etichetta Ground Truth per ogni record nel set di dati. L'espressione JMESPath dovrebbe produrre un elenco di etichette in cui l'etichetta i^th è per il record i^th.
Il parametro features utilizza l’espressione JMESPath data[*].features per estrarre un array di funzionalità per ogni record nel set di dati. L'espressione JMESPath dovrebbe produrre una matrice 2D o una matrice in cui la riga i^th contiene i valori delle funzionalità per il record i^th.

JSON Lines è un formato di testo per rappresentare dati strutturati in cui ogni riga è un oggetto JSON valido. Attualmente i processi di elaborazione di SageMaker Clarify supportano solo le linee JSON in formato SageMaker AI Dense. Per conformarsi al formato richiesto, tutte le funzionalità di un record devono essere elencate in un'unica matrice JSON. Per ulteriori informazioni su righe JSON, consultare Formato della richiesta JSONLINES.

Nota

Tutti i file di dati JSON Lines forniti al processo di elaborazione SageMaker Clarify devono essere codificati per garantire la compatibilità. UTF-8

Di seguito è riportato un esempio di come impostare una configurazione di analisi per un record che contiene una chiave di livello superiore e un elenco di elementi.


{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...

L'analisi della configurazione per il precedente esempio di set di dati dovrebbe impostare i parametri come segue:

Per indicare la posizione dell'etichetta Ground Truth, il parametro label deve essere impostato sull'espressione JMESPath label.
Per indicare la posizione della matrice di funzionalità, il parametro features deve essere impostato sull'espressione JMESPath features.

Di seguito è riportato un esempio di come impostare una configurazione di analisi per un record che contiene una chiave di livello superiore e una chiave nidificata che contiene un elenco di elementi.


{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...

L'analisi della configurazione per il precedente esempio di set di dati dovrebbe impostare i parametri come segue:

Il parametro label deve essere impostato sull'espressione JMESPath data.label per indicare la posizione dell'etichetta Ground Truth.
Il parametro features deve essere impostato sull'espressione JMESPath data.features per indicare la posizione della matrice di funzionalità.

Parquet è un formato di dati binario orientato alle colonne. Attualmente, i processi di elaborazione di SageMaker Clarify supportano il caricamento dei file di dati Parquet solo quando il numero delle istanze di elaborazione è pari a. 1

Poiché i processi di elaborazione SageMaker Clarify non supportano la richiesta dell'endpoint o la risposta dell'endpoint in formato Parquet, è necessario specificare il formato dei dati della richiesta dell'endpoint impostando il parametro content_type di configurazione dell'analisi su un formato supportato. Per ulteriori informazioni, consulta content_type in File di configurazione dell’analisi.

I dati Parquet devono avere nomi di colonna formattati come stringhe. Utilizza il parametro label di configurazione dell'analisi per impostare il nome della colonna dell'etichetta, in modo che indichi la posizione delle etichette Ground Truth. Tutte le altre colonne sono designate come funzionalità.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Guida alla compatibilità di formato dei dati

Richieste endpoint per dati tabulari