Prérequis relatifs aux jeux de données tabulaires

Données tabulaires

Les données tabulaires font référence à des données qui peuvent être chargées dans un bloc de données bidimensionnel. Dans ce bloc, chaque ligne représente un enregistrement et chaque enregistrement comporte une ou plusieurs colonnes. Les valeurs de chaque cellule du bloc de données peuvent être de type numérique, catégoriel ou texte.

Prérequis relatifs aux jeux de données tabulaires

Avant l'analyse, toutes les étapes de prétraitement nécessaires devraient déjà avoir été appliquées à votre jeu de données. Cela inclut le nettoyage des données ou l'ingénierie des fonctionnalités.

Vous pouvez fournir un ou plusieurs jeux de données. Si vous fournissez plusieurs ensembles de données, utilisez ce qui suit pour les identifier dans le cadre de la tâche de traitement SageMaker Clarify.

Utilisez une configuration ProcessingInputnommée dataset ou la configuration d'analyse dataset_uri pour spécifier le jeu de données principal. Pour plus d’informations sur dataset_uri, reportez-vous à la liste des paramètres dans Fichiers de configuration d’analyse.
Utilisez le paramètre baseline fourni dans le fichier de configuration d’analyse. Le jeu de données de référence est requis pour l’analyse SHAP. Pour plus d’informations sur le fichier de configuration d’analyse, y compris des exemples, consultez Fichiers de configuration d’analyse.

Le tableau suivant répertorie les formats de données pris en charge, leurs extensions de fichier et les types MIME.

Format de données	Extension de fichier	Type MIME
CSV	csv	`text/csv`
JSON Lines	jsonl	`application/jsonlines`
JSON	json	`application/json`
Parquet	parquet	« application/x -parquet »

Les sections suivantes présentent des exemples de jeux de données tabulaires aux formats CSV, JSON Lines et Apache Parquet.

La tâche de traitement SageMaker Clarify est conçue pour charger des fichiers de données CSV dans le dialecte csv .excel. Toutefois, il est suffisamment flexible pour prendre en charge d'autres délimiteurs de ligne, notamment \n et \r.

Pour des raisons de compatibilité, tous les fichiers de données CSV fournis à la tâche de traitement SageMaker Clarify doivent être codés UTF-8.

Si votre jeu de données ne contient pas de ligne d'en-têtes, procédez comme suit :

Définissez l'étiquette de configuration d'analyse sur l'index 0. Cela signifie que la première colonne est l'étiquette de vérité terrain.
Si le paramètre headers est défini, définissez label sur l'en-tête de la colonne d'étiquettes pour indiquer l'emplacement de la colonne d'étiquettes. Toutes les autres colonnes sont désignées comme des fonctionnalités.

Voici un exemple de jeu de données qui ne contient pas de ligne d'en-têtes.
```
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

Si vos données contiennent une ligne d'en-têtes, définissez le paramètre label sur l'index 0. Pour indiquer l'emplacement de la colonne d'étiquettes, utilisez l'en-tête de l'étiquette de vérité terrain Label. Toutes les autres colonnes sont désignées comme des fonctionnalités.

Voici un exemple de jeu de données qui contient une ligne d'en-têtes.


Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...

Le format JSON est un format flexible permettant de représenter des données structurées qui contiennent un niveau quelconque de complexité. La prise en charge de JSON par SageMaker Clarify n'est limitée à aucun format spécifique et permet donc des formats de données plus flexibles par rapport aux ensembles de données au format CSV ou JSON Lines. Ce guide explique comment définir une configuration d'analyse pour des données tabulaires au format JSON.

Note

Pour garantir la compatibilité, tous les fichiers de données JSON fournis à la tâche de traitement SageMaker Clarify doivent être codés UTF-8.

Voici un exemple de données d'entrée avec des enregistrements contenant une clé de niveau supérieur, une liste de fonctionnalités et une étiquette.


[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]

Un exemple de configuration d'analyse pour l'exemple de jeu de données en entrée précédent doit définir les paramètres suivants :

Le paramètre label doit utiliser l'expression JMESpath [*].label pour extraire l'étiquette de vérité terrain pour chaque enregistrement du jeu de données. Cette expression JMESPath doit produire une liste d'étiquettes où la i^e étiquette correspond au i^e enregistrement.
Le paramètre features doit utiliser l'expression JMESpath [*].features pour extraire un tableau de fonctionnalités pour chaque enregistrement du jeu de données. L'expression JMESPath doit produire un tableau ou une matrice 2D où la i^e ligne contient les valeurs de fonctionnalités correspondant au i^e enregistrement.

Voici un exemple de données d'entrée avec des enregistrements contenant une clé de niveau supérieur et une clé imbriquée contenant une liste de fonctionnalités et des étiquettes pour chaque enregistrement.


{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}

Un exemple de configuration d'analyse pour l'exemple de jeu de données en entrée précédent doit définir les paramètres suivants :

Le paramètre label utilise l'expression JMESPath data[*].label pour extraire l'étiquette de vérité terrain pour chaque enregistrement du jeu de données. L’expression JMESPath doit produire une liste d’étiquettes où la i^e étiquette est destinée au i^e enregistrement.
Le paramètre features utilise l’expression JMESPath data[*].features pour extraire le tableau de caractéristiques, pour chaque enregistrement figurant dans le jeu de données. L’expression JMESPath doit produire un tableau ou une matrice 2D où la i^e ligne contient les valeurs des caractéristiques pour le i^e enregistrement.

JSON Lines est un format de texte permettant de représenter des données structurées où chaque ligne est un objet JSON valide. Actuellement, les tâches de traitement SageMaker Clarify ne prennent en charge que les lignes JSON au format SageMaker AI Dense. Pour respecter le format requis, toutes les fonctionnalités d’un enregistrement doivent être répertoriées dans un tableau JSON unique. Pour plus d’informations sur les lignes JSON, consultez Format de demande JSONLINES.

Note

Tous les fichiers de données JSON Lines fournis à la tâche de traitement SageMaker Clarify doivent être codés UTF-8 pour garantir la compatibilité.

Voici un exemple de définition d'une configuration d'analyse pour un enregistrement contenant une clé de niveau supérieur et une liste d'éléments.


{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...

La configuration d'analyse pour l'exemple de jeu de données précédent doit définir les paramètres suivants :

Pour indiquer l'emplacement de l'étiquette de vérité terrain, le paramètre label doit être défini sur l'expression JMESpath label.
Pour indiquer l'emplacement du tableau de fonctionnalités, le paramètre features doit être défini sur l'expression JMESpath features.

Voici un exemple de définition d'une configuration d'analyse pour un enregistrement contenant une clé de niveau supérieur et une clé imbriquée contenant une liste d'éléments.


{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...

La configuration d'analyse pour l'exemple de jeu de données précédent doit définir les paramètres suivants :

Le paramètre label doit être défini sur l'expression JMESpath data.label pour indiquer l'emplacement de l'étiquette de vérité terrain.
Le paramètre features doit être défini sur l'expression JMESpath data.features pour indiquer l'emplacement du tableau de fonctionnalités.

Parquet est un format de données binaire orienté colonne. Actuellement, les tâches de traitement SageMaker Clarify prennent en charge le chargement des fichiers de données Parquet uniquement lorsque le nombre d'instances de traitement est égal 1 à

Étant donné que SageMaker les tâches de traitement Clarify ne prennent pas en charge les demandes de point de terminaison ou les réponses de point de terminaison au format Parquet, vous devez spécifier le format de données de la demande de point de terminaison en définissant le paramètre de configuration content_type d'analyse sur un format pris en charge. Pour plus d’informations, consultez content_type dans Fichiers de configuration d’analyse.

Les données Parquet doivent avoir des noms de colonnes formatés sous forme de chaînes. Utilisez le paramètre label de configuration d'analyse pour définir le nom de la colonne d'étiquettes afin d'indiquer l'emplacement des étiquettes de vérité terrain. Toutes les autres colonnes sont désignées comme des fonctionnalités.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Guide de compatibilité des formats de données

Demandes du point de terminaison pour des données tabulaires