

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Données tabulaires
<a name="clarify-processing-job-data-format-tabular"></a>

Les données tabulaires font référence à des données qui peuvent être chargées dans un bloc de données bidimensionnel. Dans ce bloc, chaque ligne représente un enregistrement et chaque enregistrement comporte une ou plusieurs colonnes. Les valeurs de chaque cellule du bloc de données peuvent être de type numérique, catégoriel ou texte.

## Prérequis relatifs aux jeux de données tabulaires
<a name="clarify-processing-job-data-format-tabular-prereq"></a>

Avant l'analyse, toutes les étapes de prétraitement nécessaires devraient déjà avoir été appliquées à votre jeu de données. Cela inclut le nettoyage des données ou l'ingénierie des fonctionnalités.

Vous pouvez fournir un ou plusieurs jeux de données. Si vous fournissez plusieurs ensembles de données, utilisez ce qui suit pour les identifier dans le cadre de la tâche de traitement SageMaker Clarify.
+ Utilisez une configuration [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html)nommée `dataset` ou la configuration d'analyse `dataset_uri` pour spécifier le jeu de données principal. Pour plus d’informations sur `dataset_uri`, reportez-vous à la liste des paramètres dans [Fichiers de configuration d’analyse](clarify-processing-job-configure-analysis.md).
+ Utilisez le paramètre `baseline` fourni dans le fichier de configuration d’analyse. Le jeu de données de référence est requis pour l’analyse SHAP. Pour plus d’informations sur le fichier de configuration d’analyse, y compris des exemples, consultez [Fichiers de configuration d’analyse](clarify-processing-job-configure-analysis.md).

Le tableau suivant répertorie les formats de données pris en charge, leurs extensions de fichier et les types MIME.


| Format de données | Extension de fichier | Type MIME | 
| --- | --- | --- | 
| CSV | csv | `text/csv` | 
| JSON Lines | jsonl | `application/jsonlines` | 
| JSON | json | `application/json` | 
| Parquet | parquet | « application/x -parquet » | 

Les sections suivantes présentent des exemples de jeux de données tabulaires aux formats CSV, JSON Lines et Apache Parquet.

### Prérequis relatifs aux jeux de données tabulaires au format CSV
<a name="clarify-processing-job-data-format-tabular-prereq-csv"></a>

La tâche de traitement SageMaker Clarify est conçue pour charger des fichiers de données CSV dans le dialecte [csv .excel.](https://docs.python.org/3/library/csv.html#csv.excel) Toutefois, il est suffisamment flexible pour prendre en charge d'autres délimiteurs de ligne, notamment `\n` et `\r`.

Pour des raisons de compatibilité, tous les fichiers de données CSV fournis à la tâche de traitement SageMaker Clarify doivent être codés UTF-8.

Si votre jeu de données ne contient pas de ligne d'en-têtes, procédez comme suit :
+ Définissez l'étiquette de configuration d'analyse sur l'index `0`. Cela signifie que la première colonne est l'étiquette de vérité terrain.
+ Si le paramètre `headers` est défini, définissez `label` sur l'en-tête de la colonne d'étiquettes pour indiquer l'emplacement de la colonne d'étiquettes. Toutes les autres colonnes sont désignées comme des fonctionnalités.

  Voici un exemple de jeu de données qui ne contient pas de ligne d'en-têtes.

  ```
  1,5,2.8,2.538,This is a good product
  0,1,0.79,0.475,Bad shopping experience
  ...
  ```

Si vos données contiennent une ligne d'en-têtes, définissez le paramètre `label` sur l'index `0`. Pour indiquer l'emplacement de la colonne d'étiquettes, utilisez l'en-tête de l'étiquette de vérité terrain `Label`. Toutes les autres colonnes sont désignées comme des fonctionnalités.

Voici un exemple de jeu de données qui contient une ligne d'en-têtes.

```
Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

### Prérequis des jeux de données tabulaires au format JSON
<a name="clarify-processing-job-data-format-tabular-prereq-json"></a>

Le format JSON est un format flexible permettant de représenter des données structurées qui contiennent un niveau quelconque de complexité. La prise en charge de JSON par SageMaker Clarify n'est limitée à aucun format spécifique et permet donc des formats de données plus flexibles par rapport aux ensembles de données au format CSV ou JSON Lines. Ce guide explique comment définir une configuration d'analyse pour des données tabulaires au format JSON. 

**Note**  
Pour garantir la compatibilité, tous les fichiers de données JSON fournis à la tâche de traitement SageMaker Clarify doivent être codés UTF-8.

Voici un exemple de données d'entrée avec des enregistrements contenant une clé de niveau supérieur, une liste de fonctionnalités et une étiquette.

```
[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]
```

Un exemple de configuration d'analyse pour l'exemple de jeu de données en entrée précédent doit définir les paramètres suivants :
+ Le paramètre `label` doit utiliser l'expression [JMESpath](https://jmespath.org/) `[*].label` pour extraire l'étiquette de vérité terrain pour chaque enregistrement du jeu de données. Cette expression JMESPath doit produire une liste d'étiquettes où la ie étiquette correspond au ie enregistrement.
+ Le paramètre `features` doit utiliser l'expression JMESpath `[*].features` pour extraire un tableau de fonctionnalités pour chaque enregistrement du jeu de données. L'expression JMESPath doit produire un tableau ou une matrice 2D où la ie ligne contient les valeurs de fonctionnalités correspondant au ie enregistrement.

  Voici un exemple de données d'entrée avec des enregistrements contenant une clé de niveau supérieur et une clé imbriquée contenant une liste de fonctionnalités et des étiquettes pour chaque enregistrement.

```
{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}
```

Un exemple de configuration d'analyse pour l'exemple de jeu de données en entrée précédent doit définir les paramètres suivants :
+ Le paramètre `label` utilise l'expression [JMESPath](https://jmespath.org/) `data[*].label` pour extraire l'étiquette de vérité terrain pour chaque enregistrement du jeu de données. L’expression JMESPath doit produire une liste d’étiquettes où la ie étiquette est destinée au ie enregistrement.
+ Le paramètre `features` utilise l’expression JMESPath `data[*].features` pour extraire le tableau de caractéristiques, pour chaque enregistrement figurant dans le jeu de données. L’expression JMESPath doit produire un tableau ou une matrice 2D où la ie ligne contient les valeurs des caractéristiques pour le ie enregistrement.

### Prérequis des jeux de données tabulaires au format JSON Lines
<a name="clarify-processing-job-data-format-tabular-prereq-jsonlines"></a>

JSON Lines est un format de texte permettant de représenter des données structurées où chaque ligne est un objet JSON valide. Actuellement, les tâches de traitement SageMaker Clarify ne prennent en charge que les lignes JSON au format SageMaker AI Dense. Pour respecter le format requis, toutes les fonctionnalités d’un enregistrement doivent être répertoriées dans un tableau JSON unique. Pour plus d’informations sur les lignes JSON, consultez [Format de demande JSONLINES](cdf-inference.md#cm-jsonlines).

**Note**  
Tous les fichiers de données JSON Lines fournis à la tâche de traitement SageMaker Clarify doivent être codés UTF-8 pour garantir la compatibilité.

Voici un exemple de définition d'une configuration d'analyse pour un enregistrement contenant une **clé de niveau supérieur** et une **liste** d'éléments. 

```
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...
```

La configuration d'analyse pour l'exemple de jeu de données précédent doit définir les paramètres suivants :
+ Pour indiquer l'emplacement de l'étiquette de vérité terrain, le paramètre `label` doit être défini sur l'expression JMESpath `label`.
+ Pour indiquer l'emplacement du tableau de fonctionnalités, le paramètre `features` doit être défini sur l'expression JMESpath `features`.

Voici un exemple de définition d'une configuration d'analyse pour un enregistrement contenant une **clé de niveau supérieur** et une **clé imbriquée** contenant une **liste** d'éléments. 

```
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...
```

La configuration d'analyse pour l'exemple de jeu de données précédent doit définir les paramètres suivants :
+ Le paramètre `label` doit être défini sur l'expression JMESpath `data.label` pour indiquer l'emplacement de l'étiquette de vérité terrain.
+ Le paramètre `features` doit être défini sur l'expression JMESpath `data.features` pour indiquer l'emplacement du tableau de fonctionnalités.

### Prérequis des jeux de données tabulaires au format Parquet
<a name="clarify-processing-job-data-format-tabular-prereq-parquet"></a>

[Parquet](https://parquet.apache.org/) est un format de données binaire orienté colonne. Actuellement, les tâches de traitement SageMaker Clarify prennent en charge le chargement des fichiers de données Parquet uniquement lorsque le nombre d'instances de traitement est égal `1` à

Étant donné que SageMaker les tâches de traitement Clarify ne prennent pas en charge les demandes de point de terminaison ou les réponses de point de terminaison au format Parquet, vous devez spécifier le format de données de la demande de point de terminaison en définissant le paramètre de configuration `content_type` d'analyse sur un format pris en charge. Pour plus d’informations, consultez `content_type` dans [Fichiers de configuration d’analyse](clarify-processing-job-configure-analysis.md).

Les données Parquet doivent avoir des noms de colonnes formatés sous forme de chaînes. Utilisez le paramètre `label` de configuration d'analyse pour définir le nom de la colonne d'étiquettes afin d'indiquer l'emplacement des étiquettes de vérité terrain. Toutes les autres colonnes sont désignées comme des fonctionnalités.