

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Datos tabulares
<a name="clarify-processing-job-data-format-tabular"></a>

Los datos tabulares se refieren a los datos que se pueden cargar en un marco de datos bidimensional. En el marco, cada fila representa un registro y cada registro tiene una o más columnas. Los valores de cada celda del marco de datos pueden ser de tipo numérico, categórico o de texto.

## Requisitos previos del conjunto de datos tabular
<a name="clarify-processing-job-data-format-tabular-prereq"></a>

Antes del análisis, se deben haber aplicado todos los pasos de preprocesamiento necesarios al conjunto de datos. Esto incluye la limpieza de datos o la ingeniería de características.

Puede proporcionar uno o varios conjuntos de datos. Si proporciona varios conjuntos de datos, utilice lo siguiente para identificarlos en el trabajo de procesamiento de SageMaker Clarify.
+ Utilice una configuración con [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html)nombre `dataset` o de análisis `dataset_uri` para especificar el conjunto de datos principal. Para obtener más información sobre `dataset_uri`, consulte la lista de parámetros en [Archivos de configuración del análisis](clarify-processing-job-configure-analysis.md).
+ Utilice el parámetro `baseline` proporcionado en el archivo de configuración del análisis. El conjunto de datos de referencia es necesario para el análisis SHAP. Para obtener más información sobre el archivo de configuración del análisis, incluidos ejemplos, consulte [Archivos de configuración del análisis](clarify-processing-job-configure-analysis.md).

En la siguiente tabla se enumeran los formatos de datos compatibles, sus extensiones de archivo y los tipos MIME.


| Formato de los datos | Extensión de archivo | Tipo MIME | 
| --- | --- | --- | 
| CSV | csv | `text/csv` | 
| Líneas de JSON | jsonl | `application/jsonlines` | 
| JSON | json | `application/json` | 
| Parquet | parquet | «application/x-parquet» | 

En las siguientes secciones se muestran ejemplos de conjuntos de datos tabulares en los formatos CSV, JSON Lines y Apache Parquet.

### Requisitos previos del conjunto de datos tabular en formato CSV
<a name="clarify-processing-job-data-format-tabular-prereq-csv"></a>

El trabajo SageMaker de procesamiento Clarify está diseñado para cargar archivos de datos CSV en el dialecto [csv.excel](https://docs.python.org/3/library/csv.html#csv.excel). Sin embargo, es lo suficientemente flexible como para admitir otros terminadores de línea, incluidos `\n` y `\r`.

Por motivos de compatibilidad, todos los archivos de datos CSV proporcionados al trabajo de procesamiento de SageMaker Clarify deben estar codificados en. UTF-8

Si el conjunto de datos no contiene una fila de encabezado, haga lo siguiente:
+ Defina la etiqueta de configuración del análisis en el índice `0`. Esto significa que la primera columna es la etiqueta de verdad fundamental.
+ Si se ha establecido el parámetro `headers`, configure `label` en el encabezado de la columna de etiquetas para indicar la ubicación de la columna de etiquetas. Todas las demás columnas se designan como características.

  A continuación, se muestra un ejemplo de conjunto de datos que no contiene una fila de encabezado.

  ```
  1,5,2.8,2.538,This is a good product
  0,1,0.79,0.475,Bad shopping experience
  ...
  ```

Si los datos contienen una fila de encabezado, defina el parámetro `label` en el índice `0`. Para indicar la ubicación de la columna de etiquetas, utilice el encabezado de la etiqueta de verdad fundamental `Label`. Todas las demás columnas se designan como características.

A continuación, se muestra un ejemplo de conjunto de datos que contiene una fila de encabezado.

```
Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

### Requisitos previos del conjunto de datos tabular en formato JSON
<a name="clarify-processing-job-data-format-tabular-prereq-json"></a>

JSON es un formato flexible para representar datos estructurados que contienen cualquier nivel de complejidad. La compatibilidad SageMaker de Clarify con JSON no se limita a ningún formato específico y, por lo tanto, permite formatos de datos más flexibles en comparación con los conjuntos de datos en los formatos CSV o JSON Lines. Esta guía muestra cómo establecer una configuración de análisis para datos tabulares en formato JSON. 

**nota**  
Para garantizar la compatibilidad, todos los archivos de datos JSON proporcionados al trabajo de SageMaker procesamiento de Clarify deben estar codificados UTF-8.

El siguiente es un ejemplo de datos de entrada con registros que contienen una clave de nivel superior, una lista de características y una etiqueta.

```
[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]
```

Un ejemplo de análisis de configuración para el conjunto de datos de ejemplo de entrada anterior debe establecer los siguientes parámetros:
+ El parámetro `label` debe usar la expresión [JMESPath](https://jmespath.org/) `[*].label` para extraer la etiqueta de verdad fundamental de cada registro del conjunto de datos. La expresión JMESPath debe producir una lista de etiquetas donde la etiqueta iésima se corresponda con el registro iésimo.
+ El parámetro `features` debe usar la expresión JMESPath `[*].features` para extraer una matriz de características para cada registro del conjunto de datos. La expresión JMESPath debe producir un conjunto o matriz 2D donde la fila iésima contiene los valores de las características para el correspondiente registro iésimo.

  El siguiente es un ejemplo de datos de entrada con registros que contienen una clave de nivel superior y una clave anidada que contiene una lista de características y etiquetas para cada registro.

```
{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}
```

Un ejemplo de análisis de configuración para el conjunto de datos de ejemplo de entrada anterior debe establecer los siguientes parámetros:
+ El parámetro `label` usa la expresión [JMESPath](https://jmespath.org/) `data[*].label` para extraer la etiqueta de verdad fundamental de cada registro del conjunto de datos. La expresión JMESPath debe producir una lista de etiquetas donde la etiqueta iésima es para el registro iésimo.
+ El parámetro `features` usa la expresión de JMESPath `data[*].features` para extraer una matriz de características para cada registro del conjunto de datos. La expresión JMESPath debe producir un conjunto o matriz 2D donde la fila iésima contiene los valores de la característica para el registro iésimo

### Requisitos previos del conjunto de datos tabular en formato JSON Lines
<a name="clarify-processing-job-data-format-tabular-prereq-jsonlines"></a>

JSON Lines es un formato de texto para representar datos estructurados en el que cada línea es un objeto JSON válido. Actualmente, los trabajos de procesamiento de SageMaker Clarify solo admiten líneas JSON de formato denso de SageMaker IA. Para cumplir con el formato requerido, todas las características de un registro deben aparecer en una única matriz JSON. Para obtener más información sobre la líneas JSON, consulte [Formato de solicitud JSONLINES](cdf-inference.md#cm-jsonlines).

**nota**  
Todos los archivos de datos de JSON Lines proporcionados al SageMaker trabajo de procesamiento de Clarify deben estar codificados UTF-8 para garantizar la compatibilidad.

El siguiente es un ejemplo de cómo establecer una configuración de análisis para un registro que contiene una **clave de nivel superior** y una **lista** de elementos. 

```
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...
```

El análisis de configuración para el ejemplo de conjunto de datos anterior debe establecer los siguientes parámetros:
+ Para indicar la ubicación de la etiqueta de verdad fundamental, el parámetro `label` debe configurarse en la expresión JMESPath `label`.
+ Para indicar la ubicación de la matriz de características, el parámetro `features` debe configurarse en la expresión JMESPath `features`.

El siguiente es un ejemplo de cómo establecer una configuración de análisis para un registro que contiene una **clave de nivel superior** y una **clave anidada** que contiene una **lista** de elementos. 

```
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...
```

El análisis de configuración para el ejemplo de conjunto de datos anterior debe establecer los siguientes parámetros:
+ Para indicar la ubicación de la etiqueta de verdad fundamental, el parámetro `label` debe configurarse en la expresión JMESPath `data.label`.
+ Para indicar la ubicación de la matriz de características, el parámetro `features` debe configurarse en la expresión JMESPath `data.features`.

### Requisitos previos del conjunto de datos tabular en formato Parquet
<a name="clarify-processing-job-data-format-tabular-prereq-parquet"></a>

[Parquet](https://parquet.apache.org/) es un formato de datos binarios orientado a columnas. Actualmente, los trabajos SageMaker de procesamiento de Clarify admiten la carga de archivos de datos de Parquet solo cuando el número de instancias de procesamiento es igual`1`.

Como los trabajos de procesamiento de SageMaker Clarify no admiten la solicitud de punto final ni la respuesta del punto final en formato Parquet, debe especificar el formato de datos de la solicitud de punto final configurando el parámetro `content_type` de configuración del análisis en un formato compatible. Para obtener más información, consulta `content_type` en [Archivos de configuración del análisis](clarify-processing-job-configure-analysis.md).

Los datos de Parquet deben tener nombres de columna con formato de cadena. Utilice el parámetro `label` de configuración del análisis para establecer el nombre de la columna de etiquetas para indicar la ubicación de las etiquetas de verdad fundamental. Todas las demás columnas se designan como características.