

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Dados tabulares
<a name="clarify-processing-job-data-format-tabular"></a>

Dados tabulares referem-se a dados que podem ser carregados em um quadro de dados bidimensional. No quadro, cada linha representa um registro e cada registro tem uma ou mais colunas. Os valores em cada célula do quadro de dados podem ser de tipos de dados numéricos, categóricos ou de texto.

## Pré-requisitos do conjunto de dados tabular
<a name="clarify-processing-job-data-format-tabular-prereq"></a>

Antes da análise, seu conjunto de dados deveria ter todas as etapas de pré-processamento necessárias já aplicadas. Isso inclui limpeza de dados ou engenharia de atributos.

Você pode fornecer um ou vários conjuntos de dados. Se você fornecer vários conjuntos de dados, use o seguinte para identificá-los na tarefa de processamento do SageMaker Clarify.
+ Use uma configuração [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html)nomeada `dataset` ou de análise `dataset_uri` para especificar o conjunto de dados principal. Para obter mais informações sobre `dataset_uri`, consulte a lista de parâmetros em [Arquivos de configuração de análise](clarify-processing-job-configure-analysis.md).
+ Use o parâmetro `baseline` fornecido no arquivo de configuração da análise. O conjunto de dados de linha de base é necessário para a análise SHAP. Para obter mais informações sobre o arquivo de configuração de análise, incluindo exemplos, consulte [Arquivos de configuração de análise](clarify-processing-job-configure-analysis.md).

A tabela a seguir lista os formatos de dados compatíveis, suas extensões de arquivo e tipos de MIME.


| Formato de dados | Extensão do arquivo | Tipo MIME | 
| --- | --- | --- | 
| CSV | csv | `text/csv` | 
| Linhas JSON | jsonl | `application/jsonlines` | 
| JSON | json | `application/json` | 
| Parquet | parquet | “application/x-parquete” | 

As seções a seguir mostram exemplos de conjuntos de dados tabulares nos formatos CSV, JSON Lines e Apache Parquet.

### Pré-requisitos de conjunto de dados tabulares em formato CSV
<a name="clarify-processing-job-data-format-tabular-prereq-csv"></a>

A tarefa de processamento do SageMaker Clarify foi projetada para carregar arquivos de dados CSV no dialeto [csv.excel](https://docs.python.org/3/library/csv.html#csv.excel). No entanto, é flexível o suficiente para compatibilidade com outros terminadores de linha, incluindo `\n` e `\r`.

Para compatibilidade, todos os arquivos de dados CSV fornecidos para a tarefa de processamento do SageMaker Clarify devem ser codificados em. UTF-8

Se o conjunto de dados não conter uma linha de cabeçalho, faça o seguinte:
+ Defina o rótulo de configuração da análise para indexar `0`. Isso significa que a primeira coluna é o rótulo de veracidade.
+ Se o parâmetro `headers` estiver definido, `label` defina o cabeçalho da coluna do rótulo para indicar a localização da coluna do rótulo. Todas as outras colunas são designadas como atributos.

  A seguir está um exemplo de um conjunto de dados que não contém uma linha de cabeçalho.

  ```
  1,5,2.8,2.538,This is a good product
  0,1,0.79,0.475,Bad shopping experience
  ...
  ```

Se seus dados contiverem uma linha de cabeçalho, defina o parâmetro `label` para indexar `0`. Para indicar a localização da coluna do rótulo, use o cabeçalho do rótulo de veracidade `Label`. Todas as outras colunas são designadas como atributos.

A seguir está um exemplo de um conjunto de dados que contém uma linha de cabeçalho.

```
Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

### Pré-requisitos de conjunto de dados tabulares em formato JSON
<a name="clarify-processing-job-data-format-tabular-prereq-json"></a>

O JSON é um formato flexível para representar dados estruturados que contêm qualquer nível de complexidade. O suporte do SageMaker Clarify para JSON não está restrito a nenhum formato específico e, portanto, permite formatos de dados mais flexíveis em comparação com conjuntos de dados nos formatos CSV ou JSON Lines. Este guia mostra como definir uma configuração de análise para dados tabulares no formato JSON. 

**nota**  
Para garantir a compatibilidade, todos os arquivos de dados JSON fornecidos para o trabalho de processamento do SageMaker Clarify devem ser codificados em. UTF-8

Veja a seguir exemplos de dados de entrada com registros que contêm uma chave de nível superior, uma lista de atributos e um rótulo.

```
[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]
```

Um exemplo de análise de configuração para o conjunto de dados de exemplo de entrada anterior deve definir os seguintes parâmetros:
+ O parâmetro `label` deve usar a expressão [JMESPath](https://jmespath.org/) `[*].label` para extrair o rótulo de verdade fundamental para cada registro no conjunto de dados. A expressão JMESPath deve produzir uma lista de rótulos onde o i-ésimo rótulo corresponde ao i-ésimo registro.
+ O parâmetro `features` deve usar a expressão JMESPath `[*].features` para extrair uma matriz de atributos para cada registro no conjunto de dados. A expressão JMESPath deve produzir um array ou matriz 2D onde a i-ésima linha contém os valores do atributo correspondente ao i-ésimo registro.

  A seguir estão exemplos de dados de entrada com registros que contêm uma chave de nível superior e uma chave aninhada que contém uma lista de atributos e rótulos para cada registro.

```
{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}
```

Um exemplo de análise de configuração para o conjunto de dados de exemplo de entrada anterior deve definir os seguintes parâmetros:
+ O parâmetro `label` usa a expressão [JMESPath](https://jmespath.org/) do `data[*].label` para extrair o rótulo de verdade para cada registro no conjunto de dados. A expressão JMESPath deve produzir uma lista de rótulos onde o i-ésimo rótulo é para o i-ésimo registro.
+ O parâmetro `features` usa a expressão `data[*].features` do JMESPath para extrair a matriz de atributos, para cada registro no conjunto de dados. A expressão JMESPath deve produzir um variedade ou matriz 2D onde a i-ésima linha contém os valores do atributo para o i-ésimo registro.

### Pré-requisitos de conjunto de dados tabulares em Formato JSON Lines
<a name="clarify-processing-job-data-format-tabular-prereq-jsonlines"></a>

Linhas JSON é um formato de texto para representar dados estruturados em que cada linha é um objeto JSON válido. Atualmente, os trabalhos de processamento do SageMaker Clarify são compatíveis apenas com linhas JSON de formato denso SageMaker AI. Para estar em conformidade com o formato exigido, todos os atributos de um registro devem ser listados em uma única matriz JSON. Para obter mais informações sobre linhas JSON, consulte [Formato da solicitação JSONLINES](cdf-inference.md#cm-jsonlines).

**nota**  
Todos os arquivos de dados de linhas JSON fornecidos para a tarefa de processamento do SageMaker Clarify devem ser codificados UTF-8 para garantir a compatibilidade.

A seguir está um exemplo de como definir uma configuração de análise para um registro que contém uma **chave de nível superior** e uma **lista** de elementos. 

```
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...
```

A análise de configuração do exemplo de conjunto de dados anterior deve definir os parâmetros da seguinte forma:
+ Para indicar a localização do rótulo de verdade fundamental, o parâmetro `label` deve ser definido como a expressão JMESPath `label`.
+ Para indicar a localização da matriz de atributos, o parâmetro `features` deve ser definido como a expressão JMESPath `features`.

Veja a seguir um exemplo de como definir uma configuração de análise para um registro que contém uma **chave de nível superior** e uma **chave aninhada** que contém uma **lista** de elementos. 

```
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...
```

A análise de configuração do exemplo de conjunto de dados anterior deve definir os parâmetros da seguinte forma:
+ O parâmetro `label` deve ser definido como a expressão JMESPath `data.label` para indicar a localização do rótulo de verdade.
+ O parâmetro `features` deve ser definido como a expressão JMESPath `data.features` para indicar a localização da matriz de atributos.

### Pré-requisitos de conjunto de dados tabulares em formato Parquet
<a name="clarify-processing-job-data-format-tabular-prereq-parquet"></a>

O [Parquet](https://parquet.apache.org/) é um formato de dados binários orientado por colunas. Atualmente, os trabalhos de processamento do SageMaker Clarify oferecem suporte ao carregamento de arquivos de dados do Parquet somente quando a contagem de instâncias de processamento é`1`.

Como os trabalhos de processamento do SageMaker Clarify não oferecem suporte à solicitação do endpoint ou à resposta do endpoint no formato Parquet, você deve especificar o formato de dados da solicitação do endpoint definindo o parâmetro de configuração da análise `content_type` para um formato compatível. Para obter mais informações, consulte `content_type` em [Arquivos de configuração de análise](clarify-processing-job-configure-analysis.md).

Os dados do Parquet devem ter nomes das colunas formatados como cadeias de caracteres. Use o parâmetro `label` de configuração de análise para definir o nome da coluna do rótulo para indicar a localização dos rótulos verdadeiros fundamentais. Todas as outras colunas são designadas como atributos.