

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Preparar dados para a criação de modelos
<a name="canvas-prepare-data"></a>

**nota**  
Agora você pode fazer a preparação avançada de dados no SageMaker Canvas com o Data Wrangler, que fornece uma interface de linguagem natural e mais de 300 transformações integradas. Para obter mais informações, consulte [preparação de dados](canvas-data-prep.md).

Seu conjunto de dados de machine learning pode exigir preparação de dados antes de você compilar seu modelo. Talvez você queira limpar seus dados devido a vários problemas, que podem incluir valores ausentes ou valores atípicos, e realizar engenharia de atributos para melhorar a precisão do seu modelo. O Amazon SageMaker Canvas fornece transformações de dados de ML com as quais você pode limpar, transformar e preparar seus dados para a criação de modelos. Você pode usar essas transformações em seus conjuntos de dados sem nenhum código. SageMaker O Canvas adiciona as transformações que você usa à **receita do modelo**, que é um registro da preparação de dados feita em seus dados antes de criar o modelo. Qualquer transformação de dados que você usa apenas modifica os dados de entrada para a compilação do modelo e não modifica sua fonte de dados original.

A pré-visualização do seu conjunto de dados mostra as primeiras 100 linhas do conjunto de dados. Se seu conjunto de dados tiver mais de 20.000 linhas, o Canvas pega uma amostra aleatória de 20.000 linhas e pré-visualiza as primeiras 100 linhas dessa amostra. Você só pode pesquisar e especificar valores das linhas pré-visualizadas e a funcionalidade de filtro somente filtra as linhas pré-visualizadas e não o conjunto de dados inteiro.

As seguintes transformações estão disponíveis no SageMaker Canvas para você preparar seus dados para a construção.

**nota**  
Você só pode usar transformações avançadas para modelos criados em conjuntos de dados tabulares. Modelos de predição de texto de várias categorias também são excluídos.

## Destacar coluna
<a name="canvas-prepare-data-drop"></a>

Você pode excluir uma coluna da construção do seu modelo soltando-a na guia **Construir** do aplicativo SageMaker Canvas. Desmarque a coluna que você deseja descartar e ela não será incluída ao compilar o modelo.

**nota**  
Se você soltar colunas e, em seguida, fizer [previsões em lote](canvas-make-predictions.md) com seu modelo, o SageMaker Canvas adicionará as colunas descartadas de volta ao conjunto de dados de saída disponível para download. No entanto, o SageMaker Canvas não adiciona as colunas descartadas para modelos de séries temporais.

## Filtrar linhas
<a name="canvas-prepare-data-filter"></a>

A funcionalidade de filtro filtra as linhas pré-visualizadas (as primeiras 100 linhas do seu conjunto de dados) de acordo com as condições que você especificar. A filtragem de linhas cria uma pré-visualização temporária dos dados e não afeta a compilação do modelo. Você pode filtrar para visualizar linhas que tenham valores ausentes, contenham valores atípicos ou atendam às condições personalizadas em uma coluna de sua escolha.

### Filtrar linhas por valores ausentes
<a name="canvas-prepare-data-filter-missing"></a>

Valores ausentes são uma ocorrência comum em conjuntos de dados de machine learning. Se você tiver linhas com valores nulos ou vazios em determinadas colunas, talvez queira filtrar e pré-visualizar essas linhas.

Para filtrar os valores ausentes dos dados pré-visualizados, faça o seguinte:

1. Na guia **Criar** do aplicativo SageMaker Canvas, escolha **Filtrar por linhas** (![Filter icon in the SageMaker Canvas application.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Escolha a **Coluna** em que você deseja verificar se há valores ausentes.

1. Para a **Operação**, escolha **Está ausente**.

SageMaker O Canvas filtra as linhas que contêm valores ausentes na **coluna** que você selecionou e fornece uma visualização prévia das linhas filtradas.

![Captura de tela do filtro pela operação de valores ausentes no aplicativo SageMaker Canvas.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-filter-missing.png)


### Filtrar linhas por valores atípicos
<a name="canvas-prepare-data-filter-outliers"></a>

Valores discrepantes, ou valores raros na distribuição e no alcance de seus dados, podem afetar negativamente a precisão do modelo e levar a tempos de construção mais longos. SageMaker O Canvas permite detectar e filtrar linhas que contêm valores discrepantes em colunas numéricas. Você pode escolher definir valores atípicos com desvios padrão ou com um intervalo personalizado.

Para filtrar valores atípicos em seus dados, faça o seguinte:

1. Na guia **Criar** do aplicativo SageMaker Canvas, escolha **Filtrar por linhas** (![Filter icon in the SageMaker Canvas application.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Escolha a **Coluna** em que você deseja verificar se há valores atípicos.

1. Para a **Operação**, escolha **É valor atípico**.

1. Configure o **Intervalo de valores atípicos** como **Desvio padrão** ou **Intervalo personalizado**.

1. Se você escolher **Desvio padrão**, especifique um valor **SD** (desvio padrão) de 1–3. Se você escolher **Intervalo personalizado**, selecione **Percentil** ou **Número** e, em seguida, especifique os valores **Mínimo** e **Máximo**.

A opção **Desvio padrão** detecta e filtra valores atípicos em colunas numéricas usando a média e o desvio padrão. Você especifica o número de desvios padrão dos quais um valor deve variar da média para ser considerado um valor atípico. Por exemplo, se você especificar `3` para **SD**, um valor deve ter queda maior que 3 desvios padrão da média para ser considerado um valor atípico.

A opção de **Intervalo personalizado** detecta e filtra valores atípicos em colunas numéricas usando valores mínimos e máximos. Use esse método se você conhece seus valores limite que delimitam valores atípicos. Você pode definir o **Tipo** do intervalo como **Percentil** ou **Número**. Se você escolher **Percentil**, os valores **Mínimo** e **Máximo** deverão ser o mínimo e o máximo do intervalo de percentis (0-100) que você deseja permitir. Se você escolher **Número**, os valores **Mínimo** e **Máximo** devem ser os valores numéricos mínimo e máximo que você deseja filtrar nos dados.

![Captura de tela da operação de filtragem por valores discrepantes no aplicativo Canvas. SageMaker](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-filter-outlier.png)


### Filtrar linhas por valores personalizados
<a name="canvas-prepare-data-filter-custom"></a>

Você pode filtrar por linhas com valores que atendam às condições personalizadas. Por exemplo, talvez você queira pré-visualizar linhas com um valor de preço maior que 100 antes de removê-las. Com essa funcionalidade, você pode filtrar linhas que excedam o limite definido e pré-visualizar os dados filtrados.

Para usar a funcionalidade de filtro personalizado, faça o seguinte:

1. Na guia **Criar** do aplicativo SageMaker Canvas, escolha **Filtrar por linhas** (![Filter icon in the SageMaker Canvas application.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Escolha a **Coluna** que você deseja verificar.

1. Selecione o tipo de **Operação** que você deseja usar e, em seguida, especifique os valores para a condição selecionada.

Para a **Operação**, escolha uma das opções a seguir. Observe que as operações disponíveis dependem do tipo de dados da coluna que você escolher. Por exemplo, não é possível criar uma operação `is greater than` para uma coluna contendo valores de texto.


| Operation | Tipos de dados compatíveis | Tipo de atributo compatível | Função | 
| --- | --- | --- | --- | 
| É igual a | Numérico, Texto | Binário, Categóricos | Filtra as linhas em que o valor na **Coluna** é igual aos valores que você especifica. | 
| Não é igual a | Numérico, Texto | Binário, Categóricos | Filtra linhas em que o valor na **Coluna** não é igual aos valores que você especifica. | 
| É menor que | Numérico | N/D | Filtra linhas em que o valor na **Coluna** é menor que o valor especificado. | 
| É menor que ou igual a | Numérico | N/D | Filtra linhas em que o valor em **Coluna** é menor que ou igual ao valor especificado por você. | 
| É maior que | Numérico | N/D | Filtra as linhas em que o valor na **Coluna** é maior do que o valor especificado por você. | 
| É maior ou igual a | Numérico | N/D | Filtra linhas em que o valor na **Coluna** é maior que ou igual ao valor especificado por você. | 
| Está entre | Numérico | N/D | Filtra linhas em que o valor na **Coluna** está entre ou é igual a dois valores que você especifica. | 
| Contém | Texto | Categóricos | Filtra as linhas em que o valor na **Coluna** contém valores que você especifica. | 
| Inicia com | Texto | Categóricos | Filtra as linhas em que o valor na **Coluna** começa com um valor especificado por você. | 
| Termina com | Categóricos | Categóricos | Filtra as linhas em que o valor na **Coluna** termina com um valor especificado por você. | 

Depois de definir a operação de filtro, o SageMaker Canvas atualiza a visualização do conjunto de dados para mostrar os dados filtrados.

![Captura de tela da operação de filtro por valores personalizados no aplicativo SageMaker Canvas.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-filter-custom.png)


## Funções e operadores
<a name="canvas-prepare-data-custom-formula"></a>

Você pode usar funções e operadores matemáticos para explorar e distribuir seus dados. Você pode usar as funções suportadas pelo SageMaker Canvas ou criar sua própria fórmula com seus dados existentes e criar uma nova coluna com o resultado da fórmula. Por exemplo, você pode adicionar os valores correspondentes de duas colunas e salvar o resultado em uma nova coluna.

Você pode agrupar instruções para criar funções mais complexas. Veja a seguir alguns exemplos de funções agrupadas que você pode usar.
+ Para calcular o BMI, você pode usar a função `weight / (height ^ 2)`.
+ Para classificar as idades, você pode usar a função `Case(age < 18, 'child', age < 65, 'adult', 'senior')`.

Você pode especificar funções no estágio de preparação de dados antes de compilar seu modelo. Para usar uma função, faça o seguinte:
+ Na guia **Criar** do aplicativo SageMaker Canvas, escolha **Exibir tudo** e, em seguida, escolha **Fórmula personalizada** para abrir o painel **Fórmula personalizada**.
+ No painel **Fórmula personalizada**, você pode escolher uma **Fórmula** para adicionar à sua **Fórmula Modelo**. Cada fórmula é aplicada a todos os valores nas colunas que você especificar. Para fórmulas que aceitam duas ou mais colunas como argumentos, use colunas com tipos de dados correspondentes; caso contrário, você receberá um erro ou valores `null` na nova coluna. 
+ Depois de especificar uma **fórmula**, adicione um nome de coluna no campo **Nome da nova coluna**. SageMaker O Canvas usa esse nome para a nova coluna que é criada.
+ (Opcional) Escolha **Pré-Visualizar** para ver sua transformação.
+ Para adicionar a função à sua **fórmula modelo**, escolha **Adicionar**.

SageMaker O Canvas salva o resultado da sua função em uma nova coluna usando o nome que você especificou em **Nome da nova coluna**. Você pode visualizar ou remover funções do painel **Fórmula modelo**.

SageMaker O Canvas suporta os seguintes operadores para funções. Você pode usar o formato de texto ou o formato em linha para especificar sua função.


| Operador | Description | Tipos de dados compatíveis | Formato de texto | Formato em linha | 
| --- | --- | --- | --- | --- | 
| Adicionar | Retorna a soma dos valores | Numérico | Add(sales1, sales2) | sales1 \+ sales2 | 
| Subtrair | Retorna a diferença entre os valores | Numérico | Subtract(sales1, sales2) | sales1 ‐ sales2 | 
| Multiplicar | Retorna o produto dos valores | Numérico | Multiply(sales1, sales2) | sales1 \* sales2 | 
| Dividir | Retorna o quociente dos valores | Numérico | Divide(sales1, sales2) | sales1 / sales2 | 
| Mod | Retorna o resultado do operador do módulo (o restante após a divisão dos dois valores) | Numérico | Mod(sales1, sales2) | sales1 % sales2 | 
| Abs | Retorna o valor absoluto do valor. | Numérico | Abs(sales1) | N/D | 
| Negar | Retorna o negativo do valor | Numérico | Negar (c1) | -c1 | 
| Exp | Retorna e (número de Euler) elevado à potência do valor | Numérico | Exp(sales1) | N/D | 
| Log | Retorna o logaritmo (base 10) do valor. | Numérico | Log(sales1) | N/D | 
| Ln | Retorna o logaritmo natural (base e) do valor | Numérico | Ln(sales1) | N/D | 
| Pow | Retorna o valor elevado a uma potência | Numérico | Pow(sales1, 2) | vendas1 ^ 2 | 
| If (Se) | Retorna um rótulo verdadeiro ou falso com base em uma condição especificada por você | Booleano, numérico, texto | If(sales1>7000, 'truelabel, 'falselabel') | N/D | 
| Ou | Retorna um valor booleano se um dos valores/condições especificados for verdadeiro ou não | Booleano | Ou (preço integral, desconto) | preço integral \|\| desconto | 
| E | Retorna um valor booleano se dois dos valores/condições especificados são verdadeiros ou não | Booleano | And(sales1,sales2) | sales1 && sales2 | 
| Não | Retorna um valor booleano que é o oposto do valor/condições especificados | Booleano | Not(sales1) | \!sales1 | 
| Caso | Retorna um valor booleano com base em declarações condicionais (retorna c1 se cond1 for verdadeiro, retorna c2 se cond2 for verdadeiro, senão retorna c3) | Booleano, numérico, texto | Caso (cond1, c1, cond2, c2, c3) | N/D | 
| Equal | Retorna um valor booleano de se dois valores forem iguais | Booleano, numérico, texto | N/D | c1 = c2<br />c1 == c2 | 
| Not equal | Retorna um valor booleano de se dois valores não forem iguais | Booleano, numérico, texto | N/D | c1\! = c2 | 
| Menor que | Retorna um valor booleano se c1 é menor que c2 | Booleano, numérico, texto | N/D | c1 < c2 | 
| Maior que | Retorna um valor booleano se c1 é maior que c2 | Booleano, numérico, texto | N/D | c1 > c2 | 
| Menor ou igual a | Retorna um valor booleano se c1 é menor ou igual a c2 | Booleano, numérico, texto | N/D | c1 <= c2 | 
| Maior ou igual a | Retorna um valor booleano se c1 é maior ou igual a c2 | Booleano, numérico, texto | N/D | c1 >= c2 | 

SageMaker O Canvas também suporta operadores agregados, que podem realizar operações como calcular a soma de todos os valores ou encontrar o valor mínimo em uma coluna. Você pode usar operadores agregados em combinação com operadores padrão em suas funções. Por exemplo, para calcular a diferença de valores em relação à média, você pode usar a função`Abs(height – avg(height))`. SageMaker O Canvas suporta os seguintes operadores agregados.


| Operador de agregação | Description | Formato | Exemplo | 
| --- | --- | --- | --- | 
| soma | Retorna a soma de todos os valores em uma coluna | soma | soma (c1) | 
| mínimo | Retorna o valor mínimo de uma coluna | min | minuto (c2) | 
| máximo | Retorna o valor máximo de uma coluna | max | max(c3) | 
| média | Retorna o valor médio de uma coluna | avg | avg(c4) | 
| std | Retorna o desvio padrão da amostra de uma coluna | std | std(c1) | 
| stddev | Retorna o desvio padrão dos valores em uma coluna | stddev | stddev(c1) | 
| variância | Retorna a variância imparcial dos valores em uma coluna | variância | variância (c1) | 
| approx\_count\_distinct | Retorna o número aproximado de itens distintos em uma coluna | approx\_count\_distinct | approx\_count\_distinct(c1) | 
| contagem | Retorna o número de itens em uma coluna | contagem | count(c1) | 
| first | Retorna o primeiro valor de uma coluna | first | first(c1) | 
| last | Retorna o último valor de uma coluna | last | last(c1) | 
| stddev\_pop | Retorna o desvio padrão da população de uma coluna | stddev\_pop | stddev\_pop(c1) | 
| variance\_pop | Retorna a variância populacional dos valores em uma coluna | variance\_pop | variance\_pop(c1) | 

## Gerenciar linhas
<a name="canvas-prepare-data-manage"></a>

Com a transformação Gerenciar linhas, você pode realizar a classificação, a reprodução aleatória e remover linhas de dados do conjunto de dados.

### Classificar linhas
<a name="canvas-prepare-data-manage-sort"></a>

Para classificar as linhas em um conjunto de dados por uma determinada coluna, faça o seguinte:

1. Na guia **Criar** do aplicativo SageMaker Canvas, escolha **Gerenciar linhas** e, em seguida, escolha **Classificar linhas**.

1. Em **Classificar coluna**, escolha a coluna pela qual você deseja classificar.

1. Em **Ordem de classificação**, escolha **Crescente** ou **Decrescente**.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

### Embaralhar linhas
<a name="canvas-prepare-data-manage-shuffle"></a>

Para embaralhar aleatoriamente as linhas em um conjunto de dados, faça o seguinte:

1. Na guia **Construir** do aplicativo SageMaker Canvas, escolha **Gerenciar linhas** e, em seguida, escolha **Misturar linhas**.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

### Descartar linhas duplicadas
<a name="canvas-prepare-data-manage-drop-duplicate"></a>

Para remover linhas duplicadas em um conjunto de dados, faça o seguinte:

1. Na guia **Criar** do aplicativo SageMaker Canvas, escolha **Gerenciar linhas** e, em seguida, escolha **Eliminar linhas duplicadas**.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

### Remover linhas por valores ausentes
<a name="canvas-prepare-data-remove-missing"></a>

Valores ausentes são uma ocorrência comum em conjuntos de dados de machine learning e podem afetar a precisão do modelo. Use essa transformação se quiser eliminar linhas com valores nulos ou vazios em determinadas colunas.

Para remover linhas que contêm valores ausentes em uma coluna especificada, faça o seguinte:

1. Na guia **Construir** do aplicativo SageMaker Canvas, escolha **Gerenciar linhas**.

1. Escolha **Eliminar linhas por valores ausentes**.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

SageMaker O Canvas remove as linhas que contêm valores ausentes na **coluna** que você selecionou. Depois de remover as linhas do conjunto de dados, o SageMaker Canvas adiciona a transformação na seção **Receita do modelo**. Se você remover a transformação da seção **Fórmula modelo**, as linhas retornarão ao seu conjunto de dados.

![Captura de tela da operação de remoção de linhas por valores ausentes no aplicativo SageMaker Canvas.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-remove-missing.png)


### Remover linhas por valores atípicos
<a name="canvas-prepare-data-remove-outliers"></a>

Valores atípicos, ou valores raros na distribuição e no intervalo de seus dados podem afetar negativamente a precisão do modelo e levar a tempos de compilação mais longos. Com o SageMaker Canvas, você pode detectar e remover linhas que contêm valores discrepantes em colunas numéricas. Você pode escolher definir valores atípicos com desvios padrão ou com um intervalo personalizado.

Para remover valores atípicos de seus dados, faça o seguinte:

1. Na guia **Construir** do aplicativo SageMaker Canvas, escolha **Gerenciar linhas**.

1. Escolha **Eliminar linhas por valores atípicos**.

1. Escolha a **Coluna** em que você deseja verificar se há valores atípicos.

1. Defina o **operador** para **desvio padrão**, intervalo **numérico personalizado** ou **intervalo quantil personalizado**.

1. Se você escolher **Desvio padrão**, especifique um valor de **Desvios padrão** (desvio padrão) de 1 a 3. Se você escolher **Intervalo numérico personalizado** ou **Intervalo de quantil personalizado**, especifique os valores **mínimo** e **máximo** (números para intervalos numéricos ou percentis entre 0 e 100% para intervalos de quantil).

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

A opção **Desvio padrão** detecta e remove as discrepâncias em colunas numéricas usando a média e o desvio padrão. Você especifica o número de desvios padrão dos quais um valor deve variar da média para ser considerado um valor atípico. Por exemplo, se você especificar `3` para **Desvios padrão**, um valor deve estar em valor maior que 3 desvios padrão da média para ser considerado um valor atípico.

As opções **Intervalo numérico** e **Intervalo quantil personalizado** detectam e removem as discrepâncias em colunas numéricas usando valores mínimos e máximos. Use esse método se você conhece seus valores limite que delimitam valores atípicos. Se você escolher um intervalo numérico, os valores **Min** e **Max** devem ser os valores numéricos mínimo e máximo que você deseja permitir nos dados. Se você escolher um intervalo de quantil, os valores **Min** e **Max** devem ser o mínimo e o máximo do intervalo de percentis (0 a 100) que você deseja permitir.

Depois de remover as linhas do conjunto de dados, o SageMaker Canvas adiciona a transformação na seção **Receita do modelo**. Se você remover a transformação da seção **Fórmula modelo**, as linhas retornarão ao seu conjunto de dados.

![Captura de tela da operação de remoção de linhas por valores discrepantes no aplicativo Canvas. SageMaker](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-remove-outlier.png)


### Remover linhas por valores personalizados
<a name="canvas-prepare-data-remove-custom"></a>

Você pode remover linhas com valores que atendam às condições personalizadas. Por exemplo, talvez você queira excluir todas as linhas com um valor de preço maior que 100 ao compilar seu modelo. Com essa transformação, você pode criar uma regra que remove todas as linhas que excedem o limite que você definiu.

Para usar a transformação de remoção personalizada, faça o seguinte:

1. Na guia **Construir** do aplicativo SageMaker Canvas, escolha **Gerenciar linhas**.

1. Escolha **Descartar linhas por fórmula**.

1. Escolha a **Coluna** que você deseja verificar.

1. Selecione o tipo de **Operação** que você deseja usar e, em seguida, especifique os valores para a condição selecionada.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

Para a **Operação**, escolha uma das opções a seguir. Observe que as operações disponíveis dependem do tipo de dados da coluna que você escolher. Por exemplo, não é possível criar uma operação `is greater than` para uma coluna contendo valores de texto.


| Operation | Tipos de dados compatíveis | Tipo de atributo compatível | Função | 
| --- | --- | --- | --- | 
| É igual a | Numérico, Texto | Binário, Categóricos | Remove as linhas em que o valor em **Coluna** é igual aos valores que você especifica. | 
| Não é igual a | Numérico, Texto | Binário, Categóricos | Remove as linhas em que o valor em **Coluna** não é igual aos valores que você especifica. | 
| É menor que | Numérico | N/D | Remove as linhas em que o valor em **Coluna** é menor que o valor especificado. | 
| É menor que ou igual a | Numérico | N/D | Remove linhas em que o valor em **Coluna** é menor que ou igual ao valor especificado por você. | 
| É maior que | Numérico | N/D | Remove as linhas em que o valor em **Coluna** é maior do que o valor especificado por você. | 
| É maior ou igual a | Numérico | N/D | Remove linhas em que o valor em **Coluna** é maior que ou igual ao valor especificado por você. | 
| Está entre | Numérico | N/D | Remove as linhas em que o valor na **Coluna** está entre ou é igual a dois valores que você especifica. | 
| Contém | Texto | Categóricos | Remove as linhas nas quais o valor na **Coluna** contém os valores especificados por você. | 
| Inicia com | Texto | Categóricos | Remove as linhas nas quais o valor na **Coluna** começa com um valor especificado por você. | 
| Termina com | Texto | Categóricos | Remove as linhas nas quais o valor na **Coluna** termina com um valor especificado por você. | 

Depois de remover as linhas do conjunto de dados, o SageMaker Canvas adiciona a transformação na seção **Receita do modelo**. Se você remover a transformação da seção **Fórmula modelo**, as linhas retornarão ao seu conjunto de dados.

![Captura de tela da operação de remoção de linhas por valores personalizados no aplicativo SageMaker Canvas.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-remove-custom.png)


## Renomear colunas
<a name="canvas-prepare-data-rename"></a>

Com a transformação renomear colunas, você pode renomear colunas em seus dados. Quando você renomeia uma coluna, o SageMaker Canvas altera o nome da coluna na entrada do modelo.

Você pode renomear uma coluna em seu conjunto de dados clicando duas vezes no nome da coluna na guia **Construir** do aplicativo SageMaker Canvas e inserindo um novo nome. Pressionar a tecla **Enter** envia a alteração e clicar em qualquer lugar fora da entrada cancela a alteração. Você também pode renomear uma coluna clicando no ícone **Mais opções** (![](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)), localizado no final da linha na visualização em lista ou no final da célula do cabeçalho na visualização em grade e escolhendo **Renomear**.

O nome da coluna não pode ter mais de 32 caracteres nem ter sublinhados duplos (\_\_) e você não pode renomear uma coluna com o mesmo nome de outra coluna. Você também não pode renomear uma coluna descartada.

A captura de tela a seguir mostra como renomear uma coluna clicando duas vezes no nome da coluna.

![Captura de tela da renomeação de uma coluna com o método de clique duplo no SageMaker aplicativo Canvas.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-rename-column.png)


Quando você renomeia uma coluna, o SageMaker Canvas adiciona a transformação na seção **Receita do modelo**. Se você remover a transformação da seção **Fórmula modelo**, a coluna retornará ao nome original.

## Gerenciar colunas
<a name="canvas-prepare-data-manage-cols"></a>

Com as transformações a seguir, você pode alterar o tipo de dados das colunas e substituir valores ausentes ou valores discrepantes por colunas específicas. SageMaker O Canvas usa os tipos ou valores de dados atualizados ao criar seu modelo, mas não altera seu conjunto de dados original. Observe que, se você descartou uma coluna do seu conjunto de dados usando a transformação [Destacar coluna](#canvas-prepare-data-drop), não poderá substituir valores nessa coluna.

### Substituir valores ausentes
<a name="canvas-prepare-data-replace-missing"></a>

Valores ausentes são uma ocorrência comum em conjuntos de dados de machine learning e podem afetar a precisão do modelo. Você pode optar por descartar linhas com valores ausentes, mas seu modelo será mais preciso se você escolher substituir os valores ausentes. Com essa transformação, você pode substituir valores ausentes nas colunas numéricas pela média ou mediana dos dados em uma coluna, ou também pode especificar um valor personalizado com o qual substituir valores ausentes. Para colunas não numéricas, você pode substituir valores ausentes com o modo (valor mais comum) da coluna ou por um valor personalizado.

Use essa transformação se quiser substituir os valores nulos ou vazios em determinadas colunas. Para substituir valores ausentes em uma coluna especificada, faça o seguinte: 

1. Na guia **Criar** do aplicativo SageMaker Canvas, escolha **Gerenciar colunas**.

1. Escolha **Substituir valores ausentes**.

1. Escolha a **Coluna** na qual você deseja substituir valores ausentes.

1. Defina o **Modo** como **Manual** para substituir valores ausentes pelos valores especificados por você. Com a configuração **Automática (padrão)**, o SageMaker Canvas substitui os valores ausentes pelos valores imputados que melhor se ajustam aos seus dados. Esse método de atribuição é feito automaticamente para cada construção de modelo, a menos que você especifique o modo **Manual**.

1. Defina o valor **Substituir por valor**:
   + Se sua coluna for numérica, selecione **Média**, **Mediana** ou **Personalizada**. A **Média** substitui valores ausentes pela média da coluna e a **Mediana** substitui valores ausentes pela mediana da coluna. Se você escolher **Personalizado**, deverá especificar um valor personalizado que deseja usar para substituir valores ausentes.
   + Se sua coluna for numérica, selecione **Modo** ou **Personalizada**. O **Modo** substitui valores ausentes pelo modo ou pelo valor mais comum da coluna. Em **Personalizado**, especifique um valor personalizado que você deseja usar para substituir valores ausentes.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

Depois de substituir os valores ausentes no conjunto de dados, o SageMaker Canvas adiciona a transformação na seção **Receita do modelo**. Se você remover a transformação da seção **Fórmula modelo**, os valores ausentes retornarão ao conjunto de dados.

![Captura de tela da operação de substituição de valores ausentes no aplicativo SageMaker Canvas.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-replace-missing.png)


### Substituir valores atípicos
<a name="canvas-prepare-data-replace-outliers"></a>

Valores discrepantes, ou valores raros na distribuição e no alcance de seus dados, podem afetar negativamente a precisão do modelo e levar a tempos de construção mais longos. SageMaker O Canvas permite que você detecte valores discrepantes em colunas numéricas e substitua os valores discrepantes por valores que estejam dentro de um intervalo aceito em seus dados. Você pode optar por definir valores atípicos com desvios padrão ou com um intervalo personalizado e pode substituir os valores atípicos pelos valores mínimo e máximo no intervalo aceito.

Para substituir valores atípicos em seus dados, faça o seguinte:

1. Na guia **Criar** do aplicativo SageMaker Canvas, escolha **Gerenciar colunas**.

1. Escolha **Substituir valores atípicos**.

1. Escolha a **Coluna** na qual você deseja substituir valores atípicos.

1. Em **Definir valores atípicos**, escolha **Desvio padrão**, **Intervalo numérico personalizado** ou **Intervalo quantil personalizado.**

1. Se você escolher **Desvio padrão**, especifique um valor de **Desvios padrão** (desvio padrão) de 1 a 3. Se você escolher **Intervalo numérico personalizado** ou **Intervalo de quantil personalizado**, especifique os valores **mínimo** e **máximo** (números para intervalos numéricos ou percentis entre 0 e 100% para intervalos de quantil).

1. Em **Substituir por**, selecione **Intervalo mínimo/máximo**.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

A opção **Desvio padrão** detecta valores atípicos em colunas numéricas usando a média e o desvio padrão. Você especifica o número de desvios padrão dos quais um valor deve variar da média para ser considerado um valor atípico. Por exemplo, se você especificar 3 para **desvios padrão**, um valor deve cair mais de 3 desvios padrão da média para ser considerado um valor atípico. SageMaker O Canvas substitui os valores atípicos pelo valor mínimo ou máximo no intervalo aceito. Por exemplo, se você configurar os desvios padrão para incluir apenas valores de 200 a 300, o SageMaker Canvas alterará um valor de 198 para 200 (o mínimo).

As opções de **Intervalo numérico personalizado** e **Intervalo quantil personalizado** detectam valores atípicos em colunas numéricas usando valores mínimos e máximos. Use esse método se você conhece seus valores limite que delimitam valores atípicos. Se você escolher um intervalo numérico, os valores **mínimo** e **máximo** devem ser os valores numéricos mínimo e máximo que você deseja permitir. SageMaker O Canvas substitui quaisquer valores que estejam fora do mínimo e máximo pelos valores mínimo e máximo. Por exemplo, se seu intervalo permitir apenas valores de 1 a 100, o SageMaker Canvas alterará um valor de 102 para 100 (o máximo). Se você escolher um intervalo de quantil, os valores **Min** e **Max** devem ser o mínimo e o máximo do intervalo de percentis (0 a 100) que você deseja permitir.

Depois de substituir os valores no conjunto de dados, o SageMaker Canvas adiciona a transformação na seção **Receita do modelo**. Se você remover a transformação da seção **Fórmula modelo**, os valores originais retornarão ao conjunto de dados.

![Captura de tela da operação de substituição de valores atípicos no aplicativo Canvas. SageMaker](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-replace-outlier.png)


### Alterar tipo de dados
<a name="canvas-prepare-data-change-type"></a>

SageMaker O Canvas fornece a capacidade de alterar o *tipo de dados* de suas colunas entre numérico, texto e data e hora, além de exibir o tipo de *recurso associado a esse tipo de* dados. Um *tipo de dados* refere-se ao formato dos dados e o modo como eles são armazenados, enquanto o *tipo de atributo* refere-se à característica dos dados usados em algoritmos de machine learning, como binário ou categórico. Isso dá a você a flexibilidade de alterar manualmente o tipo de dados em suas colunas com base nas funcionalidades. A capacidade de escolher o tipo de dados certo garante a integridade e a precisão dos dados antes da compilação de modelos. Esses tipos de dados são usados na compilação de modelos.

**nota**  
Atualmente, a alteração do tipo de atributo (por exemplo, de binário para categórico) não é compatível.

A tabela a seguir lista todos os tipos de dados compatíveis com o Canvas.


| Tipo de dados | Description | Exemplo | 
| --- | --- | --- | 
| Numérico | Os dados numéricos representam valores numéricos | 1, 2, 3<br />1.1, 1.2. 1.3 | 
| Texto | Os dados de texto representam sequências de caracteres, como nomes ou descrições | A, B, C, D<br />maçã, banana, laranja<br />1A\! , 2A\! , 3A\! | 
| Datetime | Os dados de datetime representam datas e horas no formato da data e hora. | 2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00 | 

A tabela a seguir lista todos os tipos de atributo compatíveis com o Canvas.


| Tipo de atributo | Description | Exemplo | 
| --- | --- | --- | 
| Binário | Os atributos binários representam dois valores possíveis | 0, 1, 0, 1, 0 (2 valores distintos)<br />verdadeiro, falso, verdadeiro (2 valores distintos) | 
| Categóricos | Atributos categóricos representam categorias ou grupos distintos | maçã, banana, laranja, maçã (3 valores distintos)<br />A, B, C, D, E, A, D, C (5 valores distintos) | 

Para modificar o tipo de dados de uma coluna em um conjunto de dados, faça o seguinte:

1. Na guia **Criar** do aplicativo SageMaker Canvas, vá para a Visualização em **coluna ou Visualização** em **grade** e selecione a lista suspensa **Tipo de dados** para a coluna específica.

1. Na lista suspensa **Tipo de dados**, escolha o tipo de dados para o qual converter. A captura de tela a seguir mostra a lista suspensa.  
![O menu suspenso de conversão de tipo de dados para uma coluna, mostrado na guia Compilar](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-change.png)

1. Em **Coluna**, escolha ou verifique a coluna para a qual você deseja alterar o tipo de dados.

1. Em **Novo tipo de dados**, escolha ou verifique o novo tipo de dados para o qual você deseja converter.

1. Se o **Novo tipo de dados** for `Datetime` ou `Numeric`, escolha uma das seguintes opções em **Identificar valores inválidos**:

   1. **Substituir por valor vazio**: Valores inválidos são substituídos por um valor em branco

   1. **Excluir linhas**: As linhas com um valor inválido são removidas do conjunto de dados

   1. **Substituir por valor personalizado**: Valores inválidos são substituídos pelo **valor personalizado** que você especificar.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

O tipo de dados da sua coluna agora deve estar atualizado.

## Preparar dados de séries temporais
<a name="canvas-prepare-data-timeseries"></a>

Use as seguintes funcionalidades para preparar seus dados de séries temporais para criar modelos de previsão de séries temporais:

### Reamostragem de dados de séries temporais
<a name="canvas-prepare-data-resample"></a>

Ao reamostrar dados de séries temporais, você pode estabelecer intervalos regulares para as observações em seu conjunto de dados de séries temporais. Isso é particularmente útil ao trabalhar com dados de séries temporais contendo observações com espaçamento irregular. Por exemplo, você pode usar a reamostragem para transformar um conjunto de dados com observações registradas em intervalos de uma hora, duas horas e três horas em um intervalo regular de uma hora entre as observações. Algoritmos de previsão exigem que as observações sejam feitas em intervalos regulares.

Para reamostrar dados de séries temporais, faça o seguinte:

1. Na guia **Construir** do aplicativo SageMaker Canvas, escolha **Série temporal**.

1. Escolha **Reamostrar**.

1. Para a **Coluna de data e hora**, escolha a coluna à qual você deseja aplicar a transformação. Você só pode selecionar colunas do tipo **Datetime**.

1. Na seção **Configurações de frequência**, escolha uma **Frequência** e uma **Taxa**. **Frequência** é a unidade de frequência e **Taxa** é o intervalo da unidade de frequência a ser aplicada à coluna. Por exemplo, escolher `Calendar Day` entre **Valor de frequência** e `1` para a **Taxa** define o intervalo a ser aumentado a cada 1 dia do calendário, como `2023-03-26 00:00:00`, `2023-03-27 00:00:00` e `2023-03-28 00:00:00`. Consulte a tabela após esse procedimento para obter uma lista completa dos **Valores de frequência**. 

1. Escolha **Adicionar** para adicionar a transformação à **Fórmula do modelo**.

A tabela a seguir lista todos os tipos de **frequência** que você pode selecionar ao reamostrar dados de séries temporais.


| Frequência | Description | Valores de exemplo (supondo que a taxa seja 1) | 
| --- | --- | --- | 
| Dia útil | Reamostre as observações na coluna datetime para 5 dias úteis da semana (Segunda-feira, Terça-feira, Quarta-feira, Quinta-feira e Sexta-feira) | 2023-03-24 00:00:00<br />2023-03-27 00:00:00<br />2023-03-28 00:00:00<br />2023-03-29 00:00:00<br />2023-03-30 00:00:00<br />2023-03-31 00:00:00<br />2023-04-03 00:00:00 | 
| Dia do calendário | Reamostre as observações na coluna datetime para todos os 7 dias da semana (Segunda-feira, Terça-feira, Quarta-feira, Quinta-feira, Sexta-feira, Sábado e Domingo) | 2023-03-26 00:00:00<br />2023-03-27 00:00:00<br />2023-03-28 00:00:00<br />2023-03-29 00:00:00<br />2023-03-30 00:00:00<br />2023-03-31 00:00:00<br />2023-04-01 00:00:00 | 
| Semana | Observações de reamostragem na coluna de datetime para o primeiro dia de cada semana | 2023-03-13 00:00:00<br />2023-03-20 00:00:00<br />2023-03-27 00:00:00<br />2023-04-03 00:00:00 | 
| Mês | Observações de reamostragem na coluna datetime para o primeiro dia de cada mês | 2023-03-01 00:00:00<br />2023-04-01 00:00:00<br />2023-05-01 00:00:00<br />2023-06-01 00:00:00 | 
| Trimestre anual | Observações de reamostragem na coluna datetime para o primeiro dia de cada trimestre | 2023-03-31 00:00:00<br />2023-06-30 00:00:00<br />2023-09-30 00:00:00<br />2023-12-31 00:00:00 | 
| Ano | Observações de reamostragem na coluna datetime para o último dia de cada ano | 2022-12-31 0:00:00<br />2023-12-31 00:00:00<br />2024-12-31 00:00:00 | 
| Hora | Observações de reamostragem na coluna datetime para o cada hora de cada dia | 2023-03-24 00:00:00<br />2023-03-24 01:00:00<br />2023-03-24 02:00:00<br />2023-03-24 03:00:00 | 
| Minuto | Observações de reamostragem na coluna datetime para o cada minuto de cada hora | 2023-03-24 00:00:00<br />2023-03-24 00:01:00<br />2023-03-24 00:02:00<br />2023-03-24 00:03:00 | 
| Segunda | Observações de reamostragem na coluna datetime para o cada segundo de cada minuto | 2023-03-24 00:00:00<br />2023-03-24 00:00:01<br />2023-03-24 00:00:02<br />2023-03-24 00:00:03 | 

Ao aplicar a transformação de reamostragem, você pode usar a opção **Avançada** para especificar como os valores resultantes do restante das colunas (exceto a coluna de data e hora) em seu conjunto de dados são modificados. Isso pode ser obtido especificando a metodologia de reamostragem, que pode ser a redução ou o aumento de amostras para colunas numéricas e não numéricas.

O *downsampling* (redução da taxa de amostragem) aumenta o intervalo entre as observações no conjunto de dados. Por exemplo, se você reduzir a resolução de observações feitas a cada hora ou a cada duas horas, cada observação em seu conjunto de dados será feita a cada duas horas. Os valores de outras colunas das observações por hora são agregados em um valor único usando um método de combinação. A tabela a seguir mostra um exemplo de redução da amostragem de dados de séries temporais usando a média como método de combinação. Os dados são reduzidos de duas em duas horas para cada hora.

A tabela a seguir mostra as leituras de temperatura por hora durante um dia antes da redução da amostragem.


| Timestamp | Temperatura (Celsius) | 
| --- | --- | 
| 12:00h | 30 | 
| 1:00 am | 32 | 
| 2:00 am | 35 | 
| 3:00 am | 32 | 
| 4:00 am | 30 | 

A tabela a seguir mostra as leituras de temperatura após a redução da amostragem para cada duas horas.


| Timestamp | Temperatura (Celsius) | 
| --- | --- | 
| 12:00h | 30 | 
| 2:00 am | 33.5 | 
| 2:00 am | 35 | 
| 4:00 am | 32,5 | 

Para reduzir a resolução dos dados de série temporal, faça o seguinte:

1. Expanda a seção **Avançado** na transformação **Resample**.

1. Escolha **combinação não numérica** para especificar o método de combinação para colunas não numéricas. Consulte a tabela a seguir para obter uma lista completa de métodos de combinação.

1. Escolha **Combinação numérica** para especificar o método de combinação para colunas numéricas. Consulte a tabela a seguir para obter uma lista completa de métodos de combinação.

Se você não especificar métodos de combinação, os valores padrão são `Most Common` para **combinação não numérica** e `Mean` para **combinação numérica**. A tabela a seguir lista os métodos para combinação numérica e não numérica.


| Metodologia de redução da amostragem | Método de combinação | Description | 
| --- | --- | --- | 
| Combinação não numérica | Mais comum | Agregue valores na coluna não numérica pelo valor que ocorre com mais frequência | 
| Combinação não numérica | Last | Valores agregados na coluna não numérica pelo último valor na coluna | 
| Combinação não numérica | First | Valores agregados na coluna não numérica pelo último valor na coluna | 
| Combinação numérica | Média | Agregue valores na coluna numérica tomando a média de todos os valores na coluna | 
| Combinação numérica | Mediana | Agregue valores na coluna numérica tomando a média de todos os valores na coluna | 
| Combinação numérica | Mín. | Agregue valores na coluna numérica tomando o valor mínimo de todos os valores na coluna | 
| Combinação numérica | Máx | Agregue valores na coluna numérica tomando o valor máximo de todos os valores na coluna | 
| Combinação numérica | Soma | Agregue valores na coluna numérica adicionando todos os valores na coluna | 
| Combinação numérica | Quantil | Agregue valores na coluna numérica tomando o quantil de todos os valores na coluna | 

O *upsampling* (aumento da taxa de amostragem) reduz o intervalo entre as observações no conjunto de dados. Por exemplo, se você aumentar as observações de amostragem feitas a cada duas horas em observações de hora em hora, os valores de outras colunas das observações de hora em hora são interpoladas a partir daquelas que foram feitas a cada duas horas.

Para aumentar a amostragem de dados de séries temporais, faça o seguinte:

1. Expanda a seção **Avançado** na transformação **Resample**.

1. Escolha **Estimativa não numérica** para especificar o método de estimativa para colunas não numéricas. Consulte a tabela após esse procedimento para obter uma lista completa dos métodos.

1. Escolha **Estimativa numérica** para especificar o método de estimativa para colunas numéricas. Consulte a tabela a seguir para obter uma lista completa de métodos.

1. (Opcional) Escolha **Coluna ID** para especificar a IDs coluna que contém as observações da série temporal. Especifique essa opção se seu conjunto de dados tiver duas séries temporais. Se você tiver uma coluna representando somente uma série temporal, não especifique um valor para esse campo. Por exemplo, você pode ter um conjunto de dados com as colunas `id` e `purchase`. A coluna `id` tem os seguintes valores: `[1, 2, 2, 1]`. A coluna `purchase` tem os seguintes valores `[$2, $3, $4, $1]`: Portanto, o conjunto de dados tem duas séries temporais: uma série temporal é: `1: [$2, $1]` e a outra série temporal é `2: [$3, $4]`.

Se você não especificar métodos de estimativa, os valores padrão são `Forward Fill` para **estimativa não numérica** e `Linear` para **estimativa numérica**. A tabela a seguir lista os métodos de estimativa.


| Metodologia de aumento da amostragem | Método de estimativa | Description | 
| --- | --- | --- | 
| Estimativa não numérica | Preenchimento de avanço | Interpole valores na coluna não numérica tomando os valores consecutivos depois de todos os valores na coluna | 
| Estimativa não numérica | Preenchimento retroativo | Interpole valores na coluna não numérica tomando os valores consecutivos antes de todos os valores na coluna | 
| Estimativa não numérica | Continuar ausente | Interpole valores na coluna não numérica mostrando valores vazios | 
| Estimativa numérica | Linear, Tempo, Índice, Zero, S-Linear, Mais Próximo, Quadrático, Cúbico, Baricêntrico, Polinômio, Krogh, Polinômio por Partes, Spline, P-chip, Akima, Spline Cúbico, a partir de Derivadas | Interpole valores na coluna numérica usando o interpolador especificado. [Para obter informações sobre métodos de interpolação, consulte pandas. DataFrame.interpolate na documentação do](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html) pandas. | 

A captura de tela a seguir mostra as configurações **avançadas** com os campos para redução e aumento da amostragem preenchidos.

![Captura de tela da aplicação Canvas, com o painel lateral de reamostragem de séries temporais mostrando as opções avançadas.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-resampling.png)


### Use a extração datetime
<a name="canvas-prepare-data-datetime"></a>

Com a transformação de extração datetime, você pode extrair valores de uma coluna de datetime para uma coluna separada. Por exemplo, se você tiver uma coluna contendo datas de compras, você poderá extrair o valor do mês em uma coluna separada e usar a nova coluna ao compilar seu modelo. Você também pode extrair vários valores para separar colunas com uma única transformação.

Sua coluna datetime deve usar um formato da data e hora compatível. Para obter uma lista dos formatos que o SageMaker Canvas suporta, consulte[Previsões de séries temporais no Amazon Canvas SageMaker](canvas-time-series.md). Se seu conjunto de dados não usar um dos formatos compatíveis, atualize-o para usar um formato de carimbo de data/hora compatível e reimporte-o para o SageMaker Amazon Canvas antes de criar seu modelo.

Para realizar uma extração de datetime, faça o seguinte:

1. Na guia **Criar** do aplicativo SageMaker Canvas, na barra de transformações, escolha **Exibir tudo**.

1. Escolha **Extrair atributos**.

1. Escolha a **coluna de data e hora** da qual você deseja extrair valores.

1. Em **Valores**, selecione um ou mais valores para extrair da coluna. Os valores que você pode extrair de uma coluna de data e hora são **Ano**, **Mês**, **Dia**, **Hora**, **Semana do ano**, **Dia do ano** e **Trimestre.**

1. (Opcional) Escolha **Pré-Visualização** para pré-visualizar os resultados da transformação.

1. Escolha **Adicionar** para adicionar a transformação à **Receita do modelo**.

SageMaker O Canvas cria uma nova coluna no conjunto de dados para cada um dos valores que você extrai. Com exceção dos valores de **ano**, o SageMaker Canvas usa uma codificação baseada em 0 para os valores extraídos. Por exemplo, se você extrair o valor do **Mês**, Janeiro será extraído como 0 e Fevereiro será extraído como 1.

![Captura de tela da caixa de extração de data e hora no aplicativo SageMaker Canvas.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/studio/canvas/canvas-datetime-extract.png)


Você pode ver a transformação listada na seção **Fórmula modelo**. Se você remover a transformação da seção **Fórmula modelo**, as novas colunas serão removidas do conjunto de dados.