

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Criar um conjunto de dados
<a name="canvas-data-flow"></a>

Use um fluxo do Data Wrangler no SageMaker Canvas, ou *fluxo de dados*, para criar e modificar um pipeline de preparação de dados. Recomendamos que você use o Data Wrangler para conjuntos de dados maiores que 5 GB.

Para começar a usar, siga o procedimento apresentado a seguir para importar seus dados para um fluxo de dados.

1. Abra SageMaker a tela.

1. No painel de navegação à esquerda, selecione **Data Wrangler**.

1. Escolha **Importar e preparar**.

1. No menu suspenso, escolha **Tabular** ou **Imagem**.

1. Em **Selecionar uma fonte de dados**, escolha sua fonte de dados e os dados que você deseja importar. Você tem a opção de selecionar até 30 arquivos ou uma pasta. Se você já tiver um conjunto de dados importado para o Canvas, escolha o **conjunto de dados Canvas** como sua fonte. Caso contrário, conecte-se a uma fonte de dados como Amazon S3 ou Snowflake e navegue pelos seus dados. Para obter informações sobre como se conectar a uma fonte de dados ou importar dados, consulte as páginas a seguir:
   + [importar dados](canvas-importing-data.md)
   + [Conectar-se à fonte de dados](canvas-connecting-external.md)

1. Depois de selecionar os dados que você deseja importar, escolha **Avançar**.

1. (Opcional) Para a seção **Configurações de importação** ao importar um conjunto de dados tabular, expanda o menu suspenso **Avançado**. Você pode especificar as seguintes configurações avançadas para importações de fluxo de dados:
   + **Método de amostragem**: Selecione o método de amostragem e o tamanho da amostra que você gostaria de usar. Para obter mais informações sobre como alterar a sua amostra ,consulte [Edite a configuração de amostragem do fluxo de dados](canvas-data-flow-edit-sampling.md).
   + **Codificação de arquivo (CSV)**: Selecione a codificação do arquivo do seu conjunto de dados. `UTF-8` é o padrão.
   + **Pular as primeiras linhas**: insira o número de linhas que você gostaria de ignorar a importação se tiver linhas redundantes no início do seu conjunto de dados.
   + **Delimitador**: Selecione o delimitador que separa cada item em seus dados. Você também pode especificar um delimitador personalizado.
   + **Detecção de várias linhas**: Selecione essa opção se quiser que o Canvas analise manualmente todo o seu conjunto de dados para células de várias linhas. O Canvas determina se deve ou não usar a compatibilidade com várias linhas coletando uma amostra de seus dados, mas o Canvas pode não detectar nenhuma célula de várias linhas na amostra. Nesse caso, recomendamos que você selecione a opção **Detecção de várias linhas** para forçar o Canvas a verificar todo o conjunto de dados em busca de células com várias linhas.

1. Escolha **Importar**.

Agora você deve ter um novo fluxo de dados e começar a adicionar etapas e análises de transformação.