

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Fontes de dados e ingestão
<a name="feature-store-ingest-data"></a>

Os registros são adicionados aos seus grupos de atributos por meio da ingestão. Dependendo do caso de uso desejado, os registros ingeridos podem ser mantidos dentro do grupo de atributos ou não. Isso depende da configuração de armazenamento, se seu grupo de atributos usa o armazenamento offline ou online. O armazenamento offline é usado como um banco de dados histórico, normalmente usado para exploração de dados, treinamento de modelos de machine learning (ML) e inferência em lote. O armazenamento on-line é usado como uma pesquisa em tempo real de registros, normalmente usado para veiculação de modelos de ML. Para obter mais informações sobre conceitos e ingestão do Feature Store, consulte [Conceitos do Feature Store](feature-store-concepts.md).

Há várias maneiras de trazer seus dados para a Amazon SageMaker Feature Store. O Feature Store oferece uma chamada de API única para ingestão de dados chamada `PutRecord`, que permite ingerir dados em lotes ou de fontes de streaming. Você pode usar o Amazon SageMaker Data Wrangler para criar recursos e, em seguida, inserir seus recursos em sua Feature Store. Você também pode usar o Amazon EMR para ingestão de dados em lote por meio de um conector Spark.

Nos tópicos a seguir, discutiremos a diferença entre 

**Topics**
+ [Ingestão de streaming](#feature-store-ingest-data-stream)
+ [Data Wrangler com o Feature Store](#feature-store-data-wrangler-integration)
+ [Ingestão em lote com a Amazon SageMaker Feature Store Spark](batch-ingestion-spark-connector-setup.md)

## Ingestão de streaming
<a name="feature-store-ingest-data-stream"></a>

É possível usar fontes de streaming, como o Kafka ou Kinesis, como fonte de dados quando os registros são extraídos e enviados diretamente ao armazenamento on-line para treinamento, inferência ou criação de atributos. Os registros podem ser ingeridos em seu grupo de atributos usando a chamada de API `PutRecord` síncrona. Como essa é uma chamada de API síncrona, ela permite que pequenos lotes de atualizações sejam enviados em uma única chamada de API. Isso permite que você mantenha um alto nível de atualização dos valores do atributo e publique os valores assim que uma atualização for detectada. Esses também são chamados de atributos de *streaming*. 

## Data Wrangler com o Feature Store
<a name="feature-store-data-wrangler-integration"></a>

O Data Wrangler é um atributo do Studio Classic que fornece uma solução completa para importar, preparar, transformar, adicionar atributos e analisar dados. O Data Wrangler permite que você projete seus atributos e os inclua nos grupos de atributos do seu armazenamento on-line ou offline.

As instruções a seguir exportam um caderno Jupyter que contém todo o código-fonte necessário para criar um grupo de atributos do Feature Store que adiciona seus atributos do Data Wrangler a um armazenamento on-line ou offline.

As instruções sobre como exportar seu fluxo de dados do Data Wrangler para o Feature Store no console variam dependendo se você habilitou [SageMaker Estúdio Amazon](studio-updated.md) ou [Amazon SageMaker Studio Clássico](studio.md) como sua experiência padrão.

### Exportar seu fluxo de dados do Data Wrangler para o Feature Store se o Studio for sua experiência padrão (console)
<a name="feature-store-ingest-data-wrangler-integration-with-studio-updated"></a>

1. Abra o console do Studio seguindo as instruções em [Inicie o Amazon SageMaker Studio](studio-updated-launch.md).

1. Escolha **Dados** no painel esquerdo para expandir a lista suspensa.

1. Na lista suspensa, escolha **Data Wrangler**.

1. Se você já tiver uma instância do Amazon SageMaker Canvas em execução, escolha **Open Canvas**.

   Se você não tiver uma instância do SageMaker Canvas em execução, escolha **Executar no Canvas**.

1. No console do SageMaker Canvas, escolha **Data Wrangler** no painel de navegação esquerdo.

1. Escolha **Fluxos de dados** para visualizar seus fluxos de dados.

1. Escolha **\+** para expandir a lista suspensa.

1. Escolha **Exportar fluxo de dados** para expandir a lista suspensa.

1. Escolha **Salvar na SageMaker Feature Store (via JupyterLab Notebook)**.

1. **Em “Exportar fluxo de dados como caderno”**, escolha uma das seguintes opções:
   + **Faça download de uma cópia local** para fazer download do fluxo de dados em sua máquina local.
   + **Exporte para o local do S3** para baixar o fluxo de dados para um local do Amazon Simple Storage Service e insira o local do Amazon S3 ou escolha **Procurar** para encontrar seu local do Amazon S3.

1. Escolha **Exportar**.

 Depois que o grupo de atributos for criado, você também poderá selecionar e juntar dados em vários grupos de atributos para criar novos atributos de engenharia no Data Wrangler e depois exportar seu conjunto de dados para um bucket do Amazon S3. 

Para obter mais informações sobre como exportar para a Feature Store, consulte [Exportar para a SageMaker AI Feature Store](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-data-export.html#data-wrangler-data-export-feature-store). 