

# Usar uma fonte de dados de transmissão
<a name="edit-jobs-source-streaming"></a>

É possível criar trabalhos de extração, transformação e carregamento (ETL) de transmissão que sejam executados continuamente e que consumam dados de fontes de transmissão, como o Amazon Kinesis Data Streams, Apache Kafka e Amazon Managed Streaming for Apache Kafka (Amazon MSK).

**Para configurar propriedades de uma fonte de dados de transmissão**

1. Vá para o editor visual de um trabalho novo ou salvo.

1. Escolha um nó de origem dos dados no gráfico para fluxos de dados do Kafka ou do Kinesis.

1. Escolha a guia **Data source properties** (Propriedades da origem dos dados) e insira as seguintes informações:

------
#### [ Kinesis ]
   + **Kinesis source type** (Tipo de origem do Kinesis): escolha a opção **Stream details** (Detalhes do fluxo) para usar o acesso direto à fonte de transmissão ou escolha **Data Catalog Table**(Tabela do Data Catalog) para usar as informações nele armazenadas.

     Se você escolher **Stream details** (Detalhes do fluxo), especifique as informações adicionais a seguir.
     + **Local do fluxo de dados**: escolha se o fluxo está associado ao usuário atual ou a outro usuário.
     + **Region** (Região): escolha a Região da AWS onde o fluxo existe. Essas informações são usadas para construir o ARN para acesso ao fluxo de dados.
     + **Stream ARN** (ARN do fluxo): o nome do recurso da Amazon (ARN) do fluxos de dados do Kinesis. Se o fluxo estiver localizado na conta atual, você poderá escolher o nome do fluxo na lista suspensa. É possível usar o campo de pesquisa para procurar um fluxo de dados por seu nome ou ARN.
     + **Data format** (Formato de dados): escolha na lista o formato usado pelo fluxo de dados. 

       AWS GlueO detecta automaticamente o esquema dos dados da transmissão.

     Se você escolher **Data Catalog table** (Tabela do Data Catalog), especifique as informações adicionais a seguir.
     + **Database** (Banco de dados): (opcional) escolha o banco de dados no AWS Glue Data Catalog que contém a tabela associada à sua fonte de dados de transmissão. É possível usar o campo de pesquisa para procurar um banco de dados pelo nome. 
     + **Table** (Tabela): (opcional) escolha a tabela associada aos dados de origem na lista. Essa tabela já deve existir no AWS Glue Data Catalog. É possível usar o campo de pesquisa para procurar uma tabela pelo nome. 
     + **Detect schema** (Detectar esquema): escolha essa opção para que o AWS Glue detecte o esquema dos dados da transmissão, em vez de usar as informações do esquema em uma tabela do Data Catalog. Essa opção é habilitada automaticamente quando a opção **Stream details** (Detalhes do fluxo) é escolhida.
   + **Starting position** (Posição inicial): por padrão, o trabalho de ETL usa a opção **Earliest** (Mais antiga), o que significa que ele lê dados começando com o registro mais antigo disponível no fluxo. Em vez disso, você pode escolher **Latest** (Mais recente), o que indica que o trabalho de ETL deve começar a leitura logo após o registro mais recente no fluxo.
   + **Window size** (Tamanho da janela): por padrão, o trabalho de ETL processa e grava dados em janelas de 100 segundos. Isso permite que os dados sejam processados de forma eficiente e que as agregações sejam realizadas em dados que chegam mais tarde do que o esperado. É possível modificar esse tamanho da janela para aumentar a pontualidade ou a precisão da agregação. 

     AWS GlueOs trabalhos de transmissão do usam pontos de verificação em vez de marcadores de trabalho para rastrear os dados que foram lidos. 
   + **Connection options** (Opções de conexão): expanda essa seção para adicionar pares de chave-valor a fim de especificar opções de conexão adicionais. Para obter informações sobre quais opções você pode especificar aqui, consulte ["connectionType": "kinesis"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-kinesis) no *Guia do desenvolvedor do AWS Glue*.

------
#### [ Kafka ]
   + **Apache Kafka source** (Origem do Apache Kafka): escolha a opção **Stream details** (Detalhes do fluxo) para usar o acesso direto à fonte de transmissão ou escolha **Data Catalog Table**(Tabela do Data Catalog) para usar as informações nele armazenadas.

     Se você escolher **Data Catalog table** (Tabela do Data Catalog), especifique as informações adicionais a seguir.
     + **Database** (Banco de dados): (opcional) escolha o banco de dados no AWS Glue Data Catalog que contém a tabela associada à sua fonte de dados de transmissão. É possível usar o campo de pesquisa para procurar um banco de dados pelo nome. 
     + **Table** (Tabela): (opcional) escolha a tabela associada aos dados de origem na lista. Essa tabela já deve existir no AWS Glue Data Catalog. É possível usar o campo de pesquisa para procurar uma tabela pelo nome. 
     + **Detect schema** (Detectar esquema): escolha essa opção para que o AWS Glue detecte o esquema dos dados de transmissão, em vez de armazenar as informações do esquema em uma tabela do Data Catalog. Essa opção é habilitada automaticamente quando a opção **Stream details** (Detalhes do fluxo) é escolhida.

     Se você escolher **Stream details** (Detalhes do fluxo), especifique as informações adicionais a seguir.
     + **Connection name** (Nome da conexão): escolha a conexão do AWS Glue que contém as informações de acesso e autenticação para o fluxo de dados do Kafka. Você deve usar uma conexão com origens de dados de streaming do Kafka. Se uma conexão não existe, é possível usar o console do AWS Glue para criar uma conexão para o fluxo de dados do Kafka.
     + **Topic name** (Nome do tópico): insira o nome do tópico do qual a leitura será feita.
     + **Data format** (Formato dos dados): escolha o formato a ser usado ao ler dados da sequência de eventos do Kafka. 
   + **Starting position** (Posição inicial): por padrão, o trabalho de ETL usa a opção **Earliest** (Mais antiga), o que significa que ele lê dados começando com o registro mais antigo disponível no fluxo. Em vez disso, você pode escolher **Latest** (Mais recente), o que indica que o trabalho de ETL deve começar a leitura logo após o registro mais recente no fluxo.
   + **Window size** (Tamanho da janela): por padrão, o trabalho de ETL processa e grava dados em janelas de 100 segundos. Isso permite que os dados sejam processados de forma eficiente e que as agregações sejam realizadas em dados que chegam mais tarde do que o esperado. É possível modificar esse tamanho da janela para aumentar a pontualidade ou a precisão da agregação. 

     AWS GlueOs trabalhos de transmissão do usam pontos de verificação em vez de marcadores de trabalho para rastrear os dados que foram lidos. 
   + **Connection options** (Opções de conexão): expanda essa seção para adicionar pares de chave-valor a fim de especificar opções de conexão adicionais. Para obter informações sobre quais opções você pode especificar aqui, consulte ["connectionType": "kafka"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-kafka) no *Guia do desenvolvedor do AWS Glue*.

------

**nota**  
As previsualizações de dados não são suportadas atualmente para fontes de dados de transmissão.