

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用串流資料來源
<a name="edit-jobs-source-streaming"></a>

您可以建立串流擷取、轉換和載入 (ETL) 任務，讓它連續執行並從 Amazon Kinesis Data Streams、Apache Kafka 和 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 的串流來源使用資料。

**設定串流資料來源的屬性**

1. 前往新任務或已儲存任務的視覺化圖表編輯器。

1. 在 Kafka 或 Kinesis Data Streams 的圖形中選擇資料來源節點。

1. 選擇 **Data source properties (資料來源屬性)** 索引標籤，然後輸入下列資訊：

------
#### [ Kinesis ]
   + **Kinesis source type** (Kinesis 來源類型)：選擇選項 **Stream details** (串流詳細資訊) 以使用直接存取串流來源，或選擇 **Data Catalog table** ( Data Catalog 資料表) 以改用儲存在其中的資訊。

     如果選擇 **Stream details **(串流詳細資訊)，則指定下列其他資訊。
     + **資料串流位置**：選擇串流是否與目前的使用者相關聯，或是與不同的使用者相關聯。
     + **區域**：選擇串流所在的 AWS 區域 。此資訊用於建構存取資料串流的 ARN。
     + **Stream ARN (串流 ARN)**：輸入 Kinesis 資料串流的 Amazon Resource Name (ARN)。如果串流位於目前帳戶內，可以從下拉式清單中選擇串流名稱。您可以使用搜尋欄位來依名稱或 ARN 搜尋資料串流。
     + **Data format** (資料格式)：從清單中選擇資料串流使用的格式。

       AWS Glue 會自動從串流資料偵測結構描述。

     如果選擇 **Data Catalog table** ( Data Catalog 資料表)，指定下列其他資訊。
     + **Database** (資料庫)：(選用) 在 AWS Glue Data Catalog 中選擇資料庫，其中包含與串流資料來源相關聯的資料表。您可以使用搜尋欄位來依名稱搜尋資料庫。
     + **Table** (資料表)：(選用) 從清單中選擇與來源資料相關聯的資料表。此資料表必須已存在於 AWS Glue Data Catalog 中。您可以使用搜尋欄位來依名稱搜尋資料表。
     + **Detect schema** (偵測結構描述)：選擇此選項可讓 AWS Glue 偵測來自串流資料的結構描述，而不是使用 Data Catalog 資料表中的結構描述資訊。如果您選擇 **Stream details** (串流詳細資訊) 選項，則自動啟用此選項。
   + **Starting position** (開始位置)：依預設，ETL 任務會使用 **Earliest** (最早) 選項，這表示它會從串流中最早期的可用記錄開始讀取資料。您可以改為選擇 **Latest** (最新)，這表示 ETL 任務應該從串流中的最新記錄之後開始讀取。
   + **Window size (時段大小)**：依預設 ETL 任務以 100 秒的時段處理和寫出資料。這樣可以有效處理資料，並且可在資料到達時間比預期晚時執行彙總。您可以修改此間隔大小，以提高適時性或彙總正確性。

     AWS Glue 串流任務使用檢查點而非任務書籤來追蹤已讀取的資料。
   + **Connection options** (連線選項)：展開此區段以新增索引鍵-值配對，以指定其他連線選項。如需您可以在此指定哪些選項的相關資訊，請參閱《*AWS Glue 開發人員指南*》中的 ["connectionType": "kinesis"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-kinesis)。

------
#### [ Kafka ]
   + **Apache Kafka source** (Apache Kafka 來源)：選擇選項 **Stream details** (串流詳細資訊) 以使用直接存取串流來源，或選擇 **Data Catalog table** ( Data Catalog 資料表) 來改用儲存在其中的資訊。

     如果選擇 **Data Catalog table** ( Data Catalog 資料表)，指定下列其他資訊。
     + **Database** (資料庫)：(選用) 在 AWS Glue Data Catalog 中選擇資料庫，其中包含與串流資料來源相關聯的資料表。您可以使用搜尋欄位來依名稱搜尋資料庫。
     + **Table** (資料表)：(選用) 從清單中選擇與來源資料相關聯的資料表。此資料表必須已存在於 AWS Glue Data Catalog 中。您可以使用搜尋欄位來依名稱搜尋資料表。
     + **Detect schema** (偵測結構描述)：選擇此選項可讓 AWS Glue 偵測來自串流資料的結構描述，而不是使用 Data Catalog 資料表中的結構描述資訊。如果您選擇 **Stream details** (串流詳細資訊) 選項，則自動啟用此選項。

     如果選擇 **Stream details **(串流詳細資訊)，則指定下列其他資訊。
     + **連線名稱** (Connection name)：選擇包含 Kafka 資料串流的存取和身分驗證資訊的 AWS Glue 連線。您必須將此連線與 Kafka 串流資料來源搭配使用。如果連線不存在，您可以使用 AWS Glue 主控台為您的 Kafka 資料串流建立連線。
     + **Topic name** (主題名稱)：輸入要讀取的主題名稱。
     + **Data format** (資料格式)：選擇從 Kafka 事件資料流讀取資料時使用的格式。
   + **Starting position** (開始位置)：預設情況下，ETL 任務會使用 **Earliest** (最早) 選項，這表示它會從串流中最早期的可用記錄開始讀取資料。您可以改為選擇 **Latest** (最新)，這表示 ETL 任務應該從串流中的最新記錄之後開始讀取。
   + **Window size (時段大小)**：依預設 ETL 任務以 100 秒的時段處理和寫出資料。這樣可以有效處理資料，並且可在資料到達時間比預期晚時執行彙總。您可以修改此間隔大小，以提高適時性或彙總正確性。

     AWS Glue 串流任務使用檢查點而不是任務書籤來追蹤已讀取的資料。
   + **Connection options** (連線選項)：展開此區段以新增索引鍵-值配對，以指定其他連線選項。如需您可以在此指定哪些選項的相關資訊，請參閱《*AWS Glue 開發人員指南*》中的 ["connectionType": "kinesis"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-kafka)。

------

**注意**  
資料預覽目前不支援串流資料來源。