

# 스트리밍 데이터 원본 사용
<a name="edit-jobs-source-streaming"></a>

지속적으로 실행되고 Amazon Kinesis Data Streams, Apache Kafka 및 Amazon Managed Streaming for Apache Kafka(Amazon MSK)의 스트리밍 소스의 데이터 사용하는 스트리밍 추출, 변환, 로드 작업을 생성할 수 있습니다.

**스트리밍 데이터 원본의 속성을 구성하려면**

1. 새 작업 또는 저장된 작업의 시각적 그래프 편집기로 이동합니다.

1. Kafka 또는 Kinesis Data Streams에 대한 그래프에서 데이터 원본 노드를 선택합니다.

1. [**데이터 원본 속성(Data source properties)**] 탭을 선택한 후 다음 정보를 입력합니다.

------
#### [ Kinesis ]
   + **Kinesis 소스 유형(Kinesis source type)**: **스트림 세부 정보(Stream details)** 옵션을 선택하여 스트리밍 소스에 직접 액세스하거나 **데이터 카탈로그 테이블(Data Catalog table)**을 선택하여 테이블에 저장된 정보를 대신 사용합니다.

     **스트림 세부 정보(Stream details)**를 선택한 경우 다음 추가 정보를 지정합니다.
     + **데이터 스트림 위치**: 스트림이 현재 사용자와 연결되어 있는지 또는 다른 사용자와 연결되어 있는지 여부를 선택합니다.
     + **리전(Region)**: 스트림이 있는 AWS 리전을 선택합니다. 이 정보는 데이터 스트림에 액세스하기 위한 ARN을 구성하는 데 사용됩니다.
     + **스트림 ARN(Stream ARN)**: Kinesis 데이터 스트림의 Amazon 리소스 이름(ARN)을 입력합니다. 스트림이 현재 계정 내에 있는 경우 드롭다운 목록에서 스트림 이름을 선택할 수 있습니다. 검색 필드를 사용하여 이름이나 ARN으로 데이터 스트림을 검색할 수 있습니다.
     + **데이터 포맷(Data format)**: 목록에서 데이터 스트림에 사용할 포맷을 선택합니다.

       AWS Glue는 스트리밍 데이터에서 스키마를 자동으로 탐지합니다.

     **데이터 카탈로그 테이블(Data Catalog table)**을 선택한 경우 다음 추가 정보를 지정합니다.
     + **데이터베이스(Database)**: (선택 사항) AWS Glue 데이터 카탈로그에서 스트리밍 데이터 원본과 연결된 테이블이 포함된 데이터베이스를 선택합니다. 검색 필드를 사용하여 이름으로 데이터베이스를 검색할 수 있습니다.
     + [**테이블(Table)**]: (선택 사항) 목록에서 원본 데이터와 연결된 테이블을 선택합니다. 이 테이블이 AWS Glue 데이터 카탈로그에 이미 존재해야 합니다. 검색 필드를 사용하여 이름으로 테이블을 검색할 수 있습니다.
     + **스키마 탐지(Detect schema)**: AWS Glue가 데이터 카탈로그 테이블의 스키마 정보를 사용하는 대신 스트리밍 데이터에서 스키마를 탐지하도록 하려면 이 옵션을 선택합니다. **스트림 세부 정보(Stream details)** 옵션을 선택한 경우 이 옵션은 자동으로 사용됩니다.
   + **시작 위치(Starting position)**: 기본값으로 ETL 작업은 **가장 오래된 항목(Earliest)** 옵션을 사용하므로 스트림에서 사용 가능한 가장 오래된 레코드부터 데이터를 읽습니다. **최신 항목(Latest)**을 대신 선택할 수도 있습니다. 이 경우 ETL 작업은 스트림에서 가장 최근 레코드 직후부터 읽기를 시작해야 합니다.
   + [**기간 크기(Window size)**]: 기본적으로 ETL 작업은 100초 기간에 데이터를 처리하고 작성합니다. 이를 통해 데이터를 효율적으로 처리할 수 있으며 예상보다 늦게 도착하는 데이터에 대해 집계를 수행할 수 있습니다. 이 기간 크기를 수정하여 적시성 또는 집계 정확도를 높일 수 있습니다.

     AWS Glue 스트리밍 작업은 작업 북마크 대신 체크포인트를 사용하여 읽은 데이터를 추적합니다.
   + **연결 옵션(Connection options)**: 키-값 페어를 추가하여 추가 연결 옵션을 지정하려면 이 섹션을 확장합니다. 여기에서 지정할 수 있는 옵션에 대한 자세한 내용은 *AWS Glue 개발자 가이드*의 ["connectionType": "kinesis"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-kinesis)를 참조하세요.

------
#### [ Kafka ]
   + **Apache Kafka 소스(Apache Kafka source)**: **스트림 세부 정보(Stream details)** 옵션을 선택하여 스트리밍 소스에 직접 액세스하거나 **데이터 카탈로그 테이블(Data Catalog table)**을 선택하여 테이블에 저장된 정보를 대신 사용합니다.

     **데이터 카탈로그 테이블(Data Catalog table)**을 선택한 경우 다음 추가 정보를 지정합니다.
     + **데이터베이스(Database)**: (선택 사항) AWS Glue 데이터 카탈로그에서 스트리밍 데이터 원본과 연결된 테이블이 포함된 데이터베이스를 선택합니다. 검색 필드를 사용하여 이름으로 데이터베이스를 검색할 수 있습니다.
     + [**테이블(Table)**]: (선택 사항) 목록에서 원본 데이터와 연결된 테이블을 선택합니다. 이 테이블이 AWS Glue 데이터 카탈로그에 이미 존재해야 합니다. 검색 필드를 사용하여 이름으로 테이블을 검색할 수 있습니다.
     + **스키마 탐지(Detect schema)**: AWS Glue가 데이터 카탈로그 테이블에 스키마 정보를 저장하는 대신 스트리밍 데이터에서 스키마를 탐지하도록 하려면 이 옵션을 선택합니다. **스트림 세부 정보(Stream details)** 옵션을 선택한 경우 이 옵션은 자동으로 사용됩니다.

     **스트림 세부 정보(Stream details)**를 선택한 경우 다음 추가 정보를 지정합니다.
     + **연결 이름(Connection name)**: Kafka 데이터 스트림에 대한 액세스 및 인증 정보가 포함된 AWS Glue 연결을 선택합니다. Kafka 스트리밍 데이터 원본과의 연결을 사용해야 합니다. 연결이 없는 경우 AWS Glue 콘솔을 사용하여 Kafka 데이터 스트림에 대한 연결을 생성할 수 있습니다.
     + **주제 이름(Topic name)**: 읽을 주제의 이름을 입력합니다.
     + **데이터 포맷(Data format)**: Kafka 이벤트 스트림에서 데이터를 읽을 때 사용할 포맷을 선택합니다.
   + **시작 위치(Starting position)**: 기본값으로 ETL 작업은 **가장 오래된 항목(Earliest)** 옵션을 사용하므로 스트림에서 사용 가능한 가장 오래된 레코드부터 데이터를 읽습니다. **최신 항목(Latest)**을 대신 선택할 수도 있습니다. 이 경우 ETL 작업은 스트림에서 가장 최근 레코드 직후부터 읽기를 시작해야 합니다.
   + [**기간 크기(Window size)**]: 기본적으로 ETL 작업은 100초 기간에 데이터를 처리하고 작성합니다. 이를 통해 데이터를 효율적으로 처리할 수 있으며 예상보다 늦게 도착하는 데이터에 대해 집계를 수행할 수 있습니다. 이 기간 크기를 수정하여 적시성 또는 집계 정확도를 높일 수 있습니다.

     AWS Glue 스트리밍 작업은 작업 북마크 대신 체크포인트를 사용하여 읽은 데이터를 추적합니다.
   + **연결 옵션(Connection options)**: 키-값 페어를 추가하여 추가 연결 옵션을 지정하려면 이 섹션을 확장합니다. 여기에서 지정할 수 있는 옵션에 대한 자세한 내용은 *AWS Glue 개발자 가이드*의 ["connectionType": "kafka"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-kafka)를 참조하세요.

------

**참고**  
데이터 미리 보기는 현재 스트리밍 데이터 원본에 대해 지원되지 않습니다.