

# Visual ETL 작업 구축
<a name="author-job-glue"></a>

## AWS Glue Studio를 사용하여 Visual ETL 작업 구축
<a name="build-etl-jobs-glue-studio"></a>

 AWS Glue Studio는 AWS Glue에서 ETL(추출/변환/로드) 작업을 생성, 실행 및 모니터링하기 위한 시각적 인터페이스를 제공합니다. AWS Glue 작업은 추출, 변환 및 로드(ETL) 작업을 수행하는 데 필요한 비즈니스 로직으로 구성됩니다. AWS Glue Studio를 사용하면 데이터 변환 워크플로를 시각적으로 구성하고 AWS Glue의 Apache Spark 기반 서버리스 ETL 엔진에서 원활하게 실행할 수 있습니다. Spark를 학습하거나 코드를 작성할 필요 없이 드래그 앤 드롭 방식의 인터페이스를 사용하여 다양한 데이터 스토어와 스트림 사이에서 데이터를 이동 및 변환하는 작업을 생성할 수 있습니다.

AWS Glue 작업은 소스 데이터에 연결하여 처리한 다음 데이터 대상에 작성하는 스크립트를 캡슐화합니다. 일반적으로 작업은 추출, 변환 및 로드(ETL) 스크립트를 실행합니다. 작업은 Apache Spark 및 Ray 런타임 환경용으로 설계된 스크립트를 실행할 수 있습니다. 작업은 범용 Python 스크립트(Python 쉘 작업)를 실행할 수도 있습니다. AWS Glue 트리거는 일정 또는 이벤트에 따라 또는 필요에 따라 작업을 시작할 수 있습니다. 작업 실행을 모니터링하여 완료 상태, 지속 시간, 시작 시간 같은 실행 시간 지표를 이해할 수 있습니다.

AWS Glue에서 생성하는 스크립트를 사용하거나 직접 제공할 수 있습니다. 소스 스키마와 대상 위치 또는 스키마가 있을 경우 AWS Glue Studio 코드 생성기는 Apache Spark API(PySpark) 스크립트를 자동적으로 생성할 수 있습니다. 이 스크립트를 시작 포인트로 사용할 수 있고 목적에 부합하기 위해 편집할 수도 있습니다.

AWS Glue에서는 여러 데이터 형식으로 출력 파일을 작성할 수 있습니다. 작업 유형마다 지원하는 출력 형식이 다를 수 있습니다. 몇 가지 데이터 포맷의 경우, 일반 압축 포맷이 작성될 수 있습니다.

### AWS 콘솔에서 AWS Glue 작업 관리
<a name="console-jobs"></a>

기존 작업을 보려면 AWS Management Console에 로그인하고 [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)에서 AWS Glue 콘솔을 엽니다. 그런 다음 AWS Glue에서 [**작업(Jobs)**] 탭을 선택합니다. 작업이 마지막으로 수정되고 현재 작업이 옵션을 표시할 경우, [**Jobs(작업)**] 목록은 각 작업과 관련된 스크립트 위치를 보여줍니다.

 AWS Glue 콘솔의 [**ETL**] 섹션에서 작업을 생성할 수 있습니다. 새 작업을 생성하는 동안 또는 작업을 저장한 후 AWS Glue Studio를 사용하여 ETL 작업을 수정할 수 있습니다. 시각적 편집기에서 노드를 편집하거나 개발자 모드에서 작업 스크립트를 편집하여 이를 수행할 수 있습니다. 시각적 편집기에서 노드를 추가하고 제거하여 더 복잡한 ETL 작업을 생성할 수도 있습니다.

### AWS Glue Studio에서 작업을 생성하기 위한 다음 단계
<a name="create-jobs-next"></a>

시각적 작업 편집기를 사용하여 작업에 대한 노드를 구성합니다. 각 노드는 소스 위치에서 데이터 읽기 또는 데이터에 변환 적용과 같은 작업을 나타냅니다. 작업에 추가하는 각 노드에는 데이터 위치 또는 변환에 대한 정보를 제공하는 속성이 있습니다.

다음은 작업을 생성하고 관리하는 단계입니다.
+ [AWS Glue Studio에서 시각적 ETL 작업 시작](edit-nodes-chapter.md)
+ [작업 스크립트 보기](managing-jobs-chapter.md#view-job-script)
+ [작업 속성 수정](managing-jobs-chapter.md#edit-jobs-properties)
+ [작업 저장](managing-jobs-chapter.md#save-job)
+ [작업 실행 시작](managing-jobs-chapter.md#start-jobs)
+ [최근 작업 실행에 대한 정보 보기](managing-jobs-chapter.md#view-job-run-details)
+ [작업 모니터링 대시보드에 액세스](view-job-runs.md#monitoring-accessing-dashboard)

## Amazon SageMaker를 사용하여 Visual ETL 흐름 구축
<a name="build-etl-jobs-smus"></a>

 Amazon SageMaker Unified Studio 워크플로를 사용하면 Amazon SageMaker Unified Studio에서 일련의 작업을 설정 및 실행할 수 있습니다. Amazon SageMaker Unified Studio 워크플로는 Apache Airflow를 사용하여 데이터 처리 절차를 모델링하고 Amazon SageMaker Unified Studio 코드 아티팩트를 오케스트레이션합니다. 자세한 내용은 [Amazon SageMaker Unified Studio의 워크플로 사용](https://docs.aws.amazon.com/sagemaker-unified-studio/latest/userguide/workflow-orchestration.html)을 참조하세요.