

# 크롤러를 사용하여 테이블 추가
<a name="schema-crawlers"></a>

AWS Glue 크롤러는 데이터 집합의 스키마를 검색하고 AWS Glue 데이터 카탈로그에 테이블로 등록하는 데 도움이 됩니다. 크롤러는 데이터를 살펴보고 스키마를 결정합니다. 뿐만 아니라 파티션도 찾고 등록할 수 있습니다. 자세한 내용은 *AWS Glue 개발자 안내서*의 [크롤러 정의](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html)를 참조하세요. 성공적으로 크롤링된 데이터의 테이블은 Athena에서 쿼리할 수 있습니다.

**참고**  
Athena는 AWS Glue 크롤러에 지정한 [제외 패턴](https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude)을 인식하지 못합니다. 예를 들어 `.csv` 및 `.json` 파일이 모두 포함된 Amazon S3 버킷이 있는데 `.json` 파일을 크롤러에서 제외한다면 Athena는 두 파일 그룹을 모두 쿼리합니다. 이 문제를 방지하려면 제외할 파일을 다른 위치에 배치하면 됩니다.

## AWS Glue 크롤러 생성
<a name="data-sources-glue-crawler-setup"></a>

Athena 콘솔에서 크롤러를 시작한 다음 통합된 방식으로 AWS Glue 콘솔을 사용하여 크롤러를 생성할 수 있습니다. 크롤러를 생성할 때 크롤링할 Amazon S3의 데이터 위치를 지정합니다.

**Athena 콘솔에서 시작하여 AWS Glue에서 크롤러 생성**

1. [https://console.aws.amazon.com/athena/](https://console.aws.amazon.com/athena/home)에서 Athena 콘솔을 엽니다.

1. 쿼리 편집기에서 **테이블 및 뷰(Tables and views)** 옆에 있는 **생성(Create)**을 선택한 다음 **AWS Glue 크롤러(Glue crawler)**를 선택합니다.

1. **AWS Glue** 콘솔의 **크롤러 추가** 페이지에서 단계에 따라 크롤러를 생성합니다. 자세한 내용은 이 설명서의 [AWS Glue 크롤러 사용](#schema-crawlers)과 *AWS Glue 개발자 안내서*의 [AWS Glue Data Catalog 채우기](https://docs.aws.amazon.com/glue/latest/dg/populate-catalog-methods.html)를 참조하세요.

**참고**  
Athena는 AWS Glue 크롤러에 지정한 [제외 패턴](https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude)을 인식하지 못합니다. 예를 들어 `.csv` 및 `.json` 파일이 모두 포함된 Amazon S3 버킷이 있는데 `.json` 파일을 크롤러에서 제외한다면 Athena는 두 파일 그룹을 모두 쿼리합니다. 이 문제를 방지하려면 제외할 파일을 다른 위치에 배치하면 됩니다.

크롤링 후 AWS Glue 크롤러는 Apache Hive, Presto 및 Spark 등 다른 외부 기술과 호환되도록 특정 테이블 메타데이터를 자동으로 할당합니다. 경우에 따라 크롤러가 메타데이터 속성을 잘못 할당할 수 있습니다. Athena를 사용하여 테이블을 쿼리하기 전에 AWS Glue의 속성을 수동으로 수정하세요. 자세한 내용은 *AWS Glue 개발자 안내서*의 [테이블 세부 정보 보기 및 편집](https://docs.aws.amazon.com/glue/latest/dg/console-tables.html#console-tables-details)을 참조하세요.

CSV 파일에 각 데이터 필드를 묶는 인용 부호가 있으면 `serializationLib` 속성이 잘못되어 AWS Glue이(가) 메타데이터를 잘못 할당할 수 있습니다. 자세한 내용은 [따옴표로 묶은 CSV 데이터 취급](schema-csv.md#schema-csv-quotes) 섹션을 참조하세요.