

# 증분 일치 항목 찾기
<a name="machine-learning-incremental-matches"></a>

일치 항목 찾기 기능을 사용하면 레코드에 공통된 고유 식별자가 없고 정확히 일치하는 필드가 없는 경우에도 데이터 집합에서 중복 레코드나 일치 레코드를 식별할 수 있습니다. 일치 항목 찾기 변환의 초기 릴리스에서는 단일 데이터 집합 내의 일치 레코드를 식별했습니다. 데이터 집합에 새 데이터를 추가하는 경우 정리된 기존 데이터 집합과 병합하고 병합된 전체 데이터 집합에 대해 일치를 다시 실행해야 했습니다.

증분 일치 기능을 사용하면 기존 일치 데이터 집합과 증분 레코드를 더 간단하게 일치시킬 수 있습니다. 기존 고객 데이터 집합과 잠재 고객 데이터를 일치시키려는 경우를 가정합니다. 증분 일치 기능을 사용하면 결과를 단일 데이터베이스나 테이블에 병합하여 잠재 고객 및 고객의 기존 데이터베이스와 수십만 명의 신규 잠재 고객을 유연성 있게 일치시킬 수 있습니다. 증분 일치 항목 찾기 최적화는 새 데이터 집합과 기존 데이터 집합 간에만 일치시켜 계산 시간을 단축하므로 비용도 절감됩니다.

증분 일치 사용법은 [자습서: AWS Glue로 기계 학습 변환 생성](machine-learning-transform-tutorial.md)에 설명된 일치 항목 찾기와 유사합니다. 이 주제에서는 증분 일치와의 차이점만 설명합니다.

자세한 내용은 [증분 데이터 일치](https://aws.amazon.com/blogs/big-data/incremental-data-matching-using-aws-lake-formation/)에 대한 블로그 게시물을 참조하세요.

## 증분 일치 작업 실행
<a name="machine-learning-incremental-matches-add"></a>

다음 절차에서는 다음과 같이 가정합니다.
+ 기존 데이터 세트를 *first\$1records* 테이블로 크롤링했습니다. *first\$1records* 데이터 세트는 일치하는 데이터 세트이거나 일치하는 작업의 출력이어야 합니다.
+ AWS Glue 버전 2.0을 사용하여 일치 항목 찾기 변환을 생성하고 훈련시켰습니다. 증분 일치는 이 버전의 AWS Glue에서만 지원됩니다.
+ ETL 언어는 Scala입니다. Python도 지원됩니다.
+ `demo-xform`이라는 모델이 이미 생성되어 있습니다.

1. 증분 데이터 집합을 *second\$1records* 테이블로 크롤링합니다.

1. AWS Glue 콘솔의 탐색 창에서 **작업**을 선택합니다.

1. **작업 추가**를 선택하고, 마법사의 단계에 따라 생성된 스크립트로 ETL Spark 작업을 만듭니다. 변환에 대해 다음 속성 값을 선택하십시오.

   1. **이름(Name)**에서 **demo-etl**을 선택합니다.

   1. **IAM 역할(IAM role)**에서 Amazon S3 소스 데이터, 레이블 지정 파일, [AWS Glue API 작업](https://docs.aws.amazon.com/glue/latest/dg/create-an-iam-role.html)에 대한 권한이 있는 IAM 역할을 선택합니다.

   1. **ETL 언어**로 **Scala**를 선택합니다.

   1. **스크립트 파일 이름(Script file name)**에서 **demo-etl**을 선택합니다. Scala 스크립트의 파일 이름입니다.

   1. **데이터 원본(Data source)**에서 **first\$1records**를 선택합니다. 선택한 데이터 원본이 기계 학습 변환의 데이터 원본 스키마와 일치해야 합니다.

   1. **Transform type(변환 유형)**으로 **Find matching records(일치 레코드 찾기)**를 선택하여 기계 학습 변환을 사용하는 작업을 만듭니다.

   1. 증분 일치 옵션을 선택하고 **데이터 원본(Data Source)**에서 **second\$1records**라는 테이블을 선택합니다.

   1. **변환(Transform)**에서 이 작업에 사용할 기계 학습 변환인 **demo-xform**을 선택합니다.

   1. **데이터 대상에 테이블 생성(Create tables in your data target)** 또는 **데이터 카탈로그 내 테이블 사용 및 데이터 대상 업데이트(Use tables in the data catalog and update your data target)**를 선택합니다.

1. **작업 저장 및 스크립트 편집**을 선택하여 스크립트 편집기 페이지를 표시합니다.

1. **작업 실행**을 선택하여 작업을 실행하기 시작합니다.