

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 텍스트 추출 옵션을 설정하는
<a name="idp-set-textract-options"></a>

 기본적으로 Amazon Comprehend는 입력 파일 유형에 따라 다음 작업을 수행하여 파일에서 텍스트를 추출합니다.
+ **Word 파일** - Amazon Comprehend 파서가 텍스트를 추출합니다.
+ **디지털 PDF 파일** — Amazon Comprehend 파서가 텍스트를 추출합니다.
+ **이미지 파일 및 스캔한 PDF 파일** - Amazon Comprehend는 Amazon Textract `DetectDocumentText` API를 사용하여 텍스트를 추출합니다.

이미지 파일 및 PDF 파일의 경우 `DocumentReaderConfig` 파라미터를 사용하여 이러한 기본 추출 작업을 재정의할 수 있습니다. 이 파라미터는 실시간 또는 비동기 사용자 지정 분석을 위해 Amazon Comprehend 콘솔 또는 API를 사용할 때 사용할 수 있습니다.

`DocumentReaderConfig` 파라미터에는 다음과 같은 세 개의 필드가 있습니다.
+ **DocumentReadMode** - `SERVICE_DEFAULT`로 설정하면 Amazon Comprehend가 기본 작업을 수행합니다.

  `FORCE_DOCUMENT_READ_ACTION`으로 설정하면 Amazon Textract를 사용하여 디지털 PDF 파일을 파싱합니다.
+ **DocumentReadAction** - Amazon Comprehend가 텍스트 추출에 Amazon Textract를 사용할 때 사용할 Amazon Textract API(DetectDocumentText 또는 AnalyzeDocument)를 설정합니다.
+ **FeatureTypes** — AnalyzeDocument API 작업을 사용하도록 **DocumentReadAction**을 설정하는 경우 `FeatureTypes`(TABLES, FORMS) 중 하나 또는 둘 다를 추가할 수 있습니다. 이러한 기능은 문서의 표 및 양식에 대한 추가 정보를 제공합니다. 이러한 기능에 대한 자세한 내용은 [Amazon Textract 문서 분석 응답 객체](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html)를 참조하세요.

다음 예제에서는 특정 사용 사례를 위한 `DocumentReaderConfig` 구성 방법을 보여줍니다.

1. 모든 PDF 파일에 대해 Amazon Textract를 사용합니다.

   1. **DocumentReadMode** – `FORCE_DOCUMENT_READ_ACTION`으로 설정합니다.

   1. **DocumentReadAction** – `TEXTRACT_DETECT_DOCUMENT_TEXT`으로 설정합니다.

   1. **FeatureTypes** — 필수는 아닙니다.

1. 모든 PDF 및 이미지 파일에 대해 Amazon Textract `AnalyzeDocument` API를 사용합니다.

   1. **DocumentReadMode** – `FORCE_DOCUMENT_READ_ACTION`으로 설정합니다.

   1. **DocumentReadAction** – `TEXTRACT_ANALYZE_DOCUMENT`으로 설정합니다.

   1. **FeatureTypes** - `TABLES` 또는 `FORMS`로 설정하거나 두 기능을 모두 설정합니다.

1. 스캔된 PDF 및 이미지 파일에 대해 Amazon Textract `AnalyzeDocument` API를 사용합니다.

   1. **DocumentReadMode** – `SERVICE_DEFAULT`으로 설정합니다.

   1. **DocumentReadAction** – `TEXTRACT_ANALYZE_DOCUMENT`으로 설정합니다.

   1. **FeatureTypes** - `TABLES` 또는 `FORMS`로 설정하거나 두 기능을 모두 설정합니다.

Amazon Textract 옵션에 대한 자세한 내용은 [DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html)를 참조하세요.