

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 設定文字擷取選項
<a name="idp-set-textract-options"></a>

 根據預設，Amazon Comprehend 會根據輸入檔案類型，執行下列動作從檔案擷取文字：
+ **Word 檔案** – Amazon Comprehend 剖析器會擷取文字。
+ **數位 PDF 檔案** – Amazon Comprehend 剖析器會擷取文字。
+ **影像檔案和掃描的 PDF 檔案** – Amazon Comprehend 使用 Amazon Textract `DetectDocumentText` API 擷取文字。

對於映像檔案和 PDF 檔案，您可以使用 `DocumentReaderConfig` 參數來覆寫這些預設擷取動作。當您使用 Amazon Comprehend 主控台或 API 進行即時或非同步自訂分析時，即可使用此參數。

`DocumentReaderConfig` 參數包含三個欄位：
+ **DocumentReadMode** – 設定為 ，`SERVICE_DEFAULT`讓 Amazon Comprehend 執行預設動作。

  設定為 `FORCE_DOCUMENT_READ_ACTION` 以使用 Amazon Textract 剖析數位 PDF 檔案。
+ **DocumentReadAction** – 設定當 Amazon Comprehend 使用 Amazon Textract 擷取文字時要使用的 Amazon Textract API (DetectDocumentText 或 AnalyzeDocument)。
+ **FeatureTypes** – 如果您將 **DocumentReadAction** 設定為使用 AnalyzeDocument API 操作，您可以新增一個或兩個 `FeatureTypes`(TABLES、FORMS)。這些功能提供文件中資料表和表單的其他資訊。如需這些功能的詳細資訊，請參閱 [Amazon Textract 文件分析回應物件](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html)。

下列範例示範如何`DocumentReaderConfig`針對特定使用案例設定 ：

1. 針對所有 PDF 檔案使用 Amazon Textract。

   1. **DocumentReadMode** – 設定為 `FORCE_DOCUMENT_READ_ACTION`。

   1. **DocumentReadAction** – 設定為 `TEXTRACT_DETECT_DOCUMENT_TEXT`。

   1. **FeatureTypes** – 非必要。

1. 針對所有 PDF 和映像檔案使用 Amazon Textract `AnalyzeDocument` API。

   1. **DocumentReadMode** – 設定為 `FORCE_DOCUMENT_READ_ACTION`。

   1. **DocumentReadAction** – 設定為 `TEXTRACT_ANALYZE_DOCUMENT`。

   1. **FeatureTypes** – 設定為 `TABLES`，`FORMS`或同時設定為兩項功能。

1. 使用 Amazon Textract `AnalyzeDocument` API 掃描 PDF 檔案和所有映像檔案。

   1. **DocumentReadMode** – 設定為 `SERVICE_DEFAULT`。

   1. **DocumentReadAction** – 設定為 `TEXTRACT_ANALYZE_DOCUMENT`。

   1. **FeatureTypes** – 設定為 `TABLES`，`FORMS`或同時設定為兩項功能。

如需 Amazon Textract 選項的詳細資訊，請參閱 [DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html)。