

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 设置文本提取选项
<a name="idp-set-textract-options"></a>

 默认情况下，Amazon Comprehend 会根据输入文件类型执行以下操作从文件中提取文本：
+ **Word 文件**：Amazon Comprehend 解析器会提取文本。
+ **数字 PDF 文件**：Amazon Comprehend 解析器会提取文本。
+ **图像文件和扫描的 PDF 文件**：Amazon Comprehend 使用 Amazon Textract `DetectDocumentText` API 提取文本。

对于图像文件和 PDF 文件，您可以使用 `DocumentReaderConfig` 参数来覆盖这些默认提取操作。当您使用 Amazon Comprehend 控制台或 API 进行实时或异步自定义分析时，此参数可用。

`DocumentReaderConfig` 参数包含三个字段：
+ **DocumentReadMode**— 设置为，`SERVICE_DEFAULT`Amazon Comprehend 可以执行默认操作。

  设置为 `FORCE_DOCUMENT_READ_ACTION` 时，使用 Amazon Textract 解析数字 PDF 文件。
+ **DocumentReadAction**— 将亚马逊 Textract API（DetectDocumentText 或 AnalyzeDocument）设置为在亚马逊 Comprehend 使用亚马逊 Textract 进行文本提取时使用。
+ **FeatureTypes**— 如果您设置**DocumentReadAction**为使用 AnalyzeDocument API 操作，则可以添加其中一个或两个`FeatureTypes`（表格、表单）。这些特征提供了有关文档中表格和表单的其他信息。有关这些特征的更多信息，请参阅 [Amazon Textract 文档分析响应对象](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html)。

以下示例展示了如何针对特定用例配置 `DocumentReaderConfig`：

1. 使用 Amazon Textract 处理所有 PDF 文件。

   1. **DocumentReadMode** – 设置为 `FORCE_DOCUMENT_READ_ACTION`。

   1. **DocumentReadAction** – 设置为 `TEXTRACT_DETECT_DOCUMENT_TEXT`。

   1. **FeatureTypes**— 不是必需的。

1. 使用 Amazon Textract `AnalyzeDocument` API 处理所有 PDF 和图像文件。

   1. **DocumentReadMode** – 设置为 `FORCE_DOCUMENT_READ_ACTION`。

   1. **DocumentReadAction** – 设置为 `TEXTRACT_ANALYZE_DOCUMENT`。

   1. **FeatureTypes**— 设置为`TABLES``FORMS`或两者兼而有之。

1. 使用 Amazon Textract `AnalyzeDocument` API 扫描 PDF 文件和所有图像文件。

   1. **DocumentReadMode** – 设置为 `SERVICE_DEFAULT`。

   1. **DocumentReadAction** – 设置为 `TEXTRACT_ANALYZE_DOCUMENT`。

   1. **FeatureTypes**— 设置为`TABLES``FORMS`或两者兼而有之。

有关 Amazon Textract 选项的更多信息，请参阅。[DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html)