

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# テキスト抽出オプションの設定
<a name="idp-set-textract-options"></a>

 デフォルトでは、Amazon Comprehend は入力ファイルのタイプに基づいて次のアクションを実行してファイルからテキストを抽出します。
+ **Word ファイル** — Amazon Comprehend パーサーがテキストを抽出します。
+ **デジタル PDF ファイル** — Amazon Comprehend パーサーがテキストを抽出します。
+ **画像ファイルおよびスキャンされた PDF ファイル** — Amazon Comprehend は Amazon Textract `DetectDocumentText` API を使用してテキストを抽出します。

画像ファイルや PDF ファイルの場合は、`DocumentReaderConfig` パラメーターを使用してデフォルトの抽出アクションをオーバーライドできます。このパラメータは、リアルタイムまたは非同期カスタム分析に Amazon Comprehend コンソールまたは API を使用すると利用できるようになります。

この `DocumentReaderConfig` パラメータには次の 3 つのフィールドがあります。
+ **DocumentReadMode** – Amazon Comprehend にデフォルトのアクションを実行させるには、 `SERVICE_DEFAULT` に設定します。

  Amazon Textract を使用してデジタル PDF ファイルを解析するには、`FORCE_DOCUMENT_READ_ACTION` に設定します。
+ **documentReadAction** — Amazon Comprehend がテキスト抽出に Amazon Textract を使用する時に使用する Amazon Textract API (DetectDocumentText または AnalyzeDocument) を設定します。
+ **FeatureTypes** — AnalyzeDocument API オペレーションを使用するように **DocumentReadAction** を設定した場合は、`FeatureTypes` (TABLES、FORMS) のいずれか一方または両方を追加できます。これらの機能は、ドキュメント内の表とフォームに関する追加情報を提供します。これらの機能の詳細については、「[Amazon Textract のドキュメント分析のレスポンスオブジェクト](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html)」を参照してください。

以下の例は、具体的なユースケースに応じた `DocumentReaderConfig` の設定方法を示しています。

1. すべての PDF ファイルに Amazon Textract を使用する。

   1. **DocumentReadMode** – `FORCE_DOCUMENT_READ_ACTION` に設定します。

   1. **DocumentReadAction** – `TEXTRACT_DETECT_DOCUMENT_TEXT` に設定します。

   1. **FeatureTypes** – 不要。

1. すべての PDF および画像ファイルに Amazon Textract を使用する。

   1. **DocumentReadMode** – `FORCE_DOCUMENT_READ_ACTION` に設定します。

   1. **DocumentReadAction** – `TEXTRACT_ANALYZE_DOCUMENT` に設定します。

   1. **FeatureTypes** — `TABLES` か `FORMS`、またはその両方に設定します。

1. スキャンされたすべての PDF およびすべての画像ファイルに Amazon Textract を使用する。

   1. **DocumentReadMode** – `SERVICE_DEFAULT` に設定します。

   1. **DocumentReadAction** – `TEXTRACT_ANALYZE_DOCUMENT` に設定します。

   1. **FeatureTypes** — `TABLES` か `FORMS`、またはその両方に設定します。

Amazon Textract のオプションの詳細については、[DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html) を参照してください。