

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Configuration des options d'extraction de texte
<a name="idp-set-textract-options"></a>

 Par défaut, Amazon Comprehend exécute les actions suivantes pour extraire le texte d'un fichier, en fonction du type de fichier d'entrée : 
+ **Fichiers Word** : l'analyseur Amazon Comprehend extrait le texte. 
+ **Fichiers PDF numériques** — L'analyseur Amazon Comprehend extrait le texte. 
+ **Fichiers image et fichiers PDF numérisés** : Amazon Comprehend utilise l'API Amazon `DetectDocumentText` Textract pour extraire le texte. 

Pour les fichiers image et les fichiers PDF, vous pouvez utiliser le `DocumentReaderConfig` paramètre pour annuler ces actions d'extraction par défaut. Ce paramètre est disponible lorsque vous utilisez la console ou l'API Amazon Comprehend pour une analyse personnalisée en temps réel ou asynchrone.

Le `DocumentReaderConfig` paramètre contient trois champs :
+ **DocumentReadMode**— Réglé sur `SERVICE_DEFAULT` pour qu'Amazon Comprehend exécute les actions par défaut. 

  Configurez `FORCE_DOCUMENT_READ_ACTION` pour utiliser Amazon Textract pour analyser des fichiers PDF numériques.
+ **DocumentReadAction**— Définit l'API Amazon Textract (DetectDocumentText ou AnalyzeDocument) à utiliser lorsqu'Amazon Comprehend utilise Amazon Textract pour l'extraction de texte.
+ **FeatureTypes**— Si vous configurez **DocumentReadAction**pour utiliser l'opération AnalyzeDocument API, vous pouvez ajouter l'une ou les deux `FeatureTypes` (TABLES, FORMS). Ces fonctionnalités fournissent des informations supplémentaires sur les tables et les formulaires du document. Pour plus d'informations sur ces fonctionnalités, consultez [Amazon Textract Document Analysis Response](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html) Objects.

Les exemples suivants montrent comment configurer `DocumentReaderConfig` pour des cas d'utilisation spécifiques :

1. Utilisez Amazon Textract pour tous les fichiers PDF. 

   1. **DocumentReadMode** – Défini sur `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction** – Défini sur `TEXTRACT_DETECT_DOCUMENT_TEXT`.

   1. **FeatureTypes**— Non obligatoire

1. Utilisez l'`AnalyzeDocument`API Amazon Textract pour tous les fichiers PDF et images. 

   1. **DocumentReadMode** – Défini sur `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction** – Défini sur `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Réglez sur `TABLES` `FORMS` ou sur les deux fonctionnalités.

1. Utilisez l'`AnalyzeDocument`API Amazon Textract pour les fichiers PDF numérisés et tous les fichiers image. 

   1. **DocumentReadMode** – Défini sur `SERVICE_DEFAULT`.

   1. **DocumentReadAction** – Défini sur `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Réglez sur `TABLES` `FORMS` ou sur les deux fonctionnalités.

Pour plus d'informations sur les options d'Amazon Textract, consultez. [DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html)