

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Configuración de las opciones de extracción de texto
<a name="idp-set-textract-options"></a>

 De forma predeterminada, Amazon Comprehend realiza las siguientes acciones para extraer texto de un archivo, en función del tipo de archivo de entrada: 
+ **Archivos de Word**: el analizador de Amazon Comprehend extrae el texto. 
+ **Archivos de PDF digital**: el analizador de Amazon Comprehend extrae el texto. 
+ **Archivos de imagen y archivos PDF escaneados**: Amazon Comprehend utiliza la API `DetectDocumentText` de Amazon Textract para extraer el texto. 

En el caso de los archivos de imagen y los archivos PDF, puede utilizar el parámetro `DocumentReaderConfig` para anular estas acciones de extracción predeterminadas. Este parámetro está disponible cuando utiliza la consola o la API de Amazon Comprehend para realizar análisis personalizados asíncronos o en tiempo real.

El parámetro `DocumentReaderConfig` contiene tres campos:
+ **DocumentReadMode**— Configúrelo `SERVICE_DEFAULT` para que Amazon Comprehend realice las acciones predeterminadas. 

  Se configura en `FORCE_DOCUMENT_READ_ACTION` para usar Amazon Textract para analizar archivos PDF digitales.
+ **DocumentReadAction**— Establece la API (DetectDocumentText o AnalyzeDocument) de Amazon Textract para utilizarla cuando Amazon Comprehend utilice Amazon Textract para la extracción de texto.
+ **FeatureTypes**— Si va **DocumentReadAction**a utilizar la operación de AnalyzeDocument API, puede añadir una o ambas `FeatureTypes` (TABLAS, FORMULARIOS). Estas funciones proporcionan información adicional sobre las tablas y los formularios del documento. Para obtener más información sobre estas características, consulte [Objetos de respuesta de análisis de documentos de Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html).

Los siguientes ejemplos muestran cómo configurar `DocumentReaderConfig` para casos de uso específicos.

1. Use Amazon Textract para todos los archivos PDF. 

   1. **DocumentReadMode**: se establece en `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction**: se establece en `TEXTRACT_DETECT_DOCUMENT_TEXT`.

   1. **FeatureTypes**— No es obligatorio.

1. Use la API `AnalyzeDocument` de Amazon Textract para todos los archivos de imagen y de PDF. 

   1. **DocumentReadMode**: se establece en `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction**: se establece en `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Configurado en `TABLES` `FORMS` o en ambas funciones.

1. Utilice la API `AnalyzeDocument` de Amazon Textract para los archivos PDF escaneados y todos los archivos de imagen. 

   1. **DocumentReadMode**: se establece en `SERVICE_DEFAULT`.

   1. **DocumentReadAction**: se establece en `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Configurado en `TABLES` `FORMS` o en ambas funciones.

Para obtener más información sobre las opciones de Amazon Textract, consulte. [DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html)