

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 异步自定义分析的输入
<a name="idp-inputs-async"></a>

您可以向自定义异步分析任务输入多个文档。以下主题描述了您可以使用的输入文档类型。最大文件大小因输入文档的类型而异。

**Topics**
+ [纯文本文档](#idp-inputs-async-text)
+ [Semi-structured  文档](#idp-inputs-async-semi)
+ [图像文件和扫描的 PDF 文件](#idp-inputs-async-ocr)
+ [Amazon Textract 输出 JSON 文件](#idp-inputs-async-textract)

## 纯文本文档
<a name="idp-inputs-async-text"></a>

以文本形式提供所有纯文本输入文档。 UTF-8-formatted 下表列出了最大文件大小和其他指南。

**注意**  
当**所有**输入文件均为纯文本时，这些限制适用。


| 说明 | Quota/Guideline | 
| --- | --- | 
| 每种文件格式一个文档的最大文件大小（自定义分类） | 1 字节 - 10 MB | 
| 文档大小（自定义实体识别） | 1 字节 - 1 MB | 
| 最大文件数，每个文件一个文档 | 1000000 | 
| 最大行数，每行一个文档（适用于请求中的所有文件） | 1000000 | 
| 文档语料库大小（所有文档合并为纯文本） | 1 字节 - 5 GB | 

## Semi-structured  文档
<a name="idp-inputs-async-semi"></a>

Semi-structured 文档包括原生 PDF 文档和 Word 文档。

下表列出了最大文件大小和其他指南。


| 说明 | Quota/Guideline | 
| --- | --- | 
| 文档大小 (PDF) | 1 字节 - 50 MB | 
| 文档大小 (Docx) | 1 字节 - 5 MB | 
| 最大文件数 | 500 | 
| PDF 或 Docx 文件的最大页数 | 100 | 
| 文本提取后的文档语料库大小（纯文本，所有文件合并） | 1 字节 - 5 GB | 

默认情况下，自定义分析使用 Amazon Comprehend 解析器从 Word 文件和数字 PDF 文件中提取文本。对于 PDF 文件，您可以覆盖此默认设置，然后使用 Amazon Textract 提取文本。请参阅[设置文本提取选项](idp-set-textract-options.md)。

## 图像文件和扫描的 PDF 文件
<a name="idp-inputs-async-ocr"></a>

自定义分析支持 JPEG、PNG 和 TIFF 图像。

下表列出了图像的最大文件大小。扫描的 PDF 文件的最大大小与原生 PDF 文件的最大大小相同。


| 说明 | Quota/Guideline | 
| --- | --- | 
| 图像尺寸（JPG 或 PNG） | 1 字节 - 10 MB | 
| 图像尺寸 (TIFF) | 1 字节 - 10 MB。最多一页。 | 

有关图像的其他信息，请参阅 [图像的最佳实践](idp-images-bp.md)。

默认情况下，Amazon Comprehend 使用 Amazon Textract `DetectDocumentText` API 操作从图像文件和扫描的 PDF 文件中提取文本。您可以覆盖此默认值以改用 `AnalyzeDocument` API 操作。请参阅[设置文本提取选项](idp-set-textract-options.md)。

## Amazon Textract 输出 JSON 文件
<a name="idp-inputs-async-textract"></a>

对于自定义实体识别，而不是自定义分类，您可以提供 Amazon Textract `AnalyzeDocument` API 操作的输出文件作为分析任务的输入。