

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据来源的解析选项
<a name="kb-advanced-parsing"></a>

解析是指理解并提取原始数据的内容。Amazon Bedrock 知识库提供了以下选项，用于在摄取期间解析您的数据来源：
+ **Amazon Bedrock 默认解析器** – 仅解析文本文件中的文本，包括 .txt、.md、.html、.doc/.docx、.xls/.xlsx 和 .pdf 文件。此解析器不会产生任何使用费。
**注意**  
由于默认解析器仅输出文本，因此，如果您的文档包含数字、图表、表格或图像，我们建议使用 Amazon Bedrock 数据自动化或基础模型作为解析器，而不是默认解析器。Amazon Bedrock 数据自动化和基础模型可以从您的文档中提取这些元素，并将其作为输出返回。
+ Amazon Bedrock 知识库提供了以下解析器来解析多模态数据，包括 .pdf 文件中的数字、图表和表格，以及 .jpeg 和 .png 图像文件。这些解析器还可以提取这些数字、图表、表格和图像，并将它们作为文件存储在知识库创建期间指定的 S3 目标中。在知识库检索期间，这些文件可以在响应或来源归因中返回。
  + **Amazon Bedrock 数据自动化** – 一项完全托管的服务，可有效处理多模态数据，而无需提供任何额外的提示。此解析器的成本取决于文档中的页数或要处理的图像数量。有关此服务的更多信息，请参阅 [Amazon Bedrock 数据自动化](bda.md)。
  + **基础模型** – 使用基础模型处理多模态数据。此解析器为您提供了选项，以自定义用于数据提取的默认提示。此解析器的成本取决于基础模型处理的输入和输出词元的数量。有关支持解析 Amazon Bedrock 知识库数据的模型列表，请参阅[用于解析的支持的区域和模型](knowledge-base-supported.md#knowledge-base-supported-parsing)。

**重要**  
如果您选择 Amazon Bedrock 数据自动化或基础模型作为解析器，那么即使 .pdf 文件仅包含文本，也将使用您选择的方法来解析数据来源中的所有 .pdf 文件。不会使用默认解析器来解析这些 .pdf 文件。您的账户会因使用 Amazon Bedrock 数据自动化或基础模型解析这些文件而产生费用。

在选择如何解析数据时，请考虑以下事项：
+ 无论数据是纯文本，还是包含多模态数据，如图像、图形和图表，您是否希望知识库能够查询这些数据。
+ 您是否希望可选择自定义提示，以指示模型如何解析数据。
+ 解析器的成本。Amazon Bedrock 数据自动化采用按页定价，而基础模型解析器则根据输入和输出词元收费。有关更多信息，请参阅 [Amazon Bedrock 定价](https://aws.amazon.com/bedrock/pricing/)。
+ 文件总大小限制。使用基础模型作为解析器时，所有文件的总文件大小不得超过 100 GB。

要了解如何配置知识库的解析方式，请参阅[将数据来源连接到知识库](data-source-connectors.md)中的数据来源的连接配置。