

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 剖析資料來源的選項
<a name="kb-advanced-parsing"></a>

剖析是指了解及擷取來自原始資料的內容。Amazon Bedrock 知識庫提供下列選項，可在擷取期間剖析資料來源：
+ **Amazon Bedrock 預設剖析器** – 僅剖析文字檔案中的文字，包括 .txt、.md、.html、.doc/.docx、.xls/.xlsx 和 .pdf 檔案。此剖析器不會產生任何使用費。
**注意**  
由於預設剖析器只會輸出文字，因此如果您的文件包含圖形、圖表、資料表或影像，建議您使用 Amazon Bedrock Data Automation 或基礎模型做為剖析器，而非預設剖析器。Amazon Bedrock Data Automation 和基礎模型可從文件中擷取這些元素，並將其作為輸出傳回。
+ Amazon Bedrock 知識庫提供下列剖析器，除了 .jpeg 和 .png 影像檔案之外，還可以剖析多模態資料，包括 .pdf 檔案中的圖形、圖表和資料表。這些剖析器也可以擷取這些圖形、圖表、資料表和映像，並將其做為檔案存放在您在知識庫建立期間指定的 S3 目的地中。在知識庫擷取期間，可以在回應或來源屬性中傳回這些檔案。
  + **Amazon Bedrock Data Automation –** 一種全受管服務，可有效處理多模態資料，而不需要提供任何額外的提示。此剖析器的成本取決於文件中的頁數或要處理的影像數量。如需此服務的詳細資訊，請參閱 [Amazon Bedrock Data Automation](bda.md)。
  + **基礎模型** – 使用基礎模型處理多模態資料。此剖析器可讓您選擇自訂用於資料擷取的預設提示。此剖析器的成本取決於基礎模型所處理的輸入和輸出字符數量。如需支援剖析 Amazon Bedrock 知識庫資料的模型清單，請參閱 [剖析支援的模型和區域](knowledge-base-supported.md#knowledge-base-supported-parsing)。

**重要**  
如果您選擇 Amazon Bedrock Data Automation 或基礎模型做為剖析器，則即使 .pdf 檔案僅包含文字，您所選的方法仍會用於剖析資料來源中的所有 .pdf 檔案。預設剖析器不會用來剖析這些 .pdf 檔案。您的帳戶在剖析這些檔案時，使用 Amazon Bedrock Data Automation 或基礎模型會產生費用。

選取資料剖析方式時，請考慮下列事項：
+ 無論您的資料是純文字，還是包含您希望知識庫能夠查詢的多模態資料，例如影像、圖形和圖表。
+ 您是否希望能自訂用於指示模型如何剖析資料的提示。
+ 剖析器的成本。Amazon Bedrock Data Automation 會使用每一頁定價，而基礎模型剖析器會根據輸入和輸出字符收費。如需詳細資訊，請參閱 [Amazon Bedrock 定價](https://aws.amazon.com/bedrock/pricing/)。
+ 總檔案大小限制。當您使用基礎模型做為剖析器時，所有檔案的總檔案大小不得超過 100 GB。

若要了解如何設定知識庫的剖析方式，請參閱 [將資料來源連結至知識庫](data-source-connectors.md) 中資料來源的連線組態。