

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 文件
<a name="hiw-documents"></a>

本節說明 如何為其支援的許多文件格式和文件的不同欄位/屬性編製 Amazon Kendra 索引。

**Topics**
+ [文件類型或格式](#index-document-types)
+ [文件屬性或欄位](#hiw-document-attributes)

## 文件類型或格式
<a name="index-document-types"></a>

Amazon Kendra 支援熱門的文件類型或格式，例如 PDF、HTML、Word、PowerPoint 等。索引可以包含多種文件格式。

Amazon Kendra 會擷取文件內的內容，以便搜尋文件。文件的剖析方式是最佳化對擷取的文字和文件中任何表格式內容 (HTML 資料表） 的搜尋。這表示將文件建構為用於搜尋的欄位或屬性。文件中繼資料，例如上次修改的日期，對於搜尋非常有用。

文件可以組織成資料列和資料欄。例如，每個文件都是一列，而標題和內文內容等每個文件欄位/屬性都是一欄。例如，如果您使用資料庫做為資料來源，則應將資料結構化或組織成資料列和資料欄。

您可以透過下列方式將文件新增至索引：
+ [BatchPutDocument](https://docs.aws.amazon.com/kendra/latest/dg/in-adding-documents.html) API
+ [資料來源連接器](https://docs.aws.amazon.com/kendra/latest/dg/data-sources.html)

如果您想要新增常見問答集檔案，您可以使用 [CreateFaq](https://docs.aws.amazon.com/kendra/latest/dg/in-creating-faq.html) API 來新增存放在 Amazon S3 儲存貯體中的檔案。您可以選擇基本 CSV 格式、在標頭中包含自訂欄位/屬性的 CSV 格式，以及包含自訂欄位的 JSON 格式。預設格式為基本 CSV。

以下提供每個支援文件格式的資訊，以及在編製文件索引時 Amazon Kendra 如何處理每個格式。


| 文件格式 | 視為 | 文件的處理方式 | 原始結構 | 
| --- | --- | --- | --- | 
| 可攜文件格式 (PDF) | HTML | 轉換為 HTML，然後擷取內容。 | 非結構化 | 
| HyperText 標記語言 (HTML) | HTML | 篩選掉 HTML 標籤以擷取內容。內容必須在主要HTML開始和結束標籤之間 (<HTML>content</HTML>)。 | 半結構化 | 
| 可擴展標記語言 (XML) | XML | 篩選掉 XML 標籤以擷取內容。 | 半結構化 | 
| 可擴展樣式表語言轉換 (XSLT) | XSLT | 標籤會經過篩選以擷取內容。 | 半結構化 | 
| MarkDown (MD) | 純文字 | 內容是以包含的 MarkDown 語法擷取。 | 半結構化 | 
| 逗號分隔符號值 (CSV) | CSV | 從每個儲存格擷取的內容，將單一檔案視為單一文件結果。 | 為常見問答集檔案結構化，否則為半結構化 | 
| Microsoft Excel (XLS 和 XLSX) | XLS 和 XLSX | 從每個儲存格擷取的內容，將單一檔案視為單一文件結果。 | 半結構化 | 
| JavaScript 物件標記法 (JSON) | 純文字 | 內容是以包含的 JSON 語法擷取。 | 半結構化 | 
| RTF 格式 | RTF | RTF 語法會篩選出以擷取內容。 | 半結構化 | 
| Microsoft PowerPoint (PPT) | PPT、PPTX | 只有文字內容會從 PowerPoint 投影片擷取以進行搜尋。不會擷取影像和其他內容。 | 非結構化 | 
| Microsoft Word | DOC、DOCX | 只有文字內容會從 Word 頁面擷取以進行搜尋。不會擷取影像和其他內容。 | 非結構化 | 
| 純文字 (TXT) | TXT | 將擷取文字文件中的所有文字。 | 非結構化 | 

## 文件屬性或欄位
<a name="hiw-document-attributes"></a>

文件具有與其相關聯的屬性或欄位。文件的欄位是文件的屬性或文件結構中包含的內容。例如，每個文件可能包含標題、內文文字和作者。您也可以為特定文件新增自訂欄位。例如，如果您的索引搜尋稅務文件，您可以為 W-2、1099 等稅務文件類型指定自訂欄位。

在查詢中使用文件欄位之前，必須先將其映射至索引欄位。例如，標題欄位可以映射到欄位 `_document_title`。如需詳細資訊，請參閱[映射欄位](https://docs.aws.amazon.com/kendra/latest/dg/field-mapping.html)。若要新增欄位，您必須建立索引欄位以映射欄位。您可以使用 主控台或使用 [UpdateIndex](https://docs.aws.amazon.com/kendra/latest/APIReference/API_UpdateIndex.html) API 建立索引欄位。

您可以使用文件欄位來篩選回應並建立面向搜尋結果。例如，您可以篩選回應，只傳回特定版本的文件，也可以篩選搜尋，只傳回符合搜尋詞彙的 1099 類型的稅務文件。如需詳細資訊，請參閱[篩選和面向搜尋](https://docs.aws.amazon.com/kendra/latest/dg/filtering.html)。

您也可以使用文件欄位來手動調整查詢回應。例如，您可以選擇增加標題欄位的重要性，以在決定回應中傳回哪些文件時，增加 Amazon Kendra 指派給欄位的權重。如需詳細資訊，請參閱[調整搜尋相關性](https://docs.aws.amazon.com/kendra/latest/dg/tuning.html)。

如果您要將文件直接新增至索引，請將[文件](https://docs.aws.amazon.com/kendra/latest/APIReference/API_Document.html)輸入參數中的欄位指定至 [BatchPutDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchPutDocument.html) API。您可以在 [DocumentAttribute](https://docs.aws.amazon.com/kendra/latest/APIReference/API_DocumentAttribute.html) 物件陣列中指定自訂欄位值。如果您使用的是資料來源，您用來新增文件欄位的方法取決於資料來源。如需詳細資訊，請參閱[映射資料來源欄位](https://docs.aws.amazon.com/kendra/latest/dg/field-mapping.html)。

### 使用 Amazon Kendra 預留或通用文件欄位
<a name="index-reserved-fields"></a>

使用 [UpdateIndex API](https://docs.aws.amazon.com/kendra/latest/APIReference/API_UpdateIndex.html)，您可以使用 建立預留或通用欄位，`DocumentMetadataConfigurationUpdates` Amazon Kendra 並指定預留索引欄位名稱以映射至同等文件屬性/欄位名稱。您也可以建立自訂欄位。如果您使用資料來源連接器，大多數包含將資料來源文件欄位映射至 Amazon Kendra 索引欄位的欄位映射。如果您使用 主控台，您可以透過選取資料來源、選取編輯動作，然後繼續在欄位映射區段旁設定資料來源來更新欄位。

您可以設定 `Search` 物件，將欄位設定為可顯示、可面向、可搜尋和可排序。您可以設定 `Relevance` 物件來設定欄位的排名順序、提升持續時間或時段，以套用至映射至特定欄位值的提升、新鮮度、重要性值和重要性值。如果您使用 主控台，您可以在導覽功能表中選取面向選項來設定欄位的搜尋設定。若要設定相關性調校，請選取導覽選單中搜尋索引的選項，輸入查詢，然後使用側邊面板選項調校搜尋相關性。建立欄位後，就無法變更欄位類型。

Amazon Kendra 具有下列預留或常用文件欄位，您可以使用：
+ `_authors`- 負責文件內容的一或多個作者清單。
+ `_category`- 在特定群組中放置文件的類別。
+ `_created_at`- 建立文件的 ISO 8601 格式日期和時間。例如，2012-03-25T12:30:10\$101:00 是以 ISO 8601 日期時間格式表示的歐洲中部時間 2012 年 3 月 25 日中午 12:30 (加上 10 秒)。
+ `_data_source_id`- 包含文件之資料來源的識別符。
+ `_document_body`- 文件的內容。
+ `_document_id`- 文件的唯一識別符。
+ `_document_title`- 文件的標題。
+ `_excerpt_page_number`- PDF 檔案中文件摘錄出現的頁碼。如果您的索引是在 2020 年 9 月 8 日之前建立的，您必須先重新索引文件，才能使用此屬性。
+ `_faq_id`—如果這是問答類型文件 (FAQ)，則為常見問答集的唯一識別符。
+ `_file_type`— 文件的檔案類型，例如 pdf 或 doc。
+ `_last_updated_at`- 上次更新文件的 ISO 8601 格式日期和時間。例如，2012-03-25T12:30:10\$101:00 是以 ISO 8601 日期時間格式表示的歐洲中部時間 2012 年 3 月 25 日中午 12:30 (加上 10 秒)。
+ `_source_uri`- 文件可用的 URI。例如，公司網站上的文件 URI。
+ `_version`- 文件特定版本的識別符。
+ `_view_count`— 文件已檢視的次數。
+ `_language_code` （字串） — 適用於文件的語言程式碼。如果您未指定語言，則預設為英文。如需支援語言的詳細資訊，包括其代碼，請參閱[新增英文以外語言的文件](https://docs.aws.amazon.com/kendra/latest/dg/in-adding-languages.html)。

對於自訂欄位，您可以使用 `DocumentMetadataConfigurationUpdates`搭配 `UpdateIndex` API 來建立這些欄位，就像您在建立預留或通用欄位時一樣。您必須為自訂欄位設定適當的資料類型。如果您使用 主控台，您可以透過選取資料來源、選取編輯動作，然後繼續在欄位映射區段旁設定資料來源來更新欄位。有些資料來源不支援新增欄位或自訂欄位。建立欄位後，就無法變更欄位類型。

以下是您可以為自訂欄位設定的類型：
+ Date
+ Number
+ String
+ 字串清單

如果您使用 [BatchPutDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchPutDocument.html) API 將文件新增至索引， 會`Attributes`列出文件的欄位/屬性，並使用 `DocumentAttribute` 物件建立欄位。

對於從 Amazon S3 資料來源編製索引的文件，您可以使用包含欄位資訊的 [JSON 中繼資料檔案](https://docs.aws.amazon.com/kendra/latest/dg/s3-metadata.html)建立欄位。

如果您使用支援的資料庫做為資料來源，您可以使用欄位[映射選項來設定欄位](https://docs.aws.amazon.com/kendra/latest/dg/data-source-database.html#data-source-procedure-database)。