本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 選擇您的多模式處理方法
<a name="kb-multimodal-choose-approach"></a>

Amazon Bedrock 知識庫提供兩種處理多模態內容的方法：用於視覺相似性搜尋的 Nova 多模態內嵌，以及用於以文字為基礎的多媒體內容處理之 Bedrock Data Automation (BDA)。如果您的輸入模式是影像，但不適用於音訊或視訊，您也可以使用基礎模型做為剖析器。

本節說明使用 Nova Multimodal Embeddings 和 BDA 作為多模式內容的處理方法。每種方法都針對不同的使用案例和查詢模式進行最佳化。

**Topics**
+ [多模式處理方法](#kb-multimodal-processing-approach)
+ [區域可用性](#kb-multimodal-processing-regions)
+ [依內容類型選擇條件](#kb-multimodal-selection-guidance)
+ [支援的檔案類型和資料來源](#kb-multimodal-supported-files)
+ [功能和限制](#kb-multimodal-approach-details)

## 多模式處理方法
<a name="kb-multimodal-processing-approach"></a>

下表顯示 Nova Multimodal Embeddings 和 BDA 之間的比較，用於處理多模式內容。


**處理方法比較**  

| 特性 | Nova 多模態內嵌 | Bedrock 資料自動化 (BDA) | 
| --- | --- | --- | 
| 處理方法 | 在沒有中繼文字轉換的情況下產生內嵌 | 將多媒體轉換為文字，然後建立內嵌 | 
| 支援的查詢類型 | 文字查詢或映像查詢 | 僅限文字查詢 | 
| 主要使用案例 | 視覺相似性搜尋、產品比對、影像探索 | 語音轉錄、文字搜尋、內容分析 | 
| RAG 功能 | 僅限文字內容 | 完整RetrieveAndGenerate支援 | 
| 儲存需求 | 需要多模態儲存目的地 | 多模態儲存目的地是選用的，但如果未指定，則 BDA 只會處理文字資料。對於非文字輸入，您必須指定多模式儲存目的地。 | 

## 區域可用性
<a name="kb-multimodal-processing-regions"></a>


**區域可用性**  

| Nova 多模態內嵌 | Bedrock 資料自動化 (BDA) | 
| --- | --- | 
| 僅限美國東部 （維吉尼亞北部） |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/kb-multimodal-choose-approach.html)  | 

## 依內容類型選擇條件
<a name="kb-multimodal-selection-guidance"></a>

使用此決策矩陣，根據您的內容和使用案例需求選擇適當的處理方法：

**注意**  
如果您搭配 Amazon Nova Multimodal Embeddings 模型使用 BDA 剖析器，內嵌模型會像文字內嵌模型一樣運作。使用多模態內容時，請根據您的使用案例，使用其中一種處理方法來獲得最佳結果。


**依內容類型處理方法建議**  

| 內容類型 | Nova 多模態內嵌 | Bedrock 資料自動化 (BDA) | 
| --- | --- | --- | 
| 產品目錄和映像 | 建議 - 啟用視覺相似度比對和影像型查詢 | 有限 - 僅透過 OCR 擷取文字 | 
| 會議錄音和通話 | 無法有意義的處理語音內容 | 建議 - 提供完整的語音轉錄和可搜尋的文字 | 
| 訓練和教育影片 | 部分 - 處理視覺化內容，但錯過語音 | 建議 - 同時擷取語音文字記錄和視覺化描述 | 
| 客戶支援錄音 | 不建議 - 無法有效處理語音內容 | 建議 - 建立完整的可搜尋對話文字記錄 | 
| 技術圖表 | 建議 - 非常適合視覺相似性和模式比對 | 有限 - 擷取文字標籤，但錯過視覺關係 | 

## 支援的檔案類型和資料來源
<a name="kb-multimodal-supported-files"></a>

支援的檔案類型取決於您選擇的處理方法：


**透過處理方法支援的檔案類型**  

| 檔案類型 | Nova 多模態內嵌 | Bedrock 資料自動化 (BDA) | 
| --- | --- | --- | 
| 映像 | .png、.jpg、.jpeg、.gif、.webp | .png、.jpg、.jpeg | 
| 音訊 | .mp3、.ogg、.wav | .amr、.flac、.m4a、.mp3、.ogg、.wav | 
| 影片 | .mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp | .mp4、.mov | 
| 文件 | 以文字處理 | .pdf （加上影像中的文字擷取） | 

****支援的資料來源****  
下列資料來源支援多模態內容：
+ **Amazon S3：**對所有多模態檔案類型的完整支援
+ **自訂資料來源：**支援最多 10MB base64 編碼的內嵌內容

**重要**  
多模式擷取目前僅適用於 Amazon S3 資料來源。其他資料來源 (Confluence、SharePoint、Salesforce、Web Crawler) 不會在擷取期間處理多模式檔案。這些檔案會略過，且不適用於多模式查詢。

## 功能和限制
<a name="kb-multimodal-approach-details"></a>

**Nova 多模式內嵌**  
**主要功能：**  
+ 原生多模態處理會保留原始內容格式，以獲得最佳視覺相似性比對
+ 以映像為基礎的查詢可讓使用者上傳映像並尋找視覺上相似的內容
+ 產品目錄、視覺化搜尋和內容探索應用程式的卓越效能
**限制：**  
+ 無法有效地處理語音或音訊內容 - 無法搜尋口語資訊
+ `RetrieveAndGenerate` 和 重新排名功能僅限於文字內容
+ 需要專用多模態儲存目的地的組態

**Bedrock 資料自動化 (BDA)**  
**主要功能：**  
+ 使用自動語音辨識 (ASR) 技術的全面語音轉錄
+ 視覺化內容分析可產生影像和影片場景的描述性文字
+ 完整`RetrieveAndGenerate`支援可跨所有內容啟用完整的 RAG 功能
+ 文字型搜尋可在所有多媒體內容類型中一致運作
**限制：**  
+ 在沒有 Nova 多模式內嵌的情況下使用時，不支援以映像為基礎的查詢 - 所有搜尋都必須使用文字輸入
+ 無法執行視覺相似度比對或image-to-image搜尋
+ 由於內容轉換需求，擷取處理時間較長
+ 相較於 Nova 多模式內嵌，支援較少的多媒體檔案格式

**語音內容處理**  
Nova Multimodal Embeddings 無法有效地處理音訊或影片檔案中的語音內容。如果您的多媒體內容包含使用者搜尋所需的重要口語資訊，請選擇 BDA 方法，以確保完整轉錄和可搜尋性。