本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 选择您的多模式处理方法
<a name="kb-multimodal-choose-approach"></a>

Amazon Bedrock 知识库提供了两种处理多模式内容的方法：用于视觉相似度搜索的 Nova 多模态嵌入和用于基于文本的多媒体内容处理的 Bedrock 数据自动化 (BDA)。如果您的输入模式是图像而不是音频或视频，则也可以使用基础模型作为解析器。

本节介绍如何使用 Nova 多模态嵌入和 BDA 作为多模态内容的处理方法。每种方法都针对不同的用例和查询模式进行了优化。

**Topics**
+ [多模态处理方法](#kb-multimodal-processing-approach)
+ [区域可用性](#kb-multimodal-processing-regions)
+ [按内容类型划分的选择标准](#kb-multimodal-selection-guidance)
+ [支持的文件类型和数据源](#kb-multimodal-supported-files)
+ [能力和局限性](#kb-multimodal-approach-details)

## 多模态处理方法
<a name="kb-multimodal-processing-approach"></a>

下表显示了用于处理多模态内容的 Nova 多模式嵌入和 BDA 之间的比较。


**处理方法比较**  

| 特征 | Nova 多模态嵌入式 | 基岩数据自动化 (BDA) | 
| --- | --- | --- | 
| 处理方法 | 无需中间文本转换即可生成嵌入内容 | 将多媒体转换为文本，然后创建嵌入内容 | 
| 支持的查询类型 | 文本查询或图像查询 | 仅限文本查询 | 
| 主要用例 | 视觉相似度搜索、产品匹配、图像发现 | 语音转录、基于文本的搜索、内容分析 | 
| RAG 功能 | 仅限于文字内容 | 全力RetrieveAndGenerate支持 | 
| 存储需求 | 需要多式联运存储目的地 | 多式联运存储目的地是可选的，但如果未指定，BDA 将只处理文本数据。对于非文本输入，必须指定多模式存储目的地。 | 

## 区域可用性
<a name="kb-multimodal-processing-regions"></a>


**区域可用性**  

| Nova 多模态嵌入式 | 基岩数据自动化 (BDA) | 
| --- | --- | 
| 仅限美国东部（弗吉尼亚州北部） |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/bedrock/latest/userguide/kb-multimodal-choose-approach.html)  | 

## 按内容类型划分的选择标准
<a name="kb-multimodal-selection-guidance"></a>

使用此决策矩阵根据您的内容和用例要求选择适当的处理方法：

**注意**  
如果您将 BDA 解析器与 Amazon Nova 多模态嵌入模型一起使用，则嵌入模型将像文本嵌入模型一样起作用。处理多模式内容时，根据您的用例，使用其中一种处理方法以获得最佳结果。


**按内容类型划分的处理方法建议**  

| 内容类型 | Nova 多模态嵌入式 | 基岩数据自动化 (BDA) | 
| --- | --- | --- | 
| 产品目录和图片 | 推荐-启用视觉相似度匹配和基于图像的查询 | 有限-仅通过 OCR 提取文本 | 
| 会议录音和通话 | 无法有意义地处理语音内容 | 推荐-提供完整的语音转录和可搜索的文本 | 
| 培训和教育视频 | 部分-处理视觉内容但错过了语音 | 推荐-捕获语音记录和视觉描述 | 
| 客户支持录音 | 不推荐-无法有效处理语音内容 | 推荐-创建完整的可搜索对话记录 | 
| 技术图表和图表 | 推荐-非常适合视觉相似度和模式匹配 | 有限-提取文本标签但错过了视觉关系 | 

## 支持的文件类型和数据源
<a name="kb-multimodal-supported-files"></a>

支持的文件类型取决于您选择的处理方法：


**按处理方法划分的支持的文件类型**  

| 文件类型 | Nova 多模态嵌入式 | 基岩数据自动化 (BDA) | 
| --- | --- | --- | 
| 图片 | .png、.jpg、.jpeg、.gif、.webp | .png、.jpg、.jpeg | 
| 音频 | .mp3、.ogg、.wav | .amr、.flac、.m4a、.mp3、.ogg、.wav | 
| 视频 | .mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp | .mp4、.mov | 
| 文档 | 作为文本处理 | .pdf（加上从图像中提取文本） | 

****支持的数据源****  
以下数据源支持多模式内容：
+ **Amazon S3：**完全支持所有多模式文件类型
+ **自定义数据源：**支持最大 10MB base64 编码的内联内容

**重要**  
多模式检索目前仅适用于 Amazon S3 数据源。其他数据源（Confluence、 SharePoint、Salesforce、Web Crawler）在摄取期间不处理多模式文件。这些文件将被跳过，无法用于多模式查询。

## 能力和局限性
<a name="kb-multimodal-approach-details"></a>

**Nova 多模态嵌入式**  
**关键能力：**  
+ 原生多模态处理保留了原始内容格式，以实现最佳的视觉相似度匹配
+ 基于图像的查询允许用户上传图像并查找视觉上相似的内容
+ 适用于产品目录、视觉搜索和内容发现应用程序的卓越性能
**限制:**  
+ 无法有效处理语音或音频内容-无法搜索语音信息
+ `RetrieveAndGenerate`并重新排列功能仅限于文本内容
+ 需要配置专用的多式联运存储目的地

**基岩数据自动化 (BDA)**  
**关键能力：**  
+ 使用自动语音识别 (ASR) 技术进行全面的语音转录
+ 视觉内容分析为图像和视频场景生成描述性文本
+ 全面`RetrieveAndGenerate`支持可在所有内容中实现完整的 RAG 功能
+ 基于文本的搜索在所有多媒体内容类型中都能保持一致
**限制:**  
+ 在没有 Nova 多模式嵌入的情况下使用时，不支持基于图像的查询——所有搜索都必须使用文本输入
+ 无法进行视觉相似度匹配或搜索 image-to-image
+ 由于内容转换要求，摄取处理时间更长
+ 与 Nova 多模式嵌入相比，支持的多媒体文件格式更少

**语音内容处理**  
Nova Multimodal Embeddings 无法有效地处理音频或视频文件中的语音内容。如果您的多媒体内容包含用户需要搜索的重要口头信息，请选择 BDA 方法以确保完整的转录和可搜索性。