

# Amazon Nova 的多模态支持
<a name="modalities"></a>

**注意**  
本文档适用于 Amazon Nova 版本 1。如需 Amazon Nova 2 多模态文档，请访问[多模态理解](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html)。

Amazon Nova 理解模型是多模态理解模型，这意味着它们支持多模态输入，例如图像、视频和文档，以便根据提供的内容推断和回答问题。Amazon Nova 模型具有多种新颖的视觉功能，使模型能够理解和分析图像、文档和视频，从而实现多模态理解应用场景。

下节概述了在 Amazon Nova 中处理图像、文档和视频的指南，包括采用的预处理策略、代码示例和需要考虑的相关限制。

**Topics**
+ [按模态划分的支持内容类型](#modalities-content)
+ [图像理解](modalities-image.md)
+ [视频理解](modalities-video.md)
+ [文档理解](modalities-document.md)
+ [错误处理](text-error-handing.md)

## 按模态划分的支持内容类型
<a name="modalities-content"></a>

以下信息详细说明了媒体文件支持的文件格式和接受的输入方法。


| 媒体文件类型 | 支持的文件格式 | **输入方法** | 解析策略 | 
| --- |--- |--- |--- |
| Image | PNG、JPG、JPEG、GIF、WebP | Base64<br />Amazon S3 URI | 图像视觉理解 | 
| 文本文档<br />*（仅限 Converse API）* | CSV、XLS、XLSX、HTML、TXT、MD、DOC | 字节<br />Amazon S3 URI | 仅根据文档理解文本。 | 
| 媒体文档<br />*（仅限 Converse API）* | PDF、DOCX | 字节<br />Amazon S3 URI | 穿插图像理解的文本 | 
| 视频 | MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP | Base64<br />Amazon S3 URI | 视频视觉理解 | 

**注意**  
最多可以包含计算机中的五个文件或 Amazon S3 中的 1000 个文件。从 Amazon S3 上传时，每个文件不得超过 1 GB。从计算机上传时，上传文件的总大小不能超过 25 MB，从 Amazon S3 上传时，上传文件的总大小不能超过 2 GB。

由于总有效载荷限制为 25 MB，请确保考虑 base64 开销。在工作时，请记住，库和框架会占用内存，传递的媒体内容会迅速累积。使用视频时，指定 `s3Location` 应该可以缓解许多存储问题。

**注意**  
无论采用何种输入方法，大型视频和文档都需要时间来处理。如果 boto3 SDK 在等待 Amazon Bedrock 响应时超时，请确保您设置了适当的 [read\_timeout](https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html) 值并将 boto3 升级到最新版本 1.38。