

# 视觉理解提示最佳实践
<a name="prompting-video-understanding"></a>

**注意**  
本文档适用于 Amazon Nova 版本 1。有关如何在 Amazon Nova 2 中提示多模态理解的信息，请访问[提示多模态输入](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html)。

Amazon Nova 模型系列配备了新颖的视觉功能，使该模型能够理解和分析图像和视频，从而为多模态交互开启激动人心的机会。以下各节概述了在 Amazon Nova 中处理图像和视频的指南。这包括最佳实践、代码示例和需要考虑的相关限制。

您提供的图像或视频质量越高，模型准确理解媒体文件中信息的机会就越大。确保图像或视频清晰，且没有过多的模糊或像素化，以保证更准确的结果。如果图像或视频帧包含重要的文本信息，请确认文本清晰且不要太小。避免仅仅为了放大文本而剪掉关键视觉上下文。

Amazon Nova 模型允许您在有效载荷中包含单个视频，可采用 base64 格式提供，也可以通过 Amazon S3 URI 提供。使用 base64 方法时，总有效载荷大小必须在 25 MB 以内。但是，您可以指定 Amazon S3 URI 来理解图像、视频和文档。使用 Amazon S3 让您能够利用该模型处理更大的文件和多个媒体文件，而不受整体有效载荷大小限制约束。Amazon Nova 可以分析输入视频并回答问题、对视频进行分类，并根据提供的说明汇总视频中的信息。

Amazon Nova 模型允许您在有效载荷中包含多张图像。总有效载荷大小不能超过 25 MB。Amazon Nova 模型可以分析传递的图像并回答问题、对图像进行分类以及根据提供的说明汇总图像。


**图像信息**  

| 媒体文件类型 | 支持的文件格式 | 输入方法 | 
| --- |--- |--- |
| Image | PNG、JPG、JPEG、GIF、WebP | Base64 和 Amazon S3 URI | 


**视频信息**  

| Format | MIME 类型 | 视频解码 | 
| --- |--- |--- |
| MKV | 视频/x-matroska | H.264 | 
| MOV | 视频/quicktime | H.264<br />H.265<br />ProRES | 
| MP4 | 视频/mp4 | DIVX/XVID<br />H.264<br />H.265<br />J2K（JPEG2000）<br />MPEG-2<br />MPEG-4 第 2 部分<br />VP9 | 
| WEBM | 视频/webm | VP8<br />VP9 | 
| FLV | 视频/x-flv | FLV1 | 
| MPEG | 视频/mpeg | MPEG-1 | 
| MPG | 视频/mpg | MPEG-1 | 
| WMV | 视频/wmv | MSMPEG4v3（MP43） | 
| 3GPP | 视频/3gpp | H.264 | 

无论视频是作为 base64（只要符合大小限制）还是通过 Amazon S3 位置传递，视频输入词元数量都没有差异。

请注意，对于 3gp 文件格式，API 请求中传递的“格式”字段的格式应为“three\_gp”。

使用 Amazon S3 时，请确保将视频的“Content-Type”元数据设置为正确的 MIME 类型

**Topics**
+ [高动态的长视频](#prompting-video-motion)
+ [延迟](#prompting-video-latency)
+ [视觉理解提示技巧](prompting-vision-prompting.md)

## 高动态的长视频
<a name="prompting-video-motion"></a>

该模型通过以每秒 1 帧（FPS）为基准采样视频帧来理解视频。这是捕获视频中的细节和消耗所使用的输入词元之间的平衡，这会影响成本、延迟和最大视频时长。虽然每秒采样一个事件对于一般应用场景应该足够，但体育视频等部分高动态视频应用场景可能表现不佳。

为了处理更长的视频，对于 Amazon Nova Lite 和 Amazon Nova Pro，超过 16 分钟的视频的采样率会降低到固定的 960 帧，并分布在整个视频长度上。这意味着，当视频超过 16 分钟时，FPS 越低，捕获的细节也越少。由此可以实现对较长视频进行摘要等应用场景，但会加剧细节攸关的高动态视频的问题。对于 Amazon Nova Premier，1 FPS 采样率最高可达 3,200 帧。

在许多情况下可以使用预处理步骤和多次调用，在较长的视频上获得 1 FPS 的采样。可以将视频分成较小的片段，然后使用模型的多模型功能对每个片段进行分析。对回复进行汇总，最后一步使用文本转文本生成最终答案。请注意，以这种方式分割视频时可能会丢失上下文。这类似于 RAG 应用场景在分块方面的权衡，在许多相同的缓解技术中都能很好地应用，比如滑动窗口。

请注意，分割视频也可能减少延迟，因为分析是并行完成的，但会生成更多的输入词元，从而影响成本。

## 延迟
<a name="prompting-video-latency"></a>

视频可能很大。尽管我们提供了通过将文件上传到 Amazon S3 来处理最多 1 GB 文件的方法（使得调用有效载荷过程变得非常精简），但模型仍然需要处理潜在的大量词元。如果您使用的是 Invoke 或 Converse 之类的同步 Amazon Bedrock 调用，请确保您的 SDK 配置了适当的超时时间。

不管怎样，当延迟是一个因素时，Amazon S3 URI 是首选方式。根据上一节所述对视频进行分割是另一种策略。向下预处理高分辨率和高帧率的视频还可以节省带宽并减少对服务规模的处理，从而降低延迟。