View a markdown version of this page

什么是 Amazon Nova 2? - Amazon Nova

什么是 Amazon Nova 2?

Amazon Nova 提供多模态基础模型,可处理文本、图像、视频、文档和语音。Amazon Nova 2 模型支持多达 100 万个词元的上下文及高级推理能力,可助力您构建能够理解复杂输入并生成准确响应的高阶人工智能应用程序。

您可以构建交互式聊天机器人、分析文档和视频、创建具有扩展推理能力的人工智能代理,以及开发支持语音的应用程序。

重要概念

在了解 Amazon Nova 模型之前,请先熟悉以下核心概念:

基础模型

通过 API 提供的预训练人工智能系统,提供不同规模和功能。

推理

向模型发送请求并接收生成响应的过程。

推理

一种扩展思考能力,使模型能够拆解复杂问题,并在给出答案前展示分步分析过程。

多模态

在单次请求中,可同时处理并理解多种类型输入(文本、图像、视频和文档)的能力。

RAG(检索增强生成)

将模型响应与自有数据源相结合,以提供更精准、贴合上下文答案的技术方法。

Amazon Nova 模型

Amazon Nova 2 包含以下模型,每个模型均针对不同使用案例进行了优化:

模型

输入模式

输出模态

使用案例

Nova 2 Lite

文本、图像、视频、文档

文本

注重速度与成本效益的高吞吐量应用程序

Nova 2 Sonic

语音、文本

语音、文本

需快速响应的语音交互应用程序

Nova Multimodal Embeddings

文本、图像、文档、视频、音频

嵌入

语义搜索、推荐系统及相似度匹配

所有模型均支持多达 100 万个词元的上下文,并且可在单次响应中生成最高 65,536 个词元。具备推理能力的模型可以进行扩展思考,逐步解决复杂问题。

您可以构建什么?

以下是可以使用 Amazon Nova 构建的应用程序示例:

  • 智能文档助手:利用多达 100 万个词元的上下文处理大型文档,实现问答与信息提炼(结合 RAG)

  • 复杂推理应用程序:通过扩展思考能力展示模型分步分析过程,解决多步骤问题(或结合推理功能)

  • 视频分析流程:批量提取视频内容信息、生成摘要并定位关键片段(Nova 2 Lite)

  • 语音人工智能代理:构建可理解语音输入并以自然语言回复的对话式代理(Nova 2 Sonic)

优势

Amazon Nova 具备以下优势:

多模态理解

在单次请求中处理文本、图像、视频、文档和语音。Amazon Nova 模型能够理解不同类型输入之间的关联信息。

扩展上下文

支持多达 100 万个词元,可完整处理代码库、长文档或持续对话,且不会丢失上下文。

高级推理

具备推理能力的模型可拆解复杂问题并展示分步分析过程,提升多步骤任务的准确性。

灵活部署

通过 Amazon Bedrock 调用模型,无需管理基础设施;也可通过微调与强化学习对模型进行自定义。

内置工具

借助 Web Grounding 能力获取实时信息,使用代码解释器执行 Python 代码,无需集成外部服务。

Amazon Nova 工作原理

Amazon Nova 模型为可通过 Amazon Bedrock 调用的基础模型。基本工作流如下:

  1. 应用程序向 Amazon Bedrock 发送包含输入和配置参数的请求。

  2. Amazon Nova 模型对输入内容进行处理,若已配置推理功能则会启用该能力。

  3. 模型生成响应并将其返回给应用程序。

您可以通过使用 RAG 整合数据、启用内置工具或通过微调自定义模型来增强响应。

定价

Amazon Nova 定价基于所处理的输入与输出词元。不同模型对应不同定价套餐:

  • Nova 2 Lite:针对高吞吐量、高性价比处理场景优化

  • Nova 2 Sonic:为语音应用程序提供均衡定价

有关当前定价信息,请参阅 Amazon Bedrock 定价

后续步骤