

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 生成式语音
<a name="generative-voices"></a>

Amazon Polly 的**生成式** text-to-speech (TTS) 引擎提供了最像人类、最具情感参与度和自适应性的对话语音，可供通过 Amazon Polly 控制台使用。

**生成式引擎**是迄今为止最大的 Amazon Polly TTS 模型。该引擎部署了一个包含十亿参数的转换器，用于将原始文本转换为语音代码，然后部署基于卷积的解码器，该解码器以可流式传输的增量方式将这些语音代码转换为波形。这种方法显示了广泛报道的大型语言模型 (LLMs) 在接受越来越多的公开和专有数据（包括各种声音、语言和风格）的训练时出现的能力。

生成式引擎可以创建合成语音，这种语音具有情感参与度、言语果断并且高度口语化，其方式与人类语音高度相似。您可以在以下场景中使用这些语音：知识广博的客户助理、虚拟培训师或采用合成语音媲美人类的广告商。

**注意**  
这些声音背后的 state-of-the-art技术属于用于语言和语音建模的生成式人工智能的范式。这项技术的一个副作用是，对训练数据和模型的任何更新都可能会导致语音听起来略有不同，即使随着模型的更新，语音的整体质量有所提高，也是如此。这可能会影响由长期合成的不同内容部分组成的应用场景，例如一个季度的播客。

## 可用的生成式语音
<a name="generative-voicelist"></a>

Amazon Polly 目前以生成变体形式提供 43 种声音。


|  | 语言 | 语言代码 | 名称/ID | 性别 | 
| --- | --- | --- | --- | --- | 
| 1 |  **英语（澳大利亚）**  | en-AU |  Olivia  |  女  | 
| 2 |  **英语（英国）**  | en-GB |  Amy Brian  |  女 男  | 
| 3 |  **英语（印度）**  | en-IN |  Kajal  |  女  | 
| 4 |  **英语（爱尔兰）**  | en-IE |  Niamh  |  女  | 
| 5 |  **英语（新西兰）**  | en-NZ |  Aria  |  女  | 
| 6 |  **英语（新加坡）**  | en-SG |  Jasmine  |  女  | 
| 7 |  **英语（南非）**  | en-ZA |  Ayanda  |  女  | 
| 8 |  **英语（美国）**  | en-US |  Danielle Joanna Matthew Ruth Salli Stephen Tiffany  |  女 女 男 女 女 男 女  | 
| 9 |  **荷兰语（比利时）**  | nl-BE |  Lisa  |  女  | 
| 10 |  **荷兰语（荷兰）**  | nl-NL |  Laura  |  女  | 
| 11 |  **法语（比利时）**  | fr-BE |  Isabelle  |  女  | 
| 12 |  **法语（加拿大）**  | fr-CA |  Gabrielle Liam  |  女 男  | 
| 13 |  **法语（法国）**  | fr-FR |  琥珀色 Céline 弗洛里安 Léa Rémi  |  女 女 男 女 男  | 
| 14 |  **德语（奥地利）**  | de-AT |  Hannah  |  女  | 
| 15 |  **德语（德国）**  | de-DE |  Daniel 伦纳特 Vicki  |  男 男 女  | 
| 16 |  **德语（瑞士）**  | de-CH |  Sabrina  |  女  | 
| 17 |  **意大利语（意大利）**  | it-IT |  比阿特丽斯 Bianca Lorenzo  |  女 女 男  | 
| 18 |  **韩语（韩国）**  | ko-KR |  Seoyeon  |  女  | 
| 19 |  **波兰语（波兰）**  | pl-PL |  Ewa Ola  |  女 女  | 
| 20 |  **葡萄牙语（巴西）**  | pt-BR |  Camila  |  女  | 
| 21 |  **西班牙语（墨西哥）**  | es-MX |  Andrés Mía  |  男 女  | 
| 22 |  **西班牙语（西班牙）**  | es-ES |  Lucia Sergio  |  女 男  | 
| 23 |  **西班牙语（美国）**  | es-US |  Lupe Pedro  |  女 男  | 

**注意**  
生成式语音费用在 [Amazon Polly 定价信息页面](https://aws.amazon.com/polly/pricing/)上列示。

## 特征和区域兼容性
<a name="generative-regions"></a>

Amazon Polly 生成式语音在以下区域可用：
+ 美国东部（弗吉尼亚北部）：us-east-1
+ 欧洲地区（法兰克福）：eu-central-1
+ 美国西部（俄勒冈）：us-west-2
+ 亚太地区（东京）：ap-northeast-1
+ 亚太地区（首尔）：ap-northeast-2
+ 亚太地区（新加坡）：ap-southeast-1
+ 欧洲地区（伦敦）：eu-west-2
+ 加拿大（中部）：ca-central-1
+ 其他区域不可用

**生成式语音支持以下功能：**
+ 现在，生成引擎中提供了双向流媒体 API，允许同时传输输入和输出。此 API 可在以下 AWS 区域使用：美国东部（弗吉尼亚北部）、欧洲（法兰克福）、美国西部（俄勒冈）和亚太地区（新加坡）。请访问[文档](https://docs.aws.amazon.com/polly/latest/dg/API_StartSpeechSynthesisStream.html)，详细了解如何使用它。
+ 实时和异步语音合成操作。
+ **生成式**引擎不支持新闻播音员风格。
+ Amazon Polly 支持许多（但不是所有）SSML 标签。有关 NTTS 支持的 SSML 标签的更多信息，请参阅[支持的 SSML 标签](https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html)。
+ 与标准语音一样，您可以从各种采样率中进行选择，以优化应用程序的带宽和音频质量。标准和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。生成式语音的默认频率为 24 kHz。Amazon Polly 支持 MP3 OGG (Vorbis) 和原始 PCM 音频流格式。

*目前不支持生成式语音标记。*

**注意**  
目前，欧洲（伦敦）和加拿大（中部）地区仅支持以下生成声音：蒂芙尼（en-US）、艾米（en-GB）、Brian（en-GB）、弗洛里安（fr-fr）、Ambre（fr-fr）、洛伦佐（it-it）、Beatrice（it-it）、Jasmine（en-SG）、Aria（en-NZ）、Sabrina（de-ch）、Hannah（de-at）、Niamh（en-ie）、Camila（pt-BR）、Lisa（nl-be）和 Seoyeon（ko-kr）

**注意**  
在可能性非常小的模型幻觉情况下（并且所采用的生成式引擎的模型行为是按令牌渲染语音），存在一种强制性的紧急停止机制。该内置机制会阻止模型进一步渲染语音。此安全功能基于数据分析，其中模型有可能会产生幻觉，通常是在句子的末尾。  
在某些情况下，模型认为自身会产生幻觉，然后最终可能会在生成步骤中切断一个单词，从而只渲染这个单词的一半。这可能会产生不恰当的结果。