View a markdown version of this page

转录流式音频 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

转录流式音频

使用 Amazon Transcribe 流媒体,您可以为媒体内容制作实时转录。与涉及上传媒体文件的批量转录不同,流媒体是实时传送到 Amazon Transcribe 的。 Amazon Transcribe 然后返回笔录,也是实时的。

流式媒体可以包括预先录制的媒体(电影、音乐和播客)和实时媒体(新闻直播)。常见的直播用例 Amazon Transcribe 包括体育赛事的直播隐藏式字幕和呼叫中心音频的实时监控。

流式媒体内容以一系列顺序数据包或“组块”的形式传送, Amazon Transcribe 即时转录这些内容。与批量转录相比,使用流式转录的优势包括应用程序中的实时语音转文本功能和更短的转录时间。但是,在某些情况下,这种速度的提高可能会影响准确性。

Amazon Transcribe 提供以下直播选项:

要在中转录流式音频 AWS 管理控制台,请对着电脑麦克风说话。

提示

有关 SDK 代码示例,请参阅上的AWS 示例存储库 GitHub。

流式转录支持的音频格式有:

  • FLAC

  • OPUS-encoded Ogg 容器中的音频

  • PCM(仅带签名的 16 位小端音频格式,不包括 WAV)

建议使用无损格式(FLAC 或 PCM)。

注意

并非所有语言都支持流式转录。有关详细信息,请参阅支持的语言表中的“数据输入”列。

要查看流媒体转录的 Amazon Transcribe 区域可用性,请参阅:Amazon Transcribe 终端节点和配额。

最佳实践

以下建议可提高流式转录的效率:

  • 如果可能,请使用 PCM-encoded 音频。

  • 请确保您的音频流尽可能接近实时传输。

  • 延迟取决于音频组块的大小。如果您能够使用音频类型(例如使用 PCM)指定组块大小,请将每个组块设置为 50 毫秒到 200 毫秒之间。您可以通过以下公式计算音频块大小:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • 使用统一的组块大小。

  • 确保正确指定了音频声道的数量。

  • 对于单声道 PCM 音频,每个样本由两个字节组成,因此每个组块应由偶数字节组成。

  • 对于双声道 PCM 音频,每个样本由四个字节组成,因此每个组块应是 4 字节的倍数。

  • 当您的音频流不包含语音时,请编码并发送相同数量的无声音频。例如,PCM 的无声音频是一个零字节的音频流。

  • 确保为音频指定正确的采样率。如果可能,请以 16000 Hz 的采样率进行录制;这在通过网络发送的质量和数据量之间做到了最佳折衷。请注意,大多数高端麦克风的录音频率为 44100 Hz 或 48000 Hz。

处理 LimitExceededException 错误

与任何分布式系统一样, Amazon Transcribe 具有检测资源过度消耗并做出相应反应的保护机制。 LimitExceededException当其中一种机制被触发时,可能会发生错误。此错误有三个不同的原因:

已超出并发流服务配额

这是最常见的原因。当您超出并发流服务配额时,就会发生这种情况。要解决此错误,请使用指数退避重试。如果您一直达到此限制,请通过 Service Quotas 控制台申请增加服务配额。您也可以联系 Su AWS pport Center 寻求帮助。有关重试策略的更多信息,请参阅 AWS SDK 和工具参考指南中的重试行为

已超过最大会话持续时间

当直播超过允许的最大会话持续时间时,就会发生此错误。这是一项硬性限制,无法增加。要继续转录,请开始新的直播会话。

并发直播数量增加得太快

这是一种罕见的原因。如果您过快地增加并发流的数量,则可能会发生这种情况,例如在负载测试期间。这是一种系统级保护机制,没有可调整的配额。要解决此错误,请使用指数退避重试,然后逐渐增加并发流的数量。有关重试策略的更多信息,请参阅 AWS SDK 和工具参考指南中的重试行为。你也可以访问 re AWS : Post 或联系 Prem ium Suppor AWS t