

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Transcribe 運作方式
<a name="how-it-works"></a>

Amazon Transcribe 使用機器學習模型將語音轉換為文字。

除了轉錄文字外，文字記錄還包含轉錄內容的相關資料，包括每個單字或標點符號的可信度分數和時間戳記。若要查看輸出範例，請參閱[資料輸入和輸出](how-input.md#how-output)一節。如需可套用至轉錄的完整清單，請參閱[功能摘要](feature-matrix.md)。

轉錄方法可分為兩個主要類別：
+ **批次轉錄**：轉錄已上傳至 Amazon S3 儲存貯體的媒體檔案。您可以使用 [AWS CLI](getting-started-cli.md)、[AWS 管理主控台](getting-started-console.md) 和各種 [AWS SDK](getting-started-sdk.md) 進行批次轉錄。
+ **串流轉錄**：即時轉錄媒體串流。您可以使用 [AWS 管理主控台](getting-started-console.md)、[HTTP/2](streaming-setting-up.md#streaming-http2)、[WebSockets](streaming-setting-up.md#streaming-websocket) 和各種 [AWS SDK](getting-started-sdk.md) 進行串流轉錄。

請注意，批次和串流轉錄的功能和語言支援會不同。如需詳細資訊，請參閱 [Amazon Transcribe features](feature-matrix.md) 和[支援的語言](supported-languages.md)。

**Topics**
+ [資料輸入和輸出](how-input.md)
+ [轉錄數字和標點符號](how-numbers.md)

**API 操作可協助您入門**  
批次：[https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html)  
串流：[https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html), StartStreamTranscriptionWebSocket

# 資料輸入和輸出
<a name="how-input"></a>

Amazon Transcribe 會將音訊資料作為 Amazon S3 儲存貯體或媒體串流中的媒體檔案，並將其轉換為文字資料。

如果您要轉錄存放在 Amazon S3 儲存貯體中的媒體檔案，則您要執行**批次轉錄**。如果您要轉錄媒體串流，您要執行的是**串流轉錄**。這兩個流程有不同的規則和要求。

如果是批次轉錄，如果您不需要同時處理所有的轉錄任務，請使用 [工作佇列](job-queueing.md)。這可讓 追蹤您的轉錄任務 Amazon Transcribe ，並在有可用插槽時處理它們。

**注意**  
Amazon Transcribe 可能會暫時存放您的內容，以持續改善其分析模型的品質。請參閱 [Amazon Transcribe 常見問答集](https://aws.amazon.com/transcribe/faqs/)，了解更多資訊。若要請求刪除可能已儲存的內容 Amazon Transcribe，請使用 開啟案例[支援](https://aws.amazon.com/contact-us/)。

**Topics**
+ [媒體格式](#how-input-audio)
+ [音訊聲道](#how-input-channels)
+ [取樣率：](#how-input-sample-rates)
+ [輸出](#how-output)

## 媒體格式
<a name="how-input-audio"></a>

批次轉錄和串流轉錄的支援媒體類型會不同，但兩者都建議使用無失真格式。請參閱下列資料表，了解詳細資訊：


|  | 批次 | 串流 | 
| --- | --- | --- | 
| 支援的格式 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/transcribe/latest/dg/how-input.html)  | 
| 建議格式 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/transcribe/latest/dg/how-input.html)  | 

為了獲得最佳結果，您應該使用不失真的格式，例如 FLAC 或以 PCM 16 位元編碼的 WAV。

**注意**  
並非所有語言都支援串流轉錄。請參閱[支援語言表格](supported-languages.md)中的「資料輸入」欄，了解詳細資訊。

## 音訊聲道
<a name="how-input-channels"></a>

Amazon Transcribe 支援單通道和雙通道媒體。目前不支援超過兩個聲道的媒體。

如果您的音訊在一個聲道上包含多個發言者，而您想要在轉錄輸出中進行每個發言者的分隔和標記，則可以使用[發言者分隔 (日記)](diarization.md)。

如果您的音訊包含兩個不同聲道的語音，您可以使用[聲道識別](channel-id.md)功能，在文字記錄中分別轉錄每個聲道。

這兩個選項都會產生文字記錄檔案。

**注意**  
如果您未啟用[發言者分隔](diarization.md)或[聲道識別](channel-id.md)，您的文字記錄文字會以連續區段的形式提供。

## 取樣率：
<a name="how-input-sample-rates"></a>

使用批次轉錄作業時，您可以選擇提供取樣率，但此參數是選擇性提供。如果您將其包含在請求中，請確定您提供的值與音訊中的實際取樣率相符。如果您提供的取樣率與音訊不相符，您的工作可能會失敗。

使用串流轉錄時，您必須在請求中包含取樣率。與批次轉錄作業相同，請確定您提供的值與音訊中的實際取樣率相符。

低保真度音訊 (例如電話錄音) 的取樣率通常使用 8,000 Hz。對於高保真音訊， Amazon Transcribe 支援介於 16，000 Hz 和 48，000 Hz 之間的值。

## 輸出
<a name="how-output"></a>

轉錄輸出為 JSON 格式。文字記錄的第一部分以段落形式包含文字記錄本身，後面接著每個單字和標點符號的其他資料。所提供的資料須視您請求中包含的功能。您的文字記錄至少會包含每個單字的開始時間、結束時間和可信度分數。[以下章節](#how-it-works-output)顯示不包含任何其他選項或功能的基本轉錄請求的範例輸出。

所有**批次文字記錄**都存放在 Amazon S3 儲存貯體中。您可以選擇將文字記錄儲存在自己的 Amazon S3 儲存貯體中，或使用安全的預設儲存貯 Amazon Transcribe 體。若要了解如何建立和使用 Amazon S3 儲存貯體的詳細資訊，請參閱[使用儲存貯體](https://docs.aws.amazon.com/AmazonS3/latest/userguide/creating-buckets-s3.html)。

如果您想要將文字記錄存放在您擁有的 Amazon S3 儲存貯體中，請在您的文字記錄請求中指定儲存貯體的 URI。在開始批次轉錄任務之前，請確定您授予此儲存貯體的 Amazon Transcribe 寫入許可。如果您指定自己的儲存貯體，您的文字記錄會保留在該儲存貯體中，直到您移除為止。

如果您未指定 儲存 Amazon S3 貯體， Amazon Transcribe 會使用安全的服務管理儲存貯體，並為您提供暫時 URI，供您用來下載文字記錄。請注意，臨時 URI 的有效期限為 15 分鐘。如果您使用提供的 URI 時發生 `AccessDenied` 錯誤，請提出 `GetTranscriptionJob` 請求以取得文字記錄的新臨時 URI。

如果您選擇預設儲存貯體，則會在工作到期時 (90 天) 刪除您的文字記錄。如果您想在超過到期日仍保留文字記錄，您必須下載。

**串流文字記錄**會透過您在串流中使用的相同方法傳回。

**提示**  
如果您想將 JSON 輸出轉換為 Word 格式的逐段文字記錄，請參閱此 [GitHub 範例 (適用於 Python3)](https://github.com/aws-samples/amazon-transcribe-output-word-document)。此指令碼可搭配通話後分析文字記錄和啟用日記的標準批次文字記錄使用。

### 範例輸出
<a name="how-it-works-output"></a>

文字記錄以段落形式提供完整的轉錄，後面接著逐字劃分，提供每個單字和標點符號的資料。這包括開始時間、結束時間、可信度分數和類型 (`pronunciation` 或 `punctuation`)。

下列範例來自不包含任何[其他功能](feature-matrix.md)的簡單批次轉錄作業。您套用至轉錄請求的每個其他功能時，可以取得文字記錄輸出檔案中的額外資料。

基本批次文字記錄包含兩個主要部分：

1. `transcripts`：一個文字區塊中包含整個文字記錄。

1. `items`：包含 `transcripts` 部分中每個單字和標點符號的資訊。

1. `audio_segments`：音訊區段是音訊錄音的特定部分，其中包含不中斷的口語語言，且停頓或休息時間最少。此區段會擷取自然的語音流程，並在 中`audio_segments`以開始時間和結束時間擷取。音訊區段中的 `items`元素是一系列與區段中每個項目對應的識別符。

您在轉錄請求中包含的每個其他功能都會在您的文字記錄中產生額外的資訊。

```
{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}
```

# 轉錄數字和標點符號
<a name="how-numbers"></a>

Amazon Transcribe 會自動將標點符號新增至所有支援的語言，並針對在其撰寫系統中使用案例區分的語言適當地大寫單字。

對於多數語言，數字會轉錄為該語言的單字形式。不過，對於支援轉錄數字的語言， 會根據所使用的內容，以不同的方式 Amazon Transcribe 處理數字。

例如，如果發言者說「*Meet me at eight-thirty AM on June first at one-hundred Main Street with three-dollars-and-fifty-cents and one-point-five chocolate bars*」，則會將其轉錄為：
+ 支援數字轉錄的語言： Meet me at 8:30 a.m. on June 1st at 100 Main Street with \$13.50 and 1.5 chocolate bars
+ 所有其他語言：Meet me at eight thirty a m on June first at one hundred Main Street with three dollars and fifty cents and one point five chocolate bars

若要檢視支援轉錄號碼的語言，請參閱 [支援的語言和特定語言功能](supported-languages.md)。