

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon Transcribe の仕組み
<a name="how-it-works"></a>

Amazon Transcribe は機械学習モデルを使用して音声をテキストに変換します。

トランスクリプトには、文字起こしされたテキストに加えて、各単語や句読点の信頼スコアやタイムスタンプなど、文字起こしされたコンテンツに関するデータが含まれます。出力例については、「[データの入力と出力](how-input.md#how-output)」セクションを参照してください。文字起こしに適用できる機能の完全なリストについては、「[機能の概要](feature-matrix.md)」を参照してください。

文字起こしの方法は、次の 2 つの主要なカテゴリに分類できます。
+ **バッチ文字起こし**: Amazon S3 バケットにアップロードされたメディアファイルを文字起こしします。[AWS CLI](getting-started-cli.md)、[AWS マネジメントコンソール](getting-started-console.md)、およびさまざまな [AWSSDK](getting-started-sdk.md) を使用してバッチ文字起こしを行うことができます。
+ **ストリーミング文字起こし**: メディアストリームをリアルタイムで文字起こしします。ストリーミング文字起こしには[AWS マネジメントコンソール](getting-started-console.md)、[HTTP/2](streaming-setting-up.md#streaming-http2)、[WebSocket](streaming-setting-up.md#streaming-websocket)、およびさまざまな [AWSSDK](getting-started-sdk.md) を使用できます。

機能と言語のサポートは、バッチ文字起こしとストリーミング文字起こしで異なることに注意してください。さらなる詳細については、「[Amazon Transcribe features](feature-matrix.md)」と「[サポートされている言語](supported-languages.md)」を参照してください。

**Topics**
+ [データの入力および出力](how-input.md)
+ [数字と句読点の文字起こし](how-numbers.md)

**開始するための API オペレーション**  
バッチ: [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html)  
ストリーミング: [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html)、startStreamTranscriptionWebSocket

# データの入力および出力
<a name="how-input"></a>

Amazon Transcribe は、音声データを Amazon S3 バケットまたはメディアストリーム内のメディアファイルとして受け取り、テキストデータに変換します。

Amazon S3 バケットにあるメディアファイルを文字起こしする場合は、**バッチ文字起こし**を実行していることになります。メディアストリームを文字起こしする場合は、**ストリーミング文字起こし**を実行していることになります。この 2 つのプロセスには、異なるルールと要件があります。

バッチ文字起こしでは、すべての文字起こしジョブを同時に処理する必要がない場合、[ジョブキューイング](job-queueing.md) を使用します。これにより、Amazon Transcribe は文字起こしジョブを追跡し、スロットが使用可能になったときに処理することができます。

**注記**  
Amazon Transcribe では、分析モデルの品質を継続的に向上させるため、コンテンツを一時的に保存する場合があります。詳細については、「[Amazon Transcribe よくある質問](https://aws.amazon.com/transcribe/faqs/)」を参照してください。Amazon Transcribe によって保存された可能性のあるコンテンツの削除をリクエストするには、[サポート](https://aws.amazon.com/contact-us/) でケースを開きます。

**Topics**
+ [メディア形式](#how-input-audio)
+ [音声チャネル](#how-input-channels)
+ [サンプルレート](#how-input-sample-rates)
+ [Output](#how-output)

## メディア形式
<a name="how-input-audio"></a>

サポートされるメディアタイプは、バッチ文字起こしとストリーミング文字起こしでは異なりますが、どちらにも可逆形式が推奨されます。詳細については次の表を参照してください。


|  | バッチ | ストリーミング | 
| --- | --- | --- | 
| サポートされる形式 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/transcribe/latest/dg/how-input.html)  | 
| 推奨形式 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/transcribe/latest/dg/how-input.html)  | 

最良の結果を得るには、FLAC または PCM 16 ビットエンコーディング の WAV などの可逆形式を使用します。

**注記**  
ストリーミング文字起こしは、すべての言語でサポートされているわけではありません。詳細については、[サポートされている言語の表](supported-languages.md)の「データ入力」列を参照してください。

## 音声チャネル
<a name="how-input-channels"></a>

Amazon Transcribe はシングルチャネルとデュアルチャネルのメディアをサポートします。2 チャネルを超えるメディアは現在サポートされていません。

音声の 1 つのチャネルに複数のスピーカーが含まれていて、文字起こし出力で各スピーカーを分割してラベル付けしたい場合は、[スピーカーパーティショニング (ダイアライゼーション)](diarization.md) を使用できます。

音声に 2 つの異なるチャンルの音声が含まれている場合は、[チャネル識別](channel-id.md)を使用して、トランスクリプト内の各チャネルを個別に文字起こしできます。

これらのオプションはどちらも 1 つのトランスクリプトファイルを作成します。

**注記**  
[スピーカーパーティショニング](diarization.md)または[チャネル識別](channel-id.md)を有効にしない場合、トランスクリプトテキストは 1 つの連続したセクションとして提供されます。

## サンプルレート
<a name="how-input-sample-rates"></a>

バッチ文字起こしジョブでは、サンプルレートを選択することもできますが、このパラメータはオプションです。リクエストに含める場合は、指定する値が音声の実際のサンプルレートと一致することを確認します。音声と一致しないサンプルレートを指定すると、ジョブが失敗することがあります。

ストリーミング文字起こしでは、リクエストにサンプルレートを含める必要があります。バッチ文字起こしジョブと同様に、指定する値が音声の実際のサンプルレートと一致していることを確認します。

電話録音などの低音質音声のサンプルレートは、通常 8,000 Hz を使用します。高音質音声では、Amazon Transcribe は 16,000 Hz～48,000 Hz の値を使用できます。

## Output
<a name="how-output"></a>

文字起こしの出力は JSON 形式です。トランスクリプトの最初の部分には、トランスクリプトそのものが段落形式で含まれ、その後に単語と句読点ごとに追加データが続きます。提供されるデータは、リクエストに含めた機能によって異なります。少なくとも、トランスクリプトにはすべての単語の開始時刻、終了時刻、および信頼スコアが含まれます。[次のセクション](#how-it-works-output)では、追加のオプションや機能を含まない基本的な文字起こしリクエストの出力例を示しています。

**バッチ文字起こし**はすべて Amazon S3 バケットに保存されます。トランスクリプトをご自身の Amazon S3 バケットに保存するか、Amazon Transcribe に安全なデフォルトバケットを使用するかを選択できます。Amazon S3 バケットの作成と使用について詳しくは、「[バケットの使用](https://docs.aws.amazon.com/AmazonS3/latest/userguide/creating-buckets-s3.html)」を参照してください。

所有する Amazon S3 バケットにトランスクリプトを保存したい場合は、文字起こしリクエストでバケットの URI を指定します。バッチ文字起こしジョブを開始する前に、このバケットへの Amazon Transcribe 書き込み権限を必ず付与します。独自のバケットを指定した場合、トランスクリプトは削除するまでそのバケットに残ります。

Amazon S3 バケットを指定しない場合、Amazon Transcribe は安全なサービスマネージドバケットを使用し、トランスクリプトをダウンロードするために使用できる一時的な URI を提供します。一時的な URI は 15 分間有効であることに注意してください。提供された URI の使用中に `AccessDenied` エラーが発生した場合は、トランスクリプト用の新しい一時的な URI を取得する `GetTranscriptionJob` リクエストを行ってください。

デフォルトバケットを選択した場合、ジョブの有効期限 (90 日) になると、トランスクリプトは削除されます。この有効期限を過ぎてもトランスクリプトを保存したい場合は、ダウンロードする必要があります。

**ストリーミングトランスクリプト**は、ストリームに使用しているのと同じ方法で返されます。

**ヒント**  
JSON 出力を単語形式のターンバイターンのトランスクリプトに変換したい場合は、この「[GitHub の例 (Python3 用)](https://github.com/aws-samples/amazon-transcribe-output-word-document)」を参照してください。このスクリプトは、通話後分析文字起こしや、ダイアライゼーションが有効になっている標準のバッチ文字起こしで動作します。

### 出力例
<a name="how-it-works-output"></a>

トランスクリプトでは、段落形式で完全な文字起こしが得られ、その後に単語ごとの内訳が記載され、すべての単語と句読点のデータが示されます。これには、開始時間、終了時間、信頼スコア、タイプ (`pronunciation` または `punctuation`) が含まれます。

次の例は、[追加機能](feature-matrix.md)を含まないシンプルなバッチ文字起こしジョブのものです。文字起こしリクエストに追加機能を適用するたびに、文字起こし出力ファイルに追加のデータが追加されます。

基本的なバッチ文字起こしには主に以下の 2 つのセクションがあります。

1. `transcripts`: 1 つのテキストブロックにトランスクリプト全体が含まれます。

1. `items`: `transcripts` セクションの各単語と句読点に関する情報が含まれます。

1. `audio_segments`: 音声セグメントとは、オーディオ録音の中で最小限の一時停止や中断のみを含む、途切れない音声言語の特定の部分を指します。このセグメントは自然な音声の流れをキャプチャし、開始時刻と終了時刻と共に `audio_segments` にキャプチャされます。音声セグメント内の `items` 要素は、セグメント内の各項目に対応する一連の識別子です。

文字起こしリクエストに追加機能を含めるたびに、トランスクリプトに追加情報が生成されます。

```
{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}
```

# 数字と句読点の文字起こし
<a name="how-numbers"></a>

Amazon Transcribe は、サポートされているすべての言語に句読点を自動的に追加し、文章システムで大文字小文字の区別を使用する言語に対して、適切な単語を大文字にします。

ほとんどの言語では、数字は単語形式で文字起こしされます。ただし、数字の文字起こしをサポートしている言語では、Amazon Transcribe は数字の使用状況に応じて異なる処理を行います。

たとえば、話者が「*Meet me at eight-thirty AM on June first at one-hundred Main Street with three-dollars-and-fifty-cents and one-point-five chocolate bars*」と言うと、次のように文字起こしされます。
+ 数字の文字起こしをサポートしている言語: Meet me at 8:30 a.m. on June 1st at 100 Main Street with \$13.50 and 1.5 chocolate bars
+ その他すべての言語: Meet me at eight thirty a m on June first at one hundred Main Street with three dollars and fifty cents and one point five chocolate bars

数字の文字起こしをサポートしている言語を確認するには、「[サポートされている言語および言語固有の機能](supported-languages.md)」を参照してください。