

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Bagaimana cara Amazon Transcribe kerja
<a name="how-it-works"></a>

Amazon Transcribe menggunakan model pembelajaran mesin untuk mengubah ucapan menjadi teks.

Selain teks yang ditranskripsi, transkrip berisi data tentang konten yang ditranskripsi, termasuk skor kepercayaan dan stempel waktu untuk setiap kata atau tanda baca. Untuk melihat contoh keluaran, lihat bagian [Input dan output data](how-input.md#how-output). Untuk daftar lengkap fitur yang dapat Anda terapkan ke transkripsi Anda, lihat [ringkasan fitur](feature-matrix.md).

Metode transkripsi dapat dipisahkan menjadi dua kategori utama:
+ **Transkripsi Batch**: Transcribe file media yang telah diunggah ke dalam ember. Amazon S3 Anda dapat menggunakan [AWS CLI](getting-started-cli.md), [Konsol Manajemen AWS](getting-started-console.md), dan berbagai [AWS SDKs](getting-started-sdk.md)untuk transkripsi batch.
+ **Transkripsi streaming**: Transkripsikan aliran media secara real time. Anda dapat menggunakan [Konsol Manajemen AWS](getting-started-console.md), [HTTP/2](streaming-setting-up.md#streaming-http2), [WebSockets](streaming-setting-up.md#streaming-websocket), dan berbagai [AWS SDKs](getting-started-sdk.md)untuk streaming transkripsi.

Perhatikan bahwa dukungan fitur dan bahasa berbeda untuk transkripsi batch dan streaming. Untuk informasi selengkapnya, lihat [Amazon Transcribe fitur](feature-matrix.md) dan [Bahasa yang didukung](supported-languages.md).

**Topics**
+ [Input dan output data](how-input.md)
+ [Mentranskripsikan angka dan tanda baca](how-numbers.md)

**Operasi API untuk membantu Anda memulai**  
Batch: [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html)  
Streaming: [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html), StartStreamTranscriptionWebSocket

# Input dan output data
<a name="how-input"></a>

Amazon Transcribe mengambil data audio, sebagai file media dalam Amazon S3 ember atau aliran media, dan mengubahnya menjadi data teks.

Jika Anda mentranskripsikan file media yang disimpan dalam Amazon S3 ember, Anda melakukan **transkripsi batch**. Jika Anda mentranskripsikan aliran media, Anda melakukan transkripsi **streaming**. Kedua proses ini memiliki aturan dan persyaratan yang berbeda.

Dengan transkripsi batch, Anda dapat menggunakan [Antrian pekerjaan](job-queueing.md) jika Anda tidak perlu memproses semua pekerjaan transkripsi Anda secara bersamaan. Ini memungkinkan Amazon Transcribe untuk melacak pekerjaan transkripsi Anda dan memprosesnya saat slot tersedia.

**catatan**  
Amazon Transcribe dapat menyimpan konten Anda untuk sementara waktu untuk terus meningkatkan kualitas model analisisnya. Lihat [Amazon Transcribe FAQ](https://aws.amazon.com/transcribe/faqs/) untuk mempelajari lebih lanjut. Untuk meminta penghapusan konten yang mungkin telah disimpan oleh Amazon Transcribe, buka kasing dengan. [Dukungan](https://aws.amazon.com/contact-us/)

**Topics**
+ [Format media](#how-input-audio)
+ [Saluran audio](#how-input-channels)
+ [Tarif sampel](#how-input-sample-rates)
+ [Output](#how-output)

## Format media
<a name="how-input-audio"></a>

Jenis media yang didukung berbeda antara transkripsi batch dan transkripsi streaming, meskipun format lossless direkomendasikan untuk keduanya. Lihat tabel berikut untuk detailnya:


|  | Batch | Streaming | 
| --- | --- | --- | 
| Format yang didukung |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/transcribe/latest/dg/how-input.html)  | 
| Format yang direkomendasikan |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/transcribe/latest/dg/how-input.html)  | 

Untuk hasil terbaik, gunakan format lossless, seperti FLAC atau WAV dengan pengkodean PCM 16-bit.

**catatan**  
Transkripsi streaming tidak didukung dengan semua bahasa. Lihat kolom 'Input data' dalam [tabel bahasa yang didukung untuk detailnya](supported-languages.md).

## Saluran audio
<a name="how-input-channels"></a>

Amazon Transcribe mendukung media saluran tunggal dan saluran ganda. Media dengan lebih dari dua saluran saat ini tidak didukung.

Jika audio Anda berisi beberapa speaker pada satu saluran dan Anda ingin mempartisi dan memberi label pada setiap speaker dalam output transkripsi Anda, Anda dapat menggunakan [partisi Speaker (](diarization.md)diarisasi).

Jika audio Anda berisi ucapan di dua saluran terpisah, Anda dapat menggunakan [identifikasi Saluran](channel-id.md) untuk mentranskripsikan setiap saluran secara terpisah dalam transkrip Anda.

Kedua opsi ini menghasilkan satu file transkrip.

**catatan**  
Jika Anda tidak mengaktifkan [partisi Speaker](diarization.md) atau [identifikasi Saluran](channel-id.md), teks transkrip Anda disediakan sebagai satu bagian berkelanjutan.

## Tarif sampel
<a name="how-input-sample-rates"></a>

Dengan pekerjaan transkripsi batch, Anda dapat memilih untuk memberikan laju sampel, meskipun parameter ini opsional. Jika Anda memasukkannya dalam permintaan Anda, pastikan nilai yang Anda berikan cocok dengan laju sampel aktual dalam audio Anda. Jika Anda memberikan sample rate yang tidak sesuai dengan audio Anda, pekerjaan Anda mungkin gagal.

Dengan transkripsi streaming, Anda harus menyertakan laju sampel dalam permintaan Anda. Seperti halnya pekerjaan transkripsi batch, pastikan nilai yang Anda berikan cocok dengan laju sampel aktual dalam audio Anda.

Kecepatan sampel untuk audio dengan kesetiaan rendah, seperti rekaman telepon, biasanya menggunakan 8.000 Hz. Untuk audio dengan kesetiaan tinggi, Amazon Transcribe mendukung nilai antara 16.000 Hz dan 48.000 Hz.

## Output
<a name="how-output"></a>

Output transkripsi dalam format JSON. Bagian pertama transkrip Anda berisi transkrip itu sendiri dalam bentuk paragraf, diikuti dengan data tambahan untuk setiap kata dan tanda baca. Data yang diberikan tergantung pada fitur yang Anda sertakan dalam permintaan Anda. Minimal, transkrip Anda berisi waktu mulai, waktu akhir, dan skor kepercayaan untuk setiap kata. [Bagian berikut](#how-it-works-output) menunjukkan contoh keluaran dari permintaan transkripsi dasar yang tidak menyertakan opsi atau fitur tambahan apa pun.

Semua **transkrip batch** disimpan dalam Amazon S3 ember. Anda dapat memilih untuk menyimpan transkrip di Amazon S3 bucket Anda sendiri, atau Amazon Transcribe menggunakan bucket default yang aman. Untuk mempelajari lebih lanjut tentang membuat dan menggunakan Amazon S3 bucket, lihat [Bekerja dengan bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/creating-buckets-s3.html).

Jika Anda ingin transkrip Anda disimpan dalam Amazon S3 ember yang Anda miliki, tentukan URI bucket dalam permintaan transkripsi Anda. Pastikan Anda memberikan izin Amazon Transcribe menulis untuk bucket ini sebelum memulai pekerjaan transkripsi batch Anda. Jika Anda menentukan bucket Anda sendiri, transkrip Anda tetap berada di ember itu sampai Anda menghapusnya. 

Jika Anda tidak menentukan Amazon S3 bucket, Amazon Transcribe gunakan bucket yang dikelola layanan aman dan memberi Anda URI sementara yang dapat Anda gunakan untuk mengunduh transkrip Anda. Perhatikan bahwa sementara URIs berlaku selama 15 menit. Jika Anda mendapatkan `AccessDenied` kesalahan saat menggunakan URI yang disediakan, buat `GetTranscriptionJob` permintaan untuk mendapatkan URI sementara baru untuk transkrip Anda.

Jika Anda memilih bucket default, transkrip Anda akan dihapus ketika pekerjaan Anda kedaluwarsa (90 hari). Jika Anda ingin menyimpan transkrip Anda melewati tanggal kedaluwarsa ini, Anda harus mengunduhnya.

**Transkrip streaming** dikembalikan melalui metode yang sama yang Anda gunakan untuk streaming Anda.

**Tip**  
Jika Anda ingin mengonversi output JSON Anda menjadi turn-by-turn transkrip dalam format Word, lihat [GitHub contoh ini (untuk Python3](https://github.com/aws-samples/amazon-transcribe-output-word-document)). Skrip ini berfungsi dengan transkrip analitik pasca-panggilan dan transkrip batch standar dengan diarisasi diaktifkan.

### Contoh Output
<a name="how-it-works-output"></a>

Transkrip memberikan transkripsi lengkap dalam bentuk paragraf, diikuti dengan word-for-word perincian, yang menyediakan data untuk setiap kata dan tanda baca. Ini termasuk waktu mulai, waktu akhir, skor kepercayaan diri, dan tipe (`pronunciation`atau`punctuation`).

Contoh berikut adalah dari pekerjaan transkripsi batch sederhana yang tidak menyertakan [fitur tambahan](feature-matrix.md) apa pun. Dengan setiap fitur tambahan yang Anda terapkan pada permintaan transkripsi Anda, Anda mendapatkan data tambahan dalam file keluaran transkrip Anda.

Transkrip batch dasar berisi dua bagian utama:

1. `transcripts`: Berisi seluruh transkrip dalam satu blok teks.

1. `items`: Berisi informasi tentang setiap kata dan tanda baca dari bagian. `transcripts`

1. `audio_segments`Segmen audio adalah bagian tertentu dari rekaman audio yang berisi bahasa lisan tanpa gangguan, dengan jeda atau jeda minimal. Segmen ini menangkap aliran bicara alami dan ditangkap `audio_segments` dengan waktu mulai dan waktu akhir. `items`Elemen dalam segmen audio adalah urutan pengidentifikasi yang sesuai dengan setiap item dalam segmen.

Setiap fitur tambahan yang Anda sertakan dalam permintaan transkripsi menghasilkan informasi tambahan dalam transkrip Anda.

```
{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}
```

# Mentranskripsikan angka dan tanda baca
<a name="how-numbers"></a>

Amazon Transcribe secara otomatis menambahkan tanda baca ke semua bahasa yang didukung, dan menggunakan huruf kapital dengan tepat untuk bahasa yang menggunakan perbedaan kasus dalam sistem penulisan mereka.

Untuk sebagian besar bahasa, angka ditranskripsikan ke dalam bentuk kata mereka. Namun, untuk bahasa dengan dukungan untuk menyalin angka, Amazon Transcribe memperlakukan angka secara berbeda tergantung pada konteks di mana mereka digunakan.

Misalnya, jika seorang pembicara mengatakan”*Temui saya pukul delapan tiga puluh pagi pada bulan Juni pertama di seratus Main Street dengan three-dollars-and-fifty -sen dan cokelat batangan one-point-five*,” ini ditranskripsikan sebagai:
+ Bahasa dengan dukungan transkripsi angka: Meet me at 8:30 a.m. on June 1st at 100 Main Street with \$13.50 and 1.5 chocolate bars
+ Semua bahasa lainnya: Meet me at eight thirty a m on June first at one hundred Main Street with three dollars and fifty cents and one point five chocolate bars

Untuk melihat bahasa dengan dukungan untuk menyalin angka, lihat. [Bahasa yang didukung dan fitur khusus bahasa](supported-languages.md)