

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Transcribe 작동 방법
<a name="how-it-works"></a>

Amazon Transcribe는 기계 학습 모델을 사용하여 음성을 텍스트로 변환합니다.

트랜스크립트에는 트랜스크립션된 텍스트 외에도 트랜스크립션된 콘텐츠에 대한 데이터가 포함되며, 여기에는 각 단어 또는 구두점에 대한 신뢰도 점수 및 타임스탬프 등이 있습니다. 출력 예시를 보려면 [데이터 입력 및 출력](how-input.md#how-output) 섹션을 참조하세요. 트랜스크립션에 적용할 수 있는 전체 기능 목록은 [기능 요약](feature-matrix.md)을 참조하세요.

트랜스크립션 메서드는 두 가지 주요 범주로 나눌 수 있습니다.
+ **배치 트랜스크립션**: Amazon S3 버킷에 업로드된 미디어 파일을 트랜스크립션합니다. 배치 트랜스크립션에는 [AWS CLI[AWS Management Console](getting-started-console.md)](getting-started-cli.md) 및 다양한 [AWS SDK](getting-started-sdk.md)를 사용할 수 있습니다.
+ **스트리밍 트랜스크립션**: 미디어 스트림을 실시간으로 트랜스크립션합니다. 스트리밍 트랜스크립션에는 [AWS Management Console](getting-started-console.md), [HTTP/2](streaming-setting-up.md#streaming-http2), [WebSocket](streaming-setting-up.md#streaming-websocket) 및 다양한 [AWS SDK](getting-started-sdk.md)를 사용할 수 있습니다.

단, 배치 트랜스크립션과 스트리밍 트랜스크립션의 기능 및 언어 지원은 다릅니다. 자세한 내용은 [Amazon Transcribe features](feature-matrix.md) 및 [지원되는 언어](supported-languages.md)를 참조하세요.

**Topics**
+ [데이터 입력 및 출력](how-input.md)
+ [번호 및 구두점 트랜스크립션](how-numbers.md)

**시작하는 데 도움을 주는 API 작업**  
배치: [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html)  
스트리밍: [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html), StartStreamTranscriptionWebSocket

# 데이터 입력 및 출력
<a name="how-input"></a>

Amazon Transcribe는 오디오 데이터를 Amazon S3 버킷 또는 미디어 스트림의 미디어 파일로 가져와 텍스트 데이터로 변환합니다.

Amazon S3 버킷에 저장된 미디어 파일을 트랜스크립션하는 경우 **배치 트랜스크립션**을 수행하는 것입니다. 미디어 스트림을 트랜스크립션하는 경우 **스트리밍 트랜스크립션**을 수행하는 것입니다. 이 두 프로세스에는 다른 규칙과 요구 사항이 있습니다.

배치 트랜스크립션을 사용하면 모든 트랜스크립션 작업을 동시에 처리할 필요가 없는 경우 [작업 대기열](job-queueing.md)를 사용할 수 있습니다. 이렇게 하면 Amazon Transcribe에서 트랜스크립션 작업을 추적하고 슬롯을 사용할 수 있을 때 이를 처리할 수 있습니다.

**참고**  
Amazon Transcribe는 분석 모델의 품질을 지속적으로 개선하기 위해 귀하의 콘텐츠를 일시적으로 저장할 수 있습니다. 자세한 정보는 [Amazon Transcribe FAQ](https://aws.amazon.com/transcribe/faqs/)를 참조하세요. Amazon Transcribe에서 저장했을 수 있는 콘텐츠의 삭제를 요청하려면 [지원](https://aws.amazon.com/contact-us/)에서 사례를 개설하시기 바랍니다.

**Topics**
+ [미디어 형식](#how-input-audio)
+ [오디오 채널](#how-input-channels)
+ [샘플 속도](#how-input-sample-rates)
+ [출력](#how-output)

## 미디어 형식
<a name="how-input-audio"></a>

지원되는 미디어 유형은 배치 트랜스크립션과 스트리밍 트랜스크립션 간에 다르지만 둘 다 무손실 형식을 사용하는 것이 좋습니다. 자세한 내용은 다음 테이블을 참조하세요.


|  | 배치 | 스트리밍 | 
| --- | --- | --- | 
| 지원되는 형식 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/transcribe/latest/dg/how-input.html)  | 
| 권장 형식 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/transcribe/latest/dg/how-input.html)  | 

최상의 결과를 얻으려면 PCM 16비트 인코딩을 사용하는 무손실 형식(예: FLAC 또는 WAV)을 사용하세요.

**참고**  
일부 언어에서는 스트리밍 트랜스크립션이 지원되지 않습니다. 자세한 내용은 [지원되는 언어 테이블](supported-languages.md)의 '데이터 입력' 열을 참조하세요.

## 오디오 채널
<a name="how-input-channels"></a>

Amazon Transcribe는 단일 채널 및 이중 채널 미디어를 지원합니다. 채널이 2개가 넘는 미디어는 현재 지원되지 않습니다.

오디오의 한 채널에 여러 화자가 포함되어 있으며 트랜스크립션 출력에서 각 화자를 파티셔닝하여 레이블을 지정하려는 경우 [화자 파티셔닝(분할)](diarization.md)을 사용할 수 있습니다.

오디오의 별도의 두 채널에 음성이 포함되어 있는 경우 [채널 식별](channel-id.md)을 사용하여 트랜스크립트 내에서 각 채널을 개별적으로 트랜스크립션할 수 있습니다.

이 두 옵션 모두 하나의 트랜스크립트 파일을 생성합니다.

**참고**  
[화자 파티셔닝](diarization.md) 또는 [채널 식별](channel-id.md)을 활성화하지 않으면 트랜스크립트 텍스트가 하나의 연속 섹션으로 제공됩니다.

## 샘플 속도
<a name="how-input-sample-rates"></a>

배치 트랜스크립션 작업의 경우 샘플 속도를 제공하도록 선택할 수 있지만 이 파라미터는 선택 사항입니다. 요청에 포함하는 경우 제공하는 값이 오디오의 실제 샘플 속도와 일치하는지 확인하세요. 오디오와 일치하지 않는 샘플 속도를 제공하면 작업이 실패할 수 있습니다.

스트리밍 트랜스크립션의 경우 요청에 샘플 속도를 포함해야 합니다. 배치 트랜스크립션 작업과 마찬가지로 제공하는 값이 오디오의 실제 샘플 속도와 일치하는지 확인하세요.

전화 녹음과 같은 저충실도 오디오의 샘플 속도는 일반적으로 8,000Hz를 사용합니다. 고충실도 오디오의 경우 Amazon Transcribe는 16,000Hz에서 48,000Hz 사이의 값을 지원합니다.

## 출력
<a name="how-output"></a>

트랜스크립션 출력은 JSON 형식입니다. 스크립트의 첫 부분에는 트랜스크립트 자체가 단락 형식으로 포함되며 그 뒤에 모든 단어와 구두점에 대한 추가 데이터가 포함됩니다. 제공되는 데이터는 요청에 포함한 기능에 따라 달라집니다. 트랜스크립트에는 최소한 모든 단어의 시작 시간, 종료 시간 및 신뢰도 점수가 포함됩니다. [다음 섹션](#how-it-works-output)에는 추가 옵션이나 기능이 포함되지 않은 기본 트랜스크립션 요청의 출력 예시가 나와 있습니다.

모든 **배치 트랜스크립트**는 Amazon S3 버킷에 저장됩니다. 스크립트를 자체 Amazon S3 버킷에 저장하거나 Amazon Transcribe에서 보안 기본 버킷을 사용하도록 선택할 수 있습니다. Amazon S3 버킷 생성 및 사용에 대해 자세히 알아보려면 [버킷 작업](https://docs.aws.amazon.com/AmazonS3/latest/userguide/creating-buckets-s3.html)을 참조하세요.

소유한 Amazon S3 버킷에 트랜스크립트를 저장하려면 트랜스크립션 요청에 버킷의 URI를 지정하세요. 배치 트랜스크립션 작업을 시작하기 전에 이 버킷에 대한 Amazon Transcribe 쓰기 권한을 부여해야 합니다. 자체 버킷을 지정하는 경우 버킷을 제거할 때까지 트랜스크립트가 해당 버킷에 남아 있습니다.

Amazon S3 버킷을 지정하지 않는 경우 Amazon Transcribe는 보안 서비스 관리형 버킷을 사용하며 스크립트를 다운로드하는 데 사용할 수 있는 임시 URI를 제공합니다. 임시 URI는 15분간 유효하다는 점에 유의하세요. 제공된 URI를 사용할 때 `AccessDenied` 오류가 발생하는 경우 트랜스크립트에 사용할 새 임시 URI를 `GetTranscriptionJob` 요청하세요.

기본 버킷을 선택하면 작업이 만료될 때(90일) 트랜스크립트가 삭제됩니다. 이 만료일을 지나 트랜스크립트를 보관하려면 다운로드해야 합니다.

**스트리밍 스크립트**는 스트림에 사용하는 것과 동일한 메서드를 통해 반환됩니다.

**작은 정보**  
JSON 출력을 Word 형식의 단계별 트랜스크립트로 변환하려면 이 [GitHub 예시(Python3용)](https://github.com/aws-samples/amazon-transcribe-output-word-document)를 참조하세요. 이 스크립트는 통화 후 분석 트랜스크립트 및 분할이 활성화된 표준 배치 트랜스크립트와 함께 작동합니다.

### 출력 예시
<a name="how-it-works-output"></a>

트랜스크립트는 단락 형식으로 완전한 트랜스크립션을 제공하며, 이어 등장하는 단어별 분석을 통해 모든 단어와 구두점에 대한 데이터를 제공합니다. 여기에는 시작 시간, 종료 시간, 신뢰도 점수 및 유형(`pronunciation`또는`punctuation`)이 포함됩니다.

다음 예시는 [추가 기능](feature-matrix.md)이 포함되지 않은 단순한 배치 트랜스크립션 작업의 예입니다. 트랜스크립션 요청에 추가 기능을 적용할 때마다 트랜스크립션 출력 파일에 추가 데이터가 추가됩니다.

기본 배치 트랜스크립트에는 두 개의 메인 섹션이 있습니다.

1. `transcripts`: 전체 트랜스크립트가 하나의 텍스트 블록에 들어 있습니다.

1. `items`: `transcripts` 섹션의 각 단어 및 구두점에 대한 정보가 들어 있습니다.

1. `audio_segments`: 오디오 세그먼트는 중단 없는 음성 언어가 포함된 오디오 녹음의 특정 부분으로, 일시 중지 또는 중단이 최소화됩니다. 이 세그먼트는 자연적인 음성 흐름을 캡처하고 시작 시간 및 종료 시간으로 `audio_segments`에 포착됩니다. 오디오 세그먼트 내의 `items` 요소는 세그먼트 내의 각 항목에 해당하는 식별자 시퀀스입니다.

트랜스크립션 요청에 포함시키는 각 추가 기능은 트랜스크립트에 추가 정보를 생성합니다.

```
{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}
```

# 번호 및 구두점 트랜스크립션
<a name="how-numbers"></a>

Amazon Transcribe는 지원되는 모든 언어에 자동으로 구두점을 추가하고 표기 체계에서 대/소문자를 구분하는 언어에 맞게 단어를 대문자로 표시합니다.

대부분의 언어에서 숫자는 단어 형태로 트랜스크립션됩니다. 그러나 번호 트랜스크립션을 지원하는 언어의 경우는 사용되는 컨텍스트에 따라 번호를 다르게 Amazon Transcribe 처리합니다.

예를 들어 화자가 "*Meet me at eight-thirty AM on June first at one-hundred Main Street with three-dollars-and-fifty-cents and one-point-five chocolate bars*,"라고 말하면 다음과 같이 트랜스크립션됩니다.
+ 숫자 트랜스크립션이 지원되는 언어: Meet me at 8:30 a.m. on June 1st at 100 Main Street with \$13.50 and 1.5 chocolate bars
+ 기타 모든 언어: Meet me at eight thirty a m on June first at one hundred Main Street with three dollars and fifty cents and one point five chocolate bars

번호 트랜스크립션을 지원하는 언어를 보려면 [지원되는 언어 및 언어별 기능](supported-languages.md) 섹션을 참조하세요.