

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Cómo funciona Amazon Transcribe
<a name="how-it-works"></a>

Amazon Transcribe utiliza modelos de machine learning para convertir la voz en texto.

Además del texto transcrito, las transcripciones contienen datos sobre el contenido transcrito, incluidos los puntajes de confianza y las marcas de tiempo de cada palabra o signo de puntuación. Para ver un ejemplo de salida, consulte la sección [Entrada y salida de datos.](how-input.md#how-output) Para obtener una lista completa de las características que puede aplicar a su transcripción, consulte el [resumen de las características](feature-matrix.md).

Los métodos de transcripción se dividen en dos categorías principales:
+ **Transcripciones por lotes**: transcribe archivos multimedia que se hayan cargado en un bucket de Amazon S3. Puede utilizar el [AWS CLI](getting-started-cli.md), [Consola de administración de AWS](getting-started-console.md) y varios [SDK de AWS](getting-started-sdk.md) para las transcripciones por lotes.
+ **Transcripciones de streaming**: transcribe secuencias multimedia en tiempo real. Puede usar [Consola de administración de AWS](getting-started-console.md), [HTTP/2](streaming-setting-up.md#streaming-http2), [WebSockets](streaming-setting-up.md#streaming-websocket) y varios [SDK de AWS](getting-started-sdk.md) para las transcripciones de streaming.

Tenga en cuenta que la compatibilidad con las características y los idiomas es diferente para las transcripciones por lotes y para las de streaming. Para obtener más información, consulte [Amazon Transcribe features](feature-matrix.md) e [Idiomas admitidos](supported-languages.md).

**Topics**
+ [Entrada y salida de datos](how-input.md)
+ [Transcripción de números y signos de puntuación](how-numbers.md)

**Operaciones de API para empezar**  
Lote: [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartTranscriptionJob.html)  
Streaming: [https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html](https://docs.aws.amazon.com/transcribe/latest/APIReference/API_StartStreamTranscription.html), StartStreamTranscriptionWebSocket

# Entrada y salida de datos
<a name="how-input"></a>

Amazon Transcribe toma los datos de audio, como un archivo multimedia en un bucket de Amazon S3 o una secuencia multimedia, y los convierte en datos de texto.

Si está transcribiendo un archivo ubicado en un bucket de Amazon S3, está realizando una **transcripción por lotes**. Si está transcribiendo una secuencia de audio en tiempo real, está realizando una **transcripción en streaming**. Estos dos procesos tienen reglas y requisitos diferentes.

En las transcripciones por lotes, si no necesita procesar todos sus trabajos de transcripción de forma simultánea, use [Cola de trabajos](job-queueing.md). Esto permite a Amazon Transcribe realizar un seguimiento de sus trabajos de transcripción y procesarlos cuando hay slots disponibles.

**nota**  
Amazon Transcribe puede almacenar de forma temporal el contenido para mejorar la calidad de los modelos de análisis. Consulte las [preguntas frecuentes de Amazon Transcribe](https://aws.amazon.com/transcribe/faqs/) para obtener más información. Para solicitar la eliminación del contenido que pueda haber almacenado en Amazon Transcribe, abra una incidencia en [Soporte](https://aws.amazon.com/contact-us/).

**Topics**
+ [Formatos multimedia](#how-input-audio)
+ [Canales de audio](#how-input-channels)
+ [Frecuencia de muestreo](#how-input-sample-rates)
+ [Output](#how-output)

## Formatos multimedia
<a name="how-input-audio"></a>

Los tipos de formatos multimedia compatibles difieren entre las transcripciones por lotes y las transcripciones en streaming, aunque se recomiendan los formatos sin pérdidas para ambas. Para obtener más información, consulte la tabla siguiente:


|  | Lote | Streaming | 
| --- | --- | --- | 
| Formatos admitidos |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/transcribe/latest/dg/how-input.html)  | 
| Formatos recomendados |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/transcribe/latest/dg/how-input.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/transcribe/latest/dg/how-input.html)  | 

Para obtener resultados óptimos, utilice un formato de audio sin pérdida como FLAC o WAV con codificación PCM de 16 bits.

**nota**  
Las transcripciones en streaming no son compatibles con todos los idiomas. Consulte la columna “Entrada de datos” de la [tabla de idiomas admitidos](supported-languages.md) para obtener más información.

## Canales de audio
<a name="how-input-channels"></a>

Amazon Transcribe admite multimedia de un solo canal y de dos canales. Actualmente, no se admiten archivos multimedia con más de dos canales.

Si el audio contiene varias voces en un canal y desea particionar y etiquetar cada voz en el resultado de la transcripción, puede utilizar la [partición de voces (diarización)](diarization.md).

Si el audio contiene voz en dos canales distintos, puede utilizar la [identificación de canales](channel-id.md) para transcribir cada canal por separado dentro de la transcripción.

Ambas opciones producen un archivo de transcripción.

**nota**  
Si no habilita la [partición de voces](diarization.md) o la [identificación de canales](channel-id.md), el texto de la transcripción aparecerá como una sección continua.

## Frecuencia de muestreo
<a name="how-input-sample-rates"></a>

Con los trabajos de transcripción por lotes, puede elegir obtener frecuencias de muestreo, aunque este parámetro es opcional. Si lo incluye en su solicitud, asegúrese de que el valor que proporciona coincide con la frecuencia de muestreo real del audio. Si proporciona una frecuencia de muestreo que no coincida con su audio, es posible que no funcione.

En el caso de las transcripciones en streaming, debe incluir una frecuencia de muestreo en su solicitud. Al igual que con los trabajos de transcripción por lotes, asegúrese de que el valor que proporcione coincida con la frecuencia de muestreo real del audio.

Las frecuencias de muestreo para audio de baja fidelidad, como las grabaciones telefónicas, suelen utilizar 8000 Hz. Para el audio de alta fidelidad, Amazon Transcribe admite valores entre 16 000 Hz y 48 000 Hz.

## Output
<a name="how-output"></a>

El resultado de la transcripción está en formato JSON. La primera parte de la transcripción contiene la propia transcripción en forma de párrafo, seguida de datos adicionales para cada palabra y signo de puntuación. Los datos proporcionados dependen de las características que incluya en su solicitud. Como mínimo, la transcripción contiene la hora de inicio, la hora de finalización y la puntuación de confianza de cada palabra. En la [siguiente sección](#how-it-works-output), se muestra un ejemplo del resultado de una solicitud de transcripción básica que no incluía opciones ni características adicionales.

Todas las **transcripciones por lotes** se almacenan en buckets de Amazon S3. Puede optar por guardar la transcripción en su propio bucket de Amazon S3 o hacer que Amazon Transcribe utilice un bucket predeterminado seguro. Para obtener más información sobre la creación y el uso de buckets de Amazon S3, consulte [Cómo trabajar con buckets](https://docs.aws.amazon.com/AmazonS3/latest/userguide/creating-buckets-s3.html).

Si desea que su transcripción se almacene en un bucket de Amazon S3 de su propiedad, especifique el URI del bucket en su solicitud de transcripción. Asegúrese de conceder a Amazon Transcribe permisos de escritura para este bucket antes de iniciar el trabajo de transcripción por lotes. Si especifica su propio bucket, la transcripción permanecerá en ese bucket hasta que la elimine. 

Si no especifica un bucket de Amazon S3, Amazon Transcribe utiliza un bucket seguro administrado por el servicio y le proporciona un URI temporal que puede usar para descargar su transcripción. Tenga en cuenta que los URI temporales son válidos durante 15 minutos. Si recibe un error `AccessDenied` al usar el URI proporcionado, `GetTranscriptionJob` solicita un nuevo URI temporal para su transcripción.

Si opta por un bucket predeterminado, la transcripción se eliminará cuando su trabajo caduque (90 días). Si desea conservar su transcripción después de esta fecha de caducidad, debe descargarla.

Las **transcripciones de streaming** se devuelven mediante el mismo método que utilice para la secuencia.

**sugerencia**  
Si desea convertir el resultado JSON en una transcripción paso a paso en formato Word, consulte este [ejemplo de GitHub (para Python3)](https://github.com/aws-samples/amazon-transcribe-output-word-document). Este script funciona con transcripciones analíticas posteriores a la llamada y transcripciones por lotes estándar con la diarización habilitada.

### Ejemplo de resultado
<a name="how-it-works-output"></a>

Las transcripciones proporcionan una transcripción completa en forma de párrafo, seguida de un desglose palabra por palabra, que proporciona datos para cada palabra y signo de puntuación. Esto incluye la hora de inicio, la hora de finalización y un tipo (`pronunciation` o `punctuation`).

El siguiente ejemplo es de un trabajo de transcripción por lotes básica que no incluía [características adicionales](feature-matrix.md). Con cada característica adicional que aplique a su solicitud de transcripción, obtendrá datos adicionales en el archivo de resultados de la transcripción.

Las transcripciones de los lotes básicos contienen dos secciones principales:

1. `transcripts`: contiene la transcripción completa en un bloque de texto.

1. `items`: contiene información sobre cada palabra y signo de puntuación de la sección `transcripts`.

1. `audio_segments`: un segmento de audio es una parte específica de una grabación de audio que contiene lenguaje hablado ininterrumpido, con pausas mínimas o descansos. Este segmento captura el flujo natural de la voz y se captura en `audio_segments` con una hora de inicio y una hora de finalización. El elemento `items` de un segmento de audio es una secuencia de identificadores que corresponden a cada elemento del segmento.

Cada característica adicional que incluya en su solicitud de transcripción generará información adicional en la transcripción.

```
{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}
```

# Transcripción de números y signos de puntuación
<a name="how-numbers"></a>

Amazon Transcribe agrega automáticamente signos de puntuación a todos los idiomas admitidos y escribe las palabras en mayúsculas de forma adecuada para los idiomas que utilizan la distinción entre mayúsculas y minúsculas en sus sistemas de escritura.

Para la mayoría de los idiomas los números se transcriben como palabras. Sin embargo, en el caso de los idiomas compatibles con la transcripción de números, Amazon Transcribe trata los números de forma diferente según el contexto en el que se utilicen.

Por ejemplo, si un hablante dice "*Meet me at eight-thirty AM on June first at one-hundred Main Street with three-dollars-and-fifty-cents and one-point-five chocolate bars*", esto se transcribe de la siguiente manera:
+ Idiomas compatibles con la transcripción numérica: Meet me at 8:30 a.m. on June 1st at 100 Main Street with \$13.50 and 1.5 chocolate bars
+ Todos los demás idiomas: Meet me at eight thirty a m on June first at one hundred Main Street with three dollars and fifty cents and one point five chocolate bars

Para ver los idiomas compatibles con la transcripción de números, consulte [Idiomas compatibles y características específicas de cada idioma](supported-languages.md).