

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Trabajos de etiquetado en transmisión de Ground Truth
<a name="sms-streaming-labeling-job"></a>

Si quieres enviar continuamente nuevos objetos de datos a Amazon SageMaker Ground Truth para que los etiqueten, utiliza un trabajo de etiquetado por streaming. Los trabajos de etiquetado en streaming le permiten:
+ Enviar nuevos objetos del conjunto de datos a los trabajadores en tiempo real mediante un trabajo de etiquetado que se ejecuta permanentemente. Los trabajadores reciben continuamente nuevos objetos de datos para etiquetarlos mientras el trabajo de etiquetado esté activo y se les envíen nuevos objetos.
+ Ver el número de objetos que se han colocado en cola y que están a la espera de ser etiquetados. Utilice esta información para controlar el flujo de objetos de datos que se envían a su trabajo de etiquetado.
+ Recibir los datos de las etiquetas de los objetos de datos individuales en tiempo real a medida que los trabajadores terminen de etiquetarlos. 

Los trabajos de etiquetado en streaming de Ground Truth permanecen activos hasta que se detienen manualmente o lleven inactivos durante más de 10 días. Puede enviar nuevos objetos de datos a los trabajadores de forma intermitente mientras el trabajo de etiquetado esté activo.

Si es un usuario nuevo de los trabajos de etiquetado en streaming de Ground Truth, le recomendamos que revise [Funcionamiento](#sms-streaming-how-it-works). 

Utilice [Creación de un trabajo de etiquetado en transmisión](sms-streaming-create-job.md) para aprender a crear un trabajo de etiquetado en streaming.

**nota**  
Los trabajos de etiquetado en streaming de Ground Truth solo se admiten a través de la SageMaker API.

## Funcionamiento
<a name="sms-streaming-how-it-works"></a>

Cuando crea un trabajo de etiquetado en streaming de Ground Truth, el trabajo permanece activo hasta que se detiene manualmente, permanece inactivo durante más de 10 días o no puede acceder a los orígenes de datos de entrada. Puede enviar nuevos objetos de datos a los trabajadores de forma intermitente mientras el trabajo esté activo. Un trabajador puede seguir recibiendo nuevos objetos de datos en tiempo real siempre que el número total de tareas disponibles para el trabajador en ese momento sea inferior al valor de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_HumanTaskConfig.html#sagemaker-Type-HumanTaskConfig-MaxConcurrentTaskCount](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_HumanTaskConfig.html#sagemaker-Type-HumanTaskConfig-MaxConcurrentTaskCount). De lo contrario, el objeto de datos se envía a una cola que Ground Truth crea en su nombre en [Amazon Simple Queue Service](https://docs.aws.amazon.com/AWSSimpleQueueService/latest/SQSDeveloperGuide/welcome.html) (Amazon SQS) para su posterior procesamiento. Estas tareas se envían a los trabajadores en cuanto el número total de tareas disponibles en ese momento para un trabajador sea inferior a `MaxConcurrentTaskCount`. Si un objeto de datos no se envía a un trabajador después de 14 días, caduca. Puede ver el número de tareas pendientes en la cola y ajustar el número de objetos que envía al trabajo de etiquetado. Por ejemplo, puede reducir la velocidad a la que envía los objetos al trabajo de etiquetado si los objetos pendientes superan un umbral. 

**Topics**
+ [Funcionamiento](#sms-streaming-how-it-works)
+ [Envío de datos a un trabajo de etiquetado en transmisión](sms-streaming-how-it-works-send-data.md)
+ [Administración de las solicitudes de etiquetado con una cola de Amazon SQS](sms-streaming-how-it-works-sqs.md)
+ [Recepción de datos de salida de un trabajo de etiquetado en transmisión](sms-streaming-how-it-works-output-data.md)
+ [Administración de mensajes duplicados](sms-streaming-impotency.md)

# Envío de datos a un trabajo de etiquetado en transmisión
<a name="sms-streaming-how-it-works-send-data"></a>

Si lo desea, puede enviar los datos de entrada a un trabajo de etiquetado en streaming una sola vez al crear el trabajo de etiquetado mediante un archivo de manifiesto de entrada. Una vez que el trabajo de etiquetado haya comenzado y el estado sea `InProgress`, puede enviar nuevos objetos de datos a su trabajo de etiquetado en tiempo real mediante el tema de entrada de Amazon SNS y las notificaciones de eventos de Amazon S3. 

***Envíe los objetos de datos al iniciar el trabajo de etiquetado (una vez):***
+ **Utilice un archivo de manifiesto de entrada**: si lo desea, puede especificar un archivo de manifiesto de entrada en el URI de Amazon S3 en `ManifestS3Uri` al crear el trabajo de etiquetado en streaming. Ground Truth envía cada objeto de datos del archivo de manifiesto a los trabajadores para que lo etiqueten en cuanto comience el trabajo de etiquetado. Para obtener más información, consulte [Crear un archivo de manifiesto (opcional)](sms-streaming-manifest.md).

  Después de enviar una solicitud para crear el trabajo de etiquetado en streaming, su estado será `Initializing`. Una vez que el trabajo de etiquetado esté activo, el estado cambiará a `InProgress` y podrá empezar a utilizar las opciones en tiempo real para enviar objetos de datos adicionales para realizar el etiquetado. 

***Envíe objetos de datos en tiempo real:***
+ **Envíe objetos de datos mediante mensajes de Amazon SNS**: puede enviar a Ground Truth nuevos objetos de datos para etiquetarlos enviando un mensaje de Amazon SNS. Enviará este mensaje a un tema de entrada de Amazon SNS que cree y especifique al crear su trabajo de etiquetado en streaming. Para obtener más información, consulte [Envío de objetos de datos mediante Amazon SNS](#sms-streaming-how-it-works-sns).
+ **Envíe objetos de datos colocándolos en un bucket de Amazon S3**: cada vez que añada un nuevo objeto de datos a un bucket de Amazon S3, podrá solicitar a Ground Truth que procese ese objeto para su etiquetado. Para ello, añada una notificación de evento al bucket para que notifique su tema de entrada de Amazon SNS cada vez que se añada (*o se cree*) un nuevo objeto en ese bucket. Para obtener más información, consulte [Envío de objetos de datos mediante Amazon S3](#sms-streaming-how-it-works-s3). Esta opción no está disponible para los trabajos de etiquetado basados en texto, como la clasificación de textos y el reconocimiento de entidades con nombre. 
**importante**  
Si utiliza la configuración de Amazon S3, no utilice la misma ubicación de Amazon S3 para la configuración de los datos de entrada y los datos de salida. Al crear un trabajo de etiquetado, debe especificar el prefijo S3 para los datos de salida.

## Envío de objetos de datos mediante Amazon SNS
<a name="sms-streaming-how-it-works-sns"></a>

Puede enviar objetos de datos a su trabajo de etiquetado en streaming mediante Amazon Simple Notification Service (Amazon SNS). Amazon SNS es un servicio web que coordina y gestiona la entrega de mensajes hacia y desde los *puntos de enlace* (por ejemplo, una dirección de correo electrónico o AWS Lambda una función). Un *tema* de Amazon SNS actúa como un canal de comunicación entre dos o más puntos de conexión. Amazon SNS se utiliza para enviar o *publicar* nuevos objetos de datos en el tema especificado en el parámetro de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html) `SnsTopicArn` en `InputConfig` El formato de estos mensajes es el mismo que el de una sola línea de un [archivo de manifiesto de entrada](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-data-input.html). 

Por ejemplo, puede enviar un fragmento de texto a un trabajo de etiquetado y clasificación de texto activo publicándolo en el tema de entrada. El mensaje que publique puede tener un aspecto similar al siguiente:

```
{"source": "Lorem ipsum dolor sit amet"}
```

Para enviar un objeto de imagen nuevo a un trabajo de etiquetado y clasificación de imágenes, el mensaje podría tener un aspecto similar al siguiente:

```
{"source-ref": "s3://amzn-s3-demo-bucket/example-image.jpg"}
```

**nota**  
También puede incluir claves de deduplicación IDs y deduplicación personalizadas en sus mensajes de Amazon SNS. Para obtener más información, consulte [Administración de mensajes duplicados](sms-streaming-impotency.md).

Cuando Ground Truth crea tu trabajo de etiquetado en streaming, se suscribe a su tema de entrada de Amazon SNS. 

## Envío de objetos de datos mediante Amazon S3
<a name="sms-streaming-how-it-works-s3"></a>

Puede enviar uno o más objetos de datos nuevos a un trabajo de etiquetado en streaming colocándolos en un bucket de Amazon S3 que esté configurado con una notificación de eventos de Amazon SNS. Puede configurar un evento para que notifique a su tema de entrada de Amazon SNS cada vez que se cree un objeto nuevo en su bucket. Debe especificar este mismo tema de entrada de Amazon SNS en el parámetro de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html) `SnsTopicArn` en `InputConfig`.

Cada vez que configure un bucket de Amazon S3 para enviar notificaciones a Amazon SNS, Ground Truth publicará un evento de prueba, `"s3:TestEvent"`, para garantizar que el tema existe y que el propietario del bucket de Amazon S3 especificado tiene permiso para publicar en el tema especificado. Se recomienda configurar la conexión de Amazon S3 con Amazon SNS antes de iniciar un trabajo de etiquetado en streaming. Si no lo hace, este evento de prueba puede registrarse como un objeto de datos y enviarse a Ground Truth para etiquetarlo. 

**importante**  
Si utiliza la configuración de Amazon S3, no utilice la misma ubicación de Amazon S3 para la configuración de los datos de entrada y los datos de salida. Al crear un trabajo de etiquetado, debe especificar el prefijo S3 para los datos de salida.  
Para los trabajos de etiquetado basados en imágenes, Ground Truth requiere que todos los buckets de S3 tengan una política de CORS asociada. Para obtener más información, consulte [Requisito de CORS para datos de imagen de entrada](sms-cors-update.md).

Una vez que haya configurado su bucket de Amazon S3 y creado su trabajo de etiquetado, podrá añadir objetos a su bucket y Ground Truth enviará ese objeto a los trabajadores o lo colocará en su cola de Amazon SQS. 

Para obtener más información, consulte [Creación de notificaciones de eventos de bucket basadas en Amazon S3 en función del Amazon SNS definido en el trabajo de etiquetado](sms-streaming-s3-setup.md).

**importante**  
Esta opción no está disponible para los trabajos de etiquetado basados en texto, como la clasificación de textos y el reconocimiento de entidades con nombre.

# Administración de las solicitudes de etiquetado con una cola de Amazon SQS
<a name="sms-streaming-how-it-works-sqs"></a>

Cuando Ground Truth crea su trabajo de etiquetado en streaming, crea una cola de Amazon SQS en la AWS cuenta utilizada para crear el trabajo de etiquetado. El nombre de la cola es `GroundTruth-labeling_job_name`, donde `labeling_job_name` es el nombre de su trabajo de etiquetado, en minúsculas. Cuando envía objetos de datos a su trabajo de etiquetado, Ground Truth envía los objetos de datos directamente a los trabajadores o coloca la tarea en su cola para procesarla más adelante. Si un objeto de datos no se envía a un trabajador después de 14 días, caduca y se elimina de la cola. Puede configurar una alarma en Amazon SQS para detectar cuándo caducan los objetos y utilizar este mecanismo para controlar el volumen de objetos que envía a su tarea de etiquetado.

**importante**  
Modificar, eliminar o enviar objetos directamente a la cola de Amazon SQS asociada a su trabajo de etiquetado de streaming puede provocar errores en el trabajo. 

# Recepción de datos de salida de un trabajo de etiquetado en transmisión
<a name="sms-streaming-how-it-works-output-data"></a>

Su bucket de salida de Amazon S3 se actualiza periódicamente con nuevos datos de salida de su trabajo de etiquetado en streaming. Si lo desea, puede especificar un tema de salida de Amazon SNS. Cada vez que un trabajador envía un objeto etiquetado, se envía una notificación con los datos de salida a ese tema. Puede suscribir un punto de conexión a su tema de salida de SNS para recibir notificaciones o activar eventos cuando reciba datos de salida de una tarea de etiquetado. Utilice un tema de salida de Amazon SNS si quiere realizar un encadenamiento en tiempo real a otro trabajo en streaming y recibir una notificación de Amazon SNS cada vez que un trabajador envíe un objeto de datos.

Para obtener más información, consulte [Suscribir un punto de conexión a un tema de Amazon SNS](sms-create-sns-input-topic.md#sms-streaming-subscribe-output-topic).

# Administración de mensajes duplicados
<a name="sms-streaming-impotency"></a>

Para los objetos de datos que se envían en tiempo real, Ground Truth garantiza la idempotencia al asegurar que cada objeto único solo se envíe para su etiquetado una vez, incluso si el mensaje de entrada que hace referencia a ese objeto se recibe varias veces (mensajes duplicados). Para ello, a cada objeto de datos que se envía a un trabajo de etiquetado en streaming se le asigna un *identificador de deduplicación*, que se identifica con una *clave de deduplicación*. Si envía sus solicitudes para etiquetar objetos de datos directamente a través del tema de entrada de Amazon SNS mediante mensajes de Amazon SNS, puede elegir, si lo desea, una clave de deduplicación y IDs una deduplicación personalizadas para sus objetos. Para obtener más información, consulte [Especificación de una clave y un ID de desduplicación en un mensaje de Amazon SNS](sms-streaming-impotency-create.md).

Si no proporciona su propia clave de deduplicación o si utiliza la configuración de Amazon S3 para enviar objetos de datos a su trabajo de etiquetado, Ground Truth utiliza una de las siguientes opciones para el identificador de deduplicación:
+ Para los mensajes que se envían directamente al tema de entrada de Amazon SNS, Ground Truth utiliza el identificador del mensaje de SNS. 
+ Para los mensajes que provienen de una configuración de Amazon S3, Ground Truth crea un identificador de deduplicación combinando el URI de Amazon S3 del objeto con el [token del secuenciador](https://docs.aws.amazon.com/AmazonS3/latest/dev/notification-content-structure.html) del mensaje.

# Especificación de una clave y un ID de desduplicación en un mensaje de Amazon SNS
<a name="sms-streaming-impotency-create"></a>

Cuando envía un objeto de datos a su trabajo de etiquetado en streaming mediante un mensaje de Amazon SNS, tiene la opción de especificar la clave de deduplicación y el identificador de deduplicación de una de las siguientes maneras. En todos estos escenarios, identifique su clave de deduplicación con `dataset-objectid-attribute-name`.

**Traiga su propia clave e identificador de deduplicación**

Cree su propia clave de deduplicación e identificador de deduplicación configurando su mensaje de Amazon SNS de la siguiente manera. Sustituya `byo-key` por su clave y `UniqueId` por el identificador de deduplicación de ese objeto de datos.

```
{
    "source-ref":"s3://amzn-s3-demo-bucket/prefix/object1", 
    "dataset-objectid-attribute-name":"byo-key",
    "byo-key":"UniqueId" 
}
```

La clave de deduplicación puede tener hasta 140 caracteres. Los patrones admitidos incluyen: `"^[$a-zA-Z0-9](-*[a-zA-Z0-9])*"`.

Su identificador de deduplicación puede tener una longitud de hasta 1024 caracteres. Los patrones admitidos incluyen: `^(https|s3)://([^/]+)/?(.*)$`.

**Utilice una clave existente para su clave de deduplicación**

Puede usar una clave existente en su mensaje como clave de deduplicación. Al hacerlo, el valor asociado a esa clave se usa para el identificador de deduplicación. 

Por ejemplo, puede especificar el uso de la clave `source-ref` como clave de deduplicación si formatea el mensaje de la siguiente manera: 

```
{
    "source-ref":"s3://amzn-s3-demo-bucket/prefix/object1",
    "dataset-objectid-attribute-name":"source-ref" 
}
```

En este ejemplo, Ground Truth utiliza `"s3://amzn-s3-demo-bucket/prefix/object1"` para el identificador de deduplicación.

# Búsqueda de la clave y el ID de desduplicación en los datos de salida
<a name="sms-streaming-impotency-output"></a>

Puede ver la clave y el identificador de deduplicación en sus datos de salida La clave de deduplicación se identifica mediante `dataset-objectid-attribute-name`. Cuando utiliza su propia clave de deduplicación personalizada, el resultado contiene algo parecido a lo siguiente:

```
"dataset-objectid-attribute-name": "byo-key",
"byo-key": "UniqueId",
```

Si no especifica una clave, puede encontrar el identificador de deduplicación que Ground Truth ha asignado a su objeto de datos de la siguiente manera. El parámetro `$label-attribute-name-object-id` identifica su identificador de deduplicación. 

```
{
    "source-ref":"s3://bucket/prefix/object1", 
    "dataset-objectid-attribute-name":"$label-attribute-name-object-id"
    "label-attribute-name" :0,
    "label-attribute-name-metadata": {...},
    "$label-attribute-name-object-id":"<service-generated-key>"
}
```

Para `<service-generated-key>`, si el objeto de datos proviene de una configuración de Amazon S3, Ground Truth añade un valor único que utiliza el servicio y emite un nuevo campo codificado por `$sequencer`, que se muestra el secuenciador de Amazon S3 utilizado. Si el objeto se envió directamente a SNS, Ground Truth utiliza el identificador del mensaje de SNS.

**nota**  
No utilice el carácter `$` en el nombre del atributo de la etiqueta. 