

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Selecionar dados para rotulagem
<a name="sms-data-filtering"></a>

Você pode usar o console Amazon SageMaker AI para selecionar uma parte do seu conjunto de dados para rotulagem. Os dados devem ser armazenados em um bucket do Amazon S3. Você tem três opções:
+ Usar o conjunto de dados completo.
+ Escolher uma amostra selecionada aleatoriamente do conjunto de dados.
+ Especificar um subconjunto do conjunto de dados usando uma consulta.

As opções a seguir estão disponíveis na seção **Tarefas de etiquetagem** do [console SageMaker AI](https://console.aws.amazon.com/sagemaker/groundtruth) depois de selecionar **Criar tarefa de etiquetagem**. Para saber como criar um trabalho de rotulagem no console, consulte [Introdução: crie um trabalho de rotulagem de caixa delimitadora com o Ground Truth](sms-getting-started.md). Para configurar o conjunto de dados que você usa para rotulagem, na seção **Visão geral do trabalho**, selecione **Configuração adicional**.

## Usar o conjunto de dados completo
<a name="sms-full-dataset"></a>

Ao escolher usar o **Conjunto de dados completo**, você deve fornecer um arquivo de manifesto para seus objetos de dados. Você pode fornecer o caminho do bucket do Amazon S3 que contém o arquivo de manifesto ou usar o console de SageMaker IA para criar o arquivo. Para saber como criar um arquivo manifesto usando o console, consulte [Automatize a configuração de dados para trabalhos de rotulagem](sms-console-create-manifest-file.md). 

## Escolher uma amostra aleatória
<a name="sms-random-dataset"></a>

Quando desejar rotular um subconjunto aleatório dos seus dados, selecione **Random sample (Amostra aleatória)**. O conjunto de dados é armazenado no bucket do Amazon S3 especificado no campo **Local de entrada do conjunto de dados**. 

Depois de especificar a porcentagem de objetos de dados que você deseja incluir na amostra, escolha **Criar subconjunto**. SageMaker A IA escolhe aleatoriamente os objetos de dados para seu trabalho de etiquetagem. Depois que os objetos forem selecionados, escolha **Use esse subconjunto**. 

SageMaker O AI cria um arquivo de manifesto para os objetos de dados selecionados. Ele também modifica o valor no campo **Local de entrada do conjunto de dados** para apontar para o novo arquivo manifesto.

## Especificar um subconjunto
<a name="sms-select-dataset"></a>

**Amazon S3 Select**  
O Amazon S3 Select não está mais disponível para novos clientes. Os clientes existentes do Amazon S3 Select podem continuar usando o atributo normalmente. Consulte [Como otimizar a consulta dos dados no Amazon S3](https://aws.amazon.com/blogs/storage/how-to-optimize-querying-your-data-in-amazon-s3/) para mais informações

Você pode especificar um subconjunto dos seus objetos de dados usando uma consulta ao Amazon S3 `SELECT` nos nomes de arquivos de objetos. 

A instrução `SELECT` da consulta SQL é definida para você. Você fornece a cláusula `WHERE` para especificar quais objetos de dados deve ser retornado.

Para obter mais informações sobre a instrução `SELECT` do Amazon S3, consulte [Selecionar conteúdo de objetos](https://docs.aws.amazon.com/AmazonS3/latest/dev/selecting-content-from-objects.html).

Escolha **Criar subconjunto** para iniciar a seleção e, em seguida, escolha **Use esse subconjunto** para usar os dados selecionados. 

SageMaker O AI cria um arquivo de manifesto para os objetos de dados selecionados. Ele também atualiza o valor no campo **Local de entrada do conjunto de dados** para apontar para o novo arquivo manifesto.