

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Executar um trabalho de processamento com scikit-learn
<a name="use-scikit-learn-processing-container"></a>

Você pode usar o Amazon SageMaker Processing para processar dados e avaliar modelos com scripts scikit-learn em uma imagem do Docker fornecida pela Amazon AI. SageMaker Veja a seguir um exemplo de como executar um trabalho de SageMaker processamento da Amazon usando o scikit-learn.

[Para ver um exemplo de caderno que mostra como executar scripts do scikit-learn usando uma imagem do Docker fornecida e mantida pela SageMaker IA para pré-processar dados e avaliar modelos, consulte processamento do scikit-learn.](https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker_processing/scikit_learn_data_processing_and_model_evaluation) Para usar esse notebook, você precisa instalar o SageMaker AI Python SDK for Processing. 

Esse notebook executa um trabalho de processamento usando a `SKLearnProcessor` classe do SDK do SageMaker Python para executar um script scikit-learn fornecido por você. O script pré-processa dados, treina um modelo usando um trabalho de SageMaker treinamento e, em seguida, executa um trabalho de processamento para avaliar o modelo treinado. O trabalho de processamento estima o desempenho esperado do modelo na produção.

[Para saber mais sobre como usar o SDK do SageMaker Python com contêineres de processamento, consulte o SDK do SageMaker Python.](https://sagemaker.readthedocs.io/en/stable/) Para obter uma lista completa das imagens pré-criadas do Docker disponíveis para tarefas de processamento, consulte [Caminhos de registro e código de exemplo do Docker](https://docs.aws.amazon.com/sagemaker/latest/dg-ecr-paths/sagemaker-algo-docker-registry-paths).

O exemplo de código a seguir mostra como o notebook usa `SKLearnProcessor` para executar seu próprio script scikit-learn usando uma imagem do Docker fornecida e mantida pela SageMaker IA, em vez da sua própria imagem do Docker.

```
from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )
```

Para processar dados paralelamente usando Scikit-Learn no Amazon SageMaker Processing, você pode fragmentar objetos de entrada por chave S3 configurando `s3_data_distribution_type='ShardedByS3Key'` dentro de a `ProcessingInput` para que cada instância receba aproximadamente o mesmo número de objetos de entrada.