

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Processamento de atributos com SparkML e Scikit-learn
<a name="inference-pipeline-mleap-scikit-learn-containers"></a>

Antes de treinar um modelo com algoritmos integrados de SageMaker IA da Amazon ou algoritmos personalizados, você pode usar os pré-processadores Spark e scikit-learn para transformar seus dados e recursos de engenharia. 

## Processamento de atributos com o SparkML
<a name="feature-processing-spark"></a>

Você pode executar trabalhos de ML do Spark com o [AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html), um serviço ETL (extrair, transformar, carregar) sem servidor, a partir do seu notebook de IA. SageMaker Você também pode se conectar a clusters do EMR existentes para executar tarefas do SparkML com o [Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html). Para fazer isso, você precisa de uma função AWS Identity and Access Management (IAM) que conceda permissão para fazer chamadas do seu notebook de SageMaker IA para AWS Glue o. 

**nota**  
Para ver quais versões do Python e do Spark são AWS Glue compatíveis, consulte as notas de lançamento do [AWS Glue](/glue/latest/dg/release-notes.html).

Depois dos recursos de engenharia, você empacota e serializa os trabalhos de ML do Spark MLeap em MLeap contêineres que podem ser adicionados a um pipeline de inferência. Você não precisa usar clusters do Spark gerenciados externamente. Com essa abordagem, você pode dimensionar sem problemas de uma amostra de linhas a terabytes de dados. Como os mesmos transformadores funcionam tanto para treinamento quanto para inferência, você não precisa duplicar a lógica de pré-processamento e engenharia de atributos ou desenvolver uma solução única para fazer os modelos persistirem. Com os pipelines de inferência, você não precisa manter a infraestrutura externa e pode fazer predições diretamente das entradas de dados.

Quando você executa uma tarefa do Spark ML no AWS Glue, um pipeline do Spark ML é serializado em formato. [MLeap](https://github.com/combust/mleap) Em seguida, você pode usar o trabalho com o [SparkML Model Serving](https://github.com/aws/sagemaker-sparkml-serving-container) Container em SageMaker um pipeline de inferência de IA. *MLeap*é um formato de serialização e mecanismo de execução para pipelines de aprendizado de máquina. Ele é compatível com Spark, Scikit-learn e TensorFlow para treinar pipelines e exportá-los para um pipeline serializado chamado Bundle. MLeap Você pode desserializar os pacotes de volta ao Spark para pontuação em lote ou para o tempo de execução para alimentar serviços de API em tempo real. MLeap 

Para ver um exemplo que mostra como criar recursos de processo com o Spark ML, consulte [Treinar um modelo de ML usando o Apache Spark no Amazon EMR e implantar em](https://github.com/aws/amazon-sagemaker-examples/tree/main/sagemaker-python-sdk/sparkml_serving_emr_mleap_abalone) um notebook de amostra de IA. SageMaker 

## Processamento de atributos com Scikit-Learn
<a name="feature-processing-with-scikit"></a>

Você pode executar e empacotar trabalhos do scikit-learn em contêineres diretamente na Amazon AI. SageMaker Para um exemplo de código Python para a construção de um modelo de featurizer scikit-learn que é treinado no [conjunto de dados de íris de Fisher](http://archive.ics.uci.edu/ml/datasets/Iris) (em inglês) e prevê as espécies de íris com base em medições morfológicas, consulte o tópico sobre [Treinamento e predição IRIS com o Scikit-learn no Sagemaker](https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_iris) (em inglês). 