View a markdown version of this page

Processamento de recursos com Spark ML e Scikit-learn - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Processamento de recursos com Spark ML e Scikit-learn

Antes de treinar um modelo com algoritmos integrados de SageMaker IA da Amazon ou algoritmos personalizados, você pode usar os pré-processadores Spark e scikit-learn para transformar seus dados e recursos de engenharia.

Processamento de atributos com o SparkML

Você pode executar trabalhos de ML do Spark com o AWS Glue, um serviço ETL (extrair, transformar, carregar) sem servidor, a partir do seu notebook de IA. SageMaker Você também pode se conectar a clusters do EMR existentes para executar tarefas do SparkML com o Amazon EMR. Para fazer isso, você precisa de uma função AWS Identity and Access Management (IAM) que conceda permissão para fazer chamadas do seu notebook de SageMaker IA para AWS Glue o.

nota

Para ver quais versões do Python e do Spark são AWS Glue compatíveis, consulte as notas de lançamento do AWS Glue.

Após a criação dos atributos, você empacota e serializa as tarefas do SparkML com MLeap em contêineres MLeap que você pode adicionar a um pipeline de inferência. Você não precisa usar clusters do Spark gerenciados externamente. Com essa abordagem, você pode dimensionar sem problemas de uma amostra de linhas a terabytes de dados. Como os mesmos transformadores funcionam tanto para treinamento quanto para inferência, você não precisa duplicar a lógica de pré-processamento e engenharia de atributos ou desenvolver uma solução única para fazer os modelos persistirem. Com os pipelines de inferência, você não precisa manter a infraestrutura externa e pode fazer predições diretamente das entradas de dados.

Quando você executa uma tarefa do Spark ML no AWS Glue, um pipeline do Spark ML é serializado no formato MLeap. Em seguida, você pode usar o trabalho com o SparkML Model Serving Container em SageMaker um pipeline de inferência de IA. O MLeap é um formato de serialização e um mecanismo de execução para pipelines de machine learning. Ele suporta Spark, Scikit-learn, e TensorFlow para treinar pipelines e exportá-los para um pipeline serializado chamado MLeap Bundle. Você pode desserializar os pacotes de volta no Spark para o escore no modo em lote ou no runtime do MLeap para fornecer serviços de API em tempo real.

Para ver um exemplo que mostra como criar recursos de processo com o Spark ML, consulte Treinar um modelo de ML usando o Apache Spark no Amazon EMR e implantar em um notebook de amostra de IA. SageMaker

Processamento de recursos com Scikit-Learn

Você pode executar e empacotar trabalhos do scikit-learn em contêineres diretamente na Amazon AI. SageMaker Para ver um exemplo de código Python para criar um modelo featurizer scikit-learn que treina no conjunto de dados de flores de íris de Fisher e prevê as espécies de íris com base em medidas morfológicas, consulte Treinamento e previsão de IRIS com o Sagemaker. Scikit-learn