

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Elaborazione delle caratteristiche con Spark ML e Scikit-learn
<a name="inference-pipeline-mleap-scikit-learn-containers"></a>

Prima di addestrare un modello con algoritmi integrati di Amazon SageMaker AI o algoritmi personalizzati, puoi utilizzare i preprocessori Spark e scikit-learn per trasformare i tuoi dati e progettare le funzionalità. 

## Elaborazione di caratteristiche con Spark ML
<a name="feature-processing-spark"></a>

Puoi eseguire lavori Spark ML con [AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html), un servizio ETL (estrazione, trasformazione, caricamento) senza server, dal tuo SageMaker notebook AI. Puoi inoltre eseguire la connessione a cluster EMR esistenti per eseguire processi Spark ML con [Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html). Per fare ciò, hai bisogno di un ruolo AWS Identity and Access Management (IAM) che conceda l'autorizzazione a effettuare chiamate dal tuo SageMaker notebook AI a. AWS Glue

**Nota**  
Per vedere quali versioni di Python e Spark sono AWS Glue supportate, consulta le note di rilascio di [AWS Glue](/glue/latest/dg/release-notes.html).

Dopo aver ingegnerizzato le funzionalità, puoi impacchettare e serializzare i lavori Spark ML MLeap in MLeap contenitori che puoi aggiungere a una pipeline di inferenza. Non è necessario utilizzare cluster Spark gestiti esternamente. Grazie a questo approccio, puoi ridimensionare senza problemi da un campione di righe a terabyte di dati. Gli stessi trasformatori funzionano per addestramento e inferenza, perciò non occorre duplicare la logica di pre-elaborazione e di progettazione caratteristiche né sviluppare una soluzione una tantum per rendere i modelli persistenti. Con pipeline di inferenza, non è necessario mantenere l'infrastruttura esterna e puoi effettuare previsioni direttamente da dati di input.

Quando esegui un job Spark ML su AWS Glue, una pipeline Spark ML viene serializzata in formato. [MLeap](https://github.com/combust/mleap) Quindi, puoi utilizzare il job con lo [SparkML Model Serving Container](https://github.com/aws/sagemaker-sparkml-serving-container) in una pipeline di inferenza SageMaker AI. *MLeap*è un formato di serializzazione e un motore di esecuzione per pipeline di apprendimento automatico. Supporta Spark, Scikit-learn e TensorFlow per addestrare le pipeline ed esportarle in una pipeline serializzata chiamata Bundle. MLeap Puoi deserializzare nuovamente i pacchetti in Spark per l'assegnazione del punteggio in modalità batch o in fase di esecuzione per alimentare i servizi API in tempo reale. MLeap 

Per un esempio che mostra come implementare un processo con Spark ML, consulta [Train an ML model using Apache Spark in Amazon EMR e distribuiscilo in](https://github.com/aws/amazon-sagemaker-examples/tree/main/sagemaker-python-sdk/sparkml_serving_emr_mleap_abalone) un notebook di esempio AI. SageMaker 

## Elaborazione di caratteristiche con Scikit Learn
<a name="feature-processing-with-scikit"></a>

Puoi eseguire e impacchettare lavori scikit-learn in contenitori direttamente in Amazon AI. SageMaker Per un esempio di codice Python per la compilazione di un modello di caratterizzazione scikit-learn che esegue l’addestramento in base al [data set sui fiori della famiglia degli iris di Fisher](http://archive.ics.uci.edu/ml/datasets/Iris) e prevede la specie di iris in base alle misurazioni morfologiche, consulta [IRIS Training and Prediction with Sagemaker Scikit-learn](https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_iris). 