View a markdown version of this page

Elaborazione delle funzionalità con Spark ML e Scikit-learn - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Elaborazione delle funzionalità con Spark ML e Scikit-learn

Prima di addestrare un modello con algoritmi integrati di Amazon SageMaker AI o algoritmi personalizzati, puoi utilizzare i preprocessori Spark e scikit-learn per trasformare i tuoi dati e progettare le funzionalità.

Elaborazione di caratteristiche con Spark ML

Puoi eseguire lavori Spark ML con AWS Glue, un servizio ETL (estrazione, trasformazione, caricamento) senza server, dal tuo SageMaker notebook AI. Puoi inoltre eseguire la connessione a cluster EMR esistenti per eseguire processi Spark ML con Amazon EMR. Per fare ciò, hai bisogno di un ruolo AWS Identity and Access Management (IAM) che conceda l'autorizzazione a effettuare chiamate dal tuo SageMaker notebook AI a. AWS Glue

Nota

Per vedere quali versioni di Python e Spark sono AWS Glue supportate, consulta le note di rilascio di AWS Glue.

Dopo la progettazione delle caratteristiche, i processi Spark ML vengono compressi e serializzati in container MLeap che possono essere aggiunti a una pipeline di inferenza. Non è necessario utilizzare cluster Spark gestiti esternamente. Grazie a questo approccio, puoi ridimensionare senza problemi da un campione di righe a terabyte di dati. Gli stessi trasformatori funzionano per addestramento e inferenza, perciò non occorre duplicare la logica di pre-elaborazione e di progettazione caratteristiche né sviluppare una soluzione una tantum per rendere i modelli persistenti. Con pipeline di inferenza, non è necessario mantenere l'infrastruttura esterna e puoi effettuare previsioni direttamente da dati di input.

Quando esegui un processo Spark ML su AWS Glue, una pipeline Spark ML viene serializzata in formato MLeap. Quindi, puoi utilizzare il job con lo SparkML Model Serving Container in una pipeline di inferenza SageMaker AI. MLeap è un formato di serializzazione e un motore di esecuzione per le pipeline di Machine Learning. Supporta Spark e TensorFlow per addestrare Scikit-learn le pipeline ed esportarle in una pipeline serializzata chiamata mLeap Bundle. Puoi deserializzare di nuovo i pacchetti in Spark per il punteggio in modalità batch o il runtime MLeap per eseguire servizi API in tempo reale.

Per un esempio che mostra come implementare un processo con Spark ML, consulta la sezione Addestra un modello ML usando Apache Spark in Amazon EMR e distribuiscila in un notebook di esempio AI. SageMaker

Elaborazione delle funzionalità con Scikit-Learn

Puoi eseguire e impacchettare lavori scikit-learn in contenitori direttamente in Amazon AI. SageMaker Per un esempio di codice Python per la creazione di un modello di funzionalità scikit-learn che si adatta al set di dati sui fiori Iris di Fisher e prevede la specie di Iris sulla base di misurazioni morfologiche, vedi IRIS Training and Prediction with Sagemaker. Scikit-learn