Feature-Verarbeitung mit Spark ML Feature-Verarbeitung mit Scikit-Learn

Funktionsverarbeitung mit Spark ML und Scikit-learn

Bevor Sie ein Modell mit den in Amazon SageMaker AI integrierten Algorithmen oder benutzerdefinierten Algorithmen trainieren, können Sie Spark- und Scikit-Learn-Präprozessoren verwenden, um Ihre Daten- und Engineering-Funktionen zu transformieren.

Feature-Verarbeitung mit Spark ML

Sie können Spark-ML-Jobs mit AWS Glue, einem serverlosen ETL-Service (Extrahieren, Transformieren, Laden), von Ihrem SageMaker KI-Notebook aus ausführen. Sie können auch eine Verbindung mit vorhandenen EMR-Clustern zum Ausführen von Spark ML-Aufträgen mit Amazon EMR herstellen. Dazu benötigen Sie eine AWS Identity and Access Management (IAM-) Rolle, die Ihnen die Erlaubnis erteilt, Anrufe von Ihrem SageMaker KI-Notizbuch aus an zu tätigen. AWS Glue

Anmerkung

Informationen darüber, welche Python- und Spark-Versionen AWS Glue unterstützt werden, finden Sie in den Versionshinweisen von AWS Glue.

Nach der Bearbeitung der Funktionen verpacken und serialisieren Sie Spark ML-Aufträge mit MLeap in MLeap-Container, die Sie einer Inferenz-Pipeline hinzufügen können. Sie müssen keine extern verwalteten Spark-Cluster verwenden. Diese Vorgehensweise erlaubt das nahtlose Skalieren von einigen Zeilen bis zu Datenmengen im Terabytebereich. Die gleichen Transformationen funktionieren für Training und Inferenz, Sie müssen daher die Vorverarbeitungs- und Funktionsbearbeitungslogik nicht duplizieren oder eine einmalige Lösung entwickeln, um die Modelle dauerhaft zu machen. Mit Inferenz-Pipelines müssen Sie keine externe Infrastruktur verwalten, und Sie können Prognosen direkt aus Dateneingaben erstellen.

Wenn Sie einen Spark-ML-Job ausführen AWS Glue, wird eine Spark-ML-Pipeline in das MLeap-Format serialisiert. Anschließend können Sie den Job mit dem SparkML Model Serving Container in einer SageMaker AI-Inferenz-Pipeline verwenden. MLeap ist ein Serialisierungsformat und eine Ausführungs-Engine für ML-Pipelines. Er unterstützt Spark Scikit-learn, und TensorFlow für das Trainieren von Pipelines und deren Export in eine serialisierte Pipeline, ein sogenanntes mLeap Bundle. Bundles können für die Stapelmodusbewertung zurück in Spark oder für Echtzeit-API-Services in die MLeap-Laufzeit deserialisiert werden.

Ein Beispiel, das zeigt, wie Prozesse mit Spark ML dargestellt werden, finden Sie im Beispielnotizbuch Train an ML Model using Apache Spark in Amazon EMR and Deployment in SageMaker AI.

Feature-Verarbeitung mit Scikit-Learn

Sie können Scikit-Learn-Jobs direkt in Amazon AI ausführen und in Container packen. SageMaker Ein Beispiel für Python-Code zur Erstellung eines Scikit-Learn-Featurizer-Modells, das auf dem Irisblüten-Datensatz von Fisher trainiert und die Irisart anhand morphologischer Messungen vorhersagt, finden Sie unter IRIS Training and Prediction with Sagemaker. Scikit-learn

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Inferenz-Pipelines

Erstellen eines Pipeline-Modells