

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Tutorial: Erstellen Sie einen Workflow end-to-end für maschinelles Lernen in SageMaker Canvas
<a name="canvas-end-to-end-machine-learning-workflow"></a>

Dieses Tutorial führt Sie durch einen Workflow für end-to-end maschinelles Lernen (ML) mit Amazon SageMaker Canvas. SageMaker Canvas ist eine visuelle Schnittstelle ohne Code, mit der Sie Daten aufbereiten und ML-Modelle trainieren und bereitstellen können. Für das Tutorial verwenden Sie einen Datensatz zu New Yorker Taxis, um ein Modell zu trainieren, das den Fahrpreis für eine bestimmte Fahrt vorhersagt. Sie erhalten praktische Erfahrung mit wichtigen ML-Aufgaben wie der Bewertung der Datenqualität und der Behebung von Datenproblemen, der Aufteilung von Daten in Trainings- und Testsätze, dem Training und der Bewertung von Modellen, dem Erstellen von Prognosen und der Bereitstellung Ihres trainierten Modells — alles innerhalb der Canvas-Anwendung. SageMaker 

**Wichtig**  
In diesem Tutorial wird davon ausgegangen, dass Sie oder Ihr Administrator ein Konto erstellt haben. AWS Informationen zum Erstellen eines AWS Kontos finden Sie unter [Erste Schritte: Sind Sie ein AWS Erstbenutzer?](https://docs.aws.amazon.com/accounts/latest/reference/welcome-first-time-user.html)

## Einrichtung
<a name="canvas-tutorial-setting-up"></a>

Eine Amazon SageMaker AI-Domain ist ein zentraler Ort zur Verwaltung all Ihrer Amazon SageMaker AI-Umgebungen und -Ressourcen. Eine Domain dient als virtuelle Grenze für Ihre Arbeit im Bereich SageMaker KI und bietet Isolierung und Zugriffskontrolle für Ihre Ressourcen für maschinelles Lernen (ML). 

Um mit Amazon SageMaker Canvas zu beginnen, müssen Sie oder Ihr Administrator zur SageMaker AI-Konsole navigieren und eine Amazon SageMaker AI-Domain erstellen. Eine Domain verfügt über die Speicher- und Rechenressourcen, die Sie für die Ausführung von SageMaker Canvas benötigen. Innerhalb der Domain konfigurieren Sie SageMaker Canvas für den Zugriff auf Ihre Amazon S3 S3-Buckets und die Bereitstellung von Modellen. Gehen Sie wie folgt vor, um eine Quick-Domain einzurichten und eine SageMaker Canvas-Anwendung zu erstellen.

**Um SageMaker Canvas einzurichten**

1. Navigieren Sie zur [SageMaker AI-Konsole](https://console.aws.amazon.com/sagemaker).

1. Wählen Sie in der linken Navigationsleiste SageMaker Canvas aus.

1. Wählen Sie „**Eine SageMaker KI-Domain erstellen**“.

1. Wählen Sie **Einrichten** aus. Die Einrichtung der Domain kann einige Minuten dauern.

Das vorherige Verfahren verwendete eine schnelle Domaineinrichtung. Sie können eine erweiterte Konfiguration vornehmen, um alle Aspekte der Kontoeinstellungen zu steuern, einschließlich Berechtigungen, Integrationen und Verschlüsselung. Weitere Informationen zu einer benutzerdefinierten Einrichtung finden Sie unter [Benutzerdefiniertes Setup für Amazon SageMaker AI verwenden](onboard-custom.md).

Standardmäßig erhalten Sie durch die schnelle Domaineinrichtung die Berechtigungen zum Bereitstellen von Modellen. Wenn Sie benutzerdefinierte Berechtigungen über eine Standarddomäne eingerichtet haben und manuell Berechtigungen für die Modellbereitstellung erteilen müssen, lesen Sie [Berechtigungsverwaltung](canvas-deploy-model.md#canvas-deploy-model-prereqs).

## Flow-Erstellung
<a name="canvas-tutorial-flow-creation"></a>

Amazon SageMaker Canvas ist eine Plattform für maschinelles Lernen, die es Benutzern ermöglicht, Modelle für maschinelles Lernen ohne umfangreiche Programmierkenntnisse oder maschinelles Lernen zu erstellen, zu trainieren und einzusetzen. Eine der leistungsstarken Funktionen von Amazon SageMaker Canvas ist die Möglichkeit, große Datensätze aus verschiedenen Quellen wie Amazon S3 zu importieren und mit ihnen zu arbeiten.

In diesem Tutorial verwenden wir den Taxidatensatz von NYC, um mithilfe eines Amazon SageMaker Canvas Data Wrangler-Datenflusses den Fahrpreis für jede Fahrt vorherzusagen. Das folgende Verfahren beschreibt die Schritte zum Importieren einer modifizierten Version des Datensatz zu New Yorker Taxis in einen Datenfluss.

**Anmerkung**  
Zur besseren Verarbeitung importiert SageMaker Canvas eine Stichprobe Ihrer Daten. Standardmäßig werden 50 000 Zeilen nach dem Zufallsprinzip ausgewählt.

**So importieren Sie den Datensatz zu New Yorker Taxis**

1. Wählen Sie SageMaker auf der Canvas-Startseite **Data Wrangler** aus.

1. Wählen Sie **Daten importieren**.

1. Wählen Sie **Tabellarisch** aus.

1. Wählen Sie die Toolbox neben der Datenquelle aus.

1. Wählen Sie **Amazon S3** aus der Dropdown-Liste aus.

1. Geben Sie für **Eingabe des S3-Endpunktes** die Option `s3://amazon-sagemaker-data-wrangler-documentation-artifacts/canvas-single-file-nyc-taxi-dataset.csv` aus.

1. Wählen Sie **Go** aus.

1. Aktivieren Sie das Kontrollkästchen neben dem Datensatz.

1. Wählen Sie **Datenvorschau** aus.

1. Wählen Sie **Speichern**.

## Datenqualitäts- und Insights-Bericht 1 (Beispiel)
<a name="canvas-tutorial-data-quality-insights-report-1"></a>

Nach dem Import eines Datensatzes in Amazon SageMaker Canvas können Sie einen Datenqualitäts- und Insights-Bericht für eine Stichprobe der Daten erstellen. Nutzen Sie ihn, um wertvolle Einblicke in den Datensatz zu gewinnen. Der Bericht bewirkt Folgendes:
+ Beurteilt die Vollständigkeit des Datensatzes
+ Identifiziert fehlende Werte und Ausreißer

Es kann andere potenzielle Probleme identifizieren, die sich auf die Modellleistung auswirken können. Außerdem wird die Vorhersagekraft der einzelnen Merkmale in Bezug auf die Zielvariable bewertet, sodass Sie die relevantesten Merkmale für das Problem, das Sie zu lösen versuchen, identifizieren können.

Wir können die Erkenntnisse aus dem Bericht nutzen, um die Höhe des Fahrpreises vorherzusagen. Indem Sie die Spalte für den **Fahrpreis** als Zielvariable angeben und **Regression** als Problemtyp auswählen, analysiert der Bericht, ob der Datensatz für die Vorhersage kontinuierlicher Werte wie Fahrpreise geeignet ist. Der Bericht sollte zeigen, dass Features wie **year** und **Hour\$1of\$1Day** eine geringe Aussagekraft für die gewählte Zielvariable haben, sodass Sie wertvolle Erkenntnisse gewinnen können.

Gehen Sie wie folgt vor, um einen Datenqualitäts- und Insights-Bericht basierend auf einer Stichprobe mit 50 000 Zeilen aus dem Datensatz zu erhalten.

**So erhalten Sie einen Bericht basierend auf einer Stichprobe**

1. Wählen Sie im Popup-Fenster neben dem Knoten **Datentypen** die Option **Daten-Insights erhalten** aus.

1. Geben Sie unter **Analysename** einen Namen für den Bericht an.

1. Wählen Sie als **Problemtyp** die Option **Regression** aus.

1. Wählen Sie für die **Ziel-Spalte** die Option **Fahrpreis** aus.

1. Wählen Sie **Erstellen** aus.

Sie können den Datenqualitäts- und Insights-Bericht basierend auf einer Stichprobe Ihrer Daten überprüfen. Aus dem Bericht geht hervor, dass die Features **year** und **Hour\$1of\$1Day** keine Vorhersage der Zielvariablen, dem **Fahrpreis**, ermöglichen.

Wählen Sie oben in der Navigation den Namen des Datenflusses aus, um zu ihm zurückzukehren.

## Löschen von Jahr und Tageszeit
<a name="canvas-tutorial-drop-year-and-hour-of-day"></a>

Wir verwenden die Insights aus dem Bericht, um die Spalten **year** und **hour\$1of\$1day** zu löschen, um den Feature-Bereich zu optimieren und möglicherweise die Modellleistung zu verbessern.

Amazon SageMaker Canvas bietet eine benutzerfreundliche Oberfläche und Tools zur Durchführung solcher Datentransformationen.

Gehen Sie wie folgt vor, um die Spalten **year** und **hour\$1of\$1day** mit dem Data Wrangler-Tool in Amazon Canvas aus dem NYC-Taxi-Datensatz zu löschen. SageMaker 

1. Wählen Sie das Symbol neben **Datentypen** aus.

1. Wählen Sie **Schritt hinzufügen**.

1. Schreiben Sie in der Suchleiste den Text **Spalte löschen**.

1. Wählen Sie **Spalten verwalten** aus.

1. Wählen Sie **Spalte löschen** aus.

1. Wählen Sie für **Zu löschende Spalten** die Spalten **year** und **hour\$1of\$1day** aus.

1. Wählen Sie **Vorschau**, um zu sehen, wie Ihre Transformation Ihre Daten verändert.

1. Wählen Sie **Hinzufügen** aus.

Sie können das vorherige Verfahren als Grundlage verwenden, um alle anderen Transformationen in Canvas hinzuzufügen. SageMaker 

## Bericht 2 zur Datenqualität und zu Insights (vollständiger Datensatz)
<a name="canvas-tutorial-data-quality-insights-report-2"></a>

Für den vorherigen Insights-Bericht haben wir eine Stichprobe des Datensatzes zum New Yorker Taxi verwendet. Für unseren zweiten Bericht führen wir eine umfassende Analyse des gesamten Datensatzes durch, um mögliche Probleme zu identifizieren, die sich auf die Modellleistung auswirken.

Gehen Sie wie folgt vor, um einen Datenqualitäts- und Insights-Bericht zu einem kompletten Datensatz zu erstellen.

**So erhalten Sie einen Bericht über den gesamten Datensatz**

1. Wählen Sie das Symbol neben dem Knoten **Spalten löschen** aus.

1. Wählen Sie **Daten-Insights abrufen** aus.

1. Geben Sie unter **Analysename** einen Namen für den Bericht an.

1. Wählen Sie als **Problemtyp** die Option **Regression** aus.

1. Wählen Sie für die **Ziel-Spalte** die Option **Fahrpreis** aus.

1. Wählen Sie für **Datengröße** die Option **Vollständiger Datensatz** aus.

1. Wählen Sie **Erstellen** aus.

Das Folgende ist ein Bild aus dem Insights-Bericht:

![\[Doppelte Zeilen, verzerrtes Ziel und sehr niedrige Schnellmodellbewertung werden als insightsP aufgeführt.\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/canvas-tutorial-dqi-insights.png)


Er zeigt die folgenden Probleme:
+ Doppelte Zeilen
+ Verzerrtes Ziel

Doppelte Zeilen können zu Data Leakage führen, da das Modell während des Trainings und Testens denselben Daten ausgesetzt ist. Sie können zu übermäßig optimistischen Leistungskennzahlen führen. Durch das Entfernen doppelter Zeilen wird sichergestellt, dass das Modell anhand eindeutiger Instances trainiert wird, wodurch das Risiko von Data Leakage verringert und die Generalisierungsfähigkeit des Modells verbessert wird.

Eine verzerrte Verteilung der Zielvariablen, in diesem Fall die Spalte **Fahrpreis**, kann zu unausgewogenen Klassen führen, wodurch das Modell möglicherweise zugunsten der Mehrheitsklasse verzerrt wird. Dies kann zu einer schlechten Leistung bei Minderheitsklassen führen, was insbesondere in Szenarien problematisch ist, in denen die genaue Vorhersage seltener oder unterrepräsentierter Fälle von Bedeutung ist.

## Behebung von Datenqualitätsproblemen
<a name="canvas-tutorial-addressing-data-quality-issues"></a>

Um diese Probleme zu beheben und den Datensatz für die Modellierung vorzubereiten, können Sie nach den folgenden Transformationen suchen und diese anwenden:

1. Löschen Sie Duplikate mithilfe der Transformation **Zeilen verwalten**.

1. **Behandeln Sie Ausreißer** in der Spalte **Fahrpreis** mithilfe der **numerischen Ausreißer mit robuster Standardabweichung**.

1. **Behandeln Sie Ausreißer** in den Spalten **Fahrtstrecke** und **Dauer** mithilfe der **numerischen Ausreißer mit robuster Standardabweichung**.

1. Verwenden Sie die Option **Kategorisch kodieren**, um die Spalten **Tarifcode-ID**, **Zahlungsart**, **Zusatzkennzeichen** und **Mautkennzeichen** als Gleitkommazahlen zu kodieren.

Sollten Sie sich nicht sicher sein, wie Sie eine Transformation anwenden, lesen Sie [Löschen von Jahr und Tageszeit](#canvas-tutorial-drop-year-and-hour-of-day).

Durch die Behebung dieser Datenqualitätsprobleme und die Anwendung geeigneter Transformationen können Sie die Eignung des Datensatzes für die Modellierung verbessern.

## Überprüfung der Datenqualität und der Genauigkeit des Quick-Modells
<a name="canvas-tutorial-verifying-data-quality-and-quick-model-accuracy"></a>

Nach der Anwendung der Transformationen zur Behebung von Datenqualitätsproblemen, wie beispielsweise dem Entfernen doppelter Zeilen, erstellen wir unseren abschließenden Bericht zur Datenqualität und Insights. Dieser Bericht dient dazu, zu überprüfen, ob die angewandten Transformationen die Probleme behoben haben und der Datensatz nun für die Modellierung geeignet ist.

Bei der Überprüfung des abschließenden Berichts zu Datenqualität und Insights sollten Sie davon ausgehen, dass keine wesentlichen Probleme hinsichtlich der Datenqualität gemeldet werden. Aus dem Bericht sollte Folgendes hervorgehen:
+ Die Zielvariable ist nicht mehr verzerrt.
+ Es gibt keine Ausreißer oder doppelte Zeilen.

Darüber hinaus sollte der Bericht eine schnelle Modellbewertung enthalten, die auf einem Basismodell basiert, das anhand des transformierten Datensatzes trainiert wurde. Dieser Wert dient als erster Indikator für die potenzielle Genauigkeit und Leistung des Modells.

Gehen Sie wie folgt vor, um den Datenqualitäts- und Insights-Bericht zu erstellen.

**So erstellen Sie einen Datenqualitäts- und Insights-Bericht**

1. Wählen Sie das Symbol neben dem Knoten **Spalten löschen** aus.

1. Wählen Sie **Daten-Insights abrufen** aus.

1. Geben Sie unter **Analysename** einen Namen für den Bericht an.

1. Wählen Sie als **Problemtyp** die Option **Regression** aus.

1. Wählen Sie für die **Ziel-Spalte** die Option **Fahrpreis** aus.

1. Wählen Sie für **Datengröße** die Option **Vollständiger Datensatz** aus.

1. Wählen Sie **Erstellen** aus.

## Aufteilen der Daten in Trainings- und Testdatensätze
<a name="canvas-tutorial-split-data"></a>

Um ein Modell zu trainieren und seine Leistung zu bewerten, verwenden wir die Transformation **Daten aufteilen**, um die Daten in Trainings- und Testsätze aufzuteilen.

Standardmäßig verwendet SageMaker Canvas eine zufällige Aufteilung, aber Sie können auch die folgenden Arten von Teilungen verwenden:
+ Bestellt
+ Stratifiziert
+ Nach Schlüsseln aufteilen

Sie können den **Prozentsatz für die Aufteilung** ändern oder Teilungen hinzufügen.

Für dieses Tutorial verwenden Sie alle Standardeinstellungen in der Aufteilung. Sie müssen auf den Datensatz doppelklicken, um seinen Namen zu sehen. Der Trainingsdatensatz hat den Namen **Dataset (Train)**.

Wenden Sie neben dem **Ordinal-Codierungsknoten** die Transformation **Daten aufteilen** an.

## Trainieren von Modellen
<a name="canvas-tutorial-train-model"></a>

Nachdem Sie Ihre Daten aufgeteilt haben, können Sie ein Modell trainieren. Dieses Modell lernt aus Mustern in Ihren Daten. Sie können es verwenden, um Vorhersagen zu treffen oder Erkenntnisse zu gewinnen.

SageMaker Canvas bietet sowohl Schnell-Builds als auch Standard-Builds. Verwenden Sie einen Standard-Build, um das leistungsstärkste Modell für Ihre Daten zu trainieren.

Bevor Sie mit dem Training eines Modells beginnen, müssen Sie den Trainingsdatensatz zunächst als SageMaker Canvas-Datensatz exportieren.

**So exportieren Sie Ihren Datensatz**

1. Wählen Sie neben dem Knoten für den Trainingsdatensatz das Symbol und dann **Exportieren** aus.

1. Wählen Sie den **SageMaker Canvas-Datensatz** aus.

1. Wählen Sie **Exportieren** aus, um den Datensatz zu exportieren.

Nachdem Sie einen Datensatz erstellt haben, können Sie ein Modell auf dem von Ihnen erstellten SageMaker Canvas-Datensatz trainieren. Für weitere Informationen zum Schulen eines Modells siehe [Erstellen Sie ein benutzerdefiniertes numerisches oder kategoriales Vorhersagemodell](canvas-build-model-how-to.md#canvas-build-model-numeric-categorical).

## Evaluieren des Modells und Treffen von Vorhersagen
<a name="canvas-tutorial-evaluate-model-and-make-predictions"></a>

Nach dem Training Ihres Machine-Learning-Modells ist es von entscheidender Bedeutung, dessen Leistung zu bewerten, um sicherzustellen, dass es Ihren Anforderungen entspricht und bei unbekannten Daten gut funktioniert. Amazon SageMaker Canvas bietet eine benutzerfreundliche Oberfläche, mit der Sie die Genauigkeit Ihres Modells beurteilen, seine Prognosen überprüfen und Einblicke in seine Stärken und Schwächen gewinnen können. Sie können die gewonnenen Erkenntnisse nutzen, um fundierte Entscheidungen über den Einsatz und mögliche Verbesserungsbereiche zu treffen.

Verwenden Sie das folgende Verfahren, um ein Modell zu bewerten, bevor Sie es bereitstellen.

**So bewerten Sie ein Modell**

1. Wählen Sie **Meine Modelle** aus.

1. Wählen Sie das Modell aus, das Sie erstellt haben.

1. Wählen Sie unter **Versionen** die Version aus, die dem Modell entspricht.

Sie können jetzt die Metriken zur Modellbewertung anzeigen.

Nachdem Sie das Modell evaluiert haben, können Sie Vorhersagen zu neuen Daten treffen. Wir verwenden den Testdatensatz, den wir erstellt haben.

Um den Testdatensatz für Vorhersagen zu verwenden, müssen wir ihn in einen SageMaker Canvas-Datensatz konvertieren. Der SageMaker Canvas-Datensatz hat ein Format, das das Modell interpretieren kann.

Gehen Sie wie folgt vor, um einen SageMaker Canvas-Datensatz aus dem Testdatensatz zu erstellen.

**Um einen SageMaker Canvas-Datensatz zu erstellen**

1. Wählen Sie neben dem Datensatz **Dataset (Test)** das Optionsfeld aus.

1. Wählen Sie **Exportieren** aus.

1. Wählen Sie den **SageMaker Canvas-Datensatz** aus.

1. Geben Sie als **Datensatzname** einen Namen für den Datensatz an.

1. Wählen Sie **Export** aus.

Gehen Sie wie folgt vor, um Vorhersagen zu treffen. Es wird davon ausgegangen, dass Sie sich weiterhin auf der Seite **Analysieren** befinden.

**So treffen Sie Vorhersagen für den Testdatensatz**

1. Wählen Sie **Vorhersagen** aus.

1. Wählen Sie **Manuell** aus.

1. Wählen Sie den Datensatz aus, den Sie exportiert haben.

1. Wählen Sie **Vorhersagen generieren** aus.

1. Wenn SageMaker Canvas mit der Generierung der Prognosen fertig ist, wählen Sie das Symbol rechts neben dem Datensatz aus.

1. Wählen Sie **Vorschau** aus, um die Prognosen anzuzeigen.

## Bereitstellen eines Modells
<a name="canvas-tutorial-deploy-a-model"></a>

Nachdem Sie Ihr Modell evaluiert haben, können Sie es auf einem Endpunkt bereitstellen. Sie können Anfragen an den Endpunkt senden, um Vorhersagen zu erhalten.

Gehen Sie wie folgt vor, um ein Modell bereitzustellen. Es wird davon ausgegangen, dass Sie sich weiterhin auf der Seite **Vorhersagen** befinden.

**So stellen Sie ein Modell bereit**

1. Wählen Sie **Bereitstellen**.

1. Wählen Sie **Create deployment**.

1. Wählen Sie **Bereitstellen**.

## Bereinigen
<a name="canvas-tutorial-cleaning-up"></a>

Sie haben das Tutorial erfolgreich abgeschlossen. Um zusätzliche Kosten zu vermeiden, löschen Sie die Ressourcen, die Sie nicht verwenden.

Gehen Sie wie folgt vor, um den von Ihnen erstellten Endpunkt zu löschen. Es wird davon ausgegangen, dass Sie sich weiterhin auf der Seite **Bereitstellen** befinden.

**So löschen Sie einen Endpunkt**

1. Wählen Sie das Optionsfeld rechts neben Ihrer Bereitstellung aus.

1. Wählen Sie **Bereitstellung löschen** aus.

1. Wählen Sie **Löschen** aus.

Löschen Sie nach dem Löschen der Bereitstellung die Datensätze, die Sie in SageMaker Canvas erstellt haben. Führen Sie die folgenden Schritte aus, um die Datensätze zu löschen.

**So löschen Sie die Datensätze**

1. Wählen Sie im linken Navigationsbereich die Option **Datensätze** aus.

1. Wählen Sie den Datensatz aus, den Sie analysiert haben, und den synthetischen Datensatz, der für Vorhersagen verwendet wurde.

1. Wählen Sie **Löschen** aus.

Um zusätzliche Gebühren zu vermeiden, müssen Sie sich bei Canvas abmelden. SageMaker Weitere Informationen finden Sie unter [Von Amazon SageMaker Canvas abmelden](canvas-log-out.md).