

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Import
<a name="data-wrangler-import"></a>

Sie können Amazon SageMaker Data Wrangler verwenden, um Daten aus den folgenden *Datenquellen* zu importieren: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift und Snowflake. Der Datensatz, den Sie importieren, kann bis zu 1000 Spalten enthalten.

**Topics**
+ [Daten aus Amazon S3 importieren](#data-wrangler-import-s3)
+ [Daten aus Athena importieren](#data-wrangler-import-athena)
+ [Daten aus Amazon Redshift importieren](#data-wrangler-import-redshift)
+ [Daten aus Amazon EMR importieren](#data-wrangler-emr)
+ [Daten aus Databricks importieren (JDBC)](#data-wrangler-databricks)
+ [Daten aus Salesforce Data Cloud importieren](#data-wrangler-import-salesforce-data-cloud)
+ [Importieren von Daten aus Snowflake](#data-wrangler-snowflake)
+ [Daten von SaaS-Plattformen (Software-as-a-Service) importieren](#data-wrangler-import-saas)
+ [Speicher für importierte Daten](#data-wrangler-import-storage)

Bei manchen Datenquellen können Sie mehrere *Datenverbindungen* hinzufügen:
+ Sie können eine Verbindung zu mehreren Amazon-Redshift-Clustern herstellen. Jeder Cluster wird zu einer Datenquelle. 
+ Sie können jede Athena-Datenbank in Ihrem Konto abfragen, um Daten aus dieser Datenbank zu importieren.



Wenn Sie einen Datensatz aus einer Datenquelle importieren, wird er in Ihrem Datenablauf angezeigt. Data Wrangler leitet automatisch den Datentyp jeder Spalte in Ihrem Datensatz ab. Um diese Typen zu ändern, wählen Sie den Schritt **Datentypen** aus und wählen Sie **Datentypen bearbeiten** aus.

Wenn Sie Daten aus Athena oder Amazon Redshift importieren, werden die importierten Daten automatisch im standardmäßigen SageMaker AI S3-Bucket für die AWS Region gespeichert, in der Sie Studio Classic verwenden. Darüber hinaus speichert Athena Daten, die Sie in Data Wrangler in der Vorschau betrachten, in diesem Bucket. Weitere Informationen hierzu finden Sie unter [Speicher für importierte Daten](#data-wrangler-import-storage).

**Wichtig**  
Der standardmäßige Amazon-S3-Bucket verfügt ggf. nicht über die am stärksten eingeschränkten Sicherheitseinstellungen, wie z. B. Bucket-Richtlinie und serverseitige Verschlüsselung (SSE). Wir empfehlen dringend, [eine Bucket-Richtlinie hinzuzufügen, um den Zugriff auf in Data Wrangler importierte Datensätze einzuschränken](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-security.html#data-wrangler-security-bucket-policy). 

**Wichtig**  
Wenn Sie die verwaltete Richtlinie für SageMaker KI verwenden, empfehlen wir außerdem dringend, sie auf die restriktivste Richtlinie zu beschränken, die es Ihnen ermöglicht, Ihren Anwendungsfall durchzuführen. Weitere Informationen finden Sie unter [Erteilen Sie einer IAM-Rolle die Erlaubnis, Data Wrangler zu verwenden](data-wrangler-security.md#data-wrangler-security-iam-policy).

Bei allen Datenquellen mit Ausnahme von Amazon Simple Storage Service (Amazon S3) müssen Sie eine SQL-Abfrage angeben, um Ihre Daten zu importieren. Für jede Abfrage müssen Sie Folgendes angeben:
+ **Datenkatalog**
+ **Datenbank**
+ **Tabelle**

Sie können den Namen der Datenbank oder des Datenkatalogs entweder in den Auswahlmenüs oder in der Abfrage angeben. Nachfolgend finden Sie Beispiele für Abfragen:
+ `select * from {{example-data-catalog-name}}.{{example-database-name}}.{{example-table-name}}`- Die Abfrage verwendet zur Ausführung nichts, was in den Auswahlmenüs der Benutzeroberfläche (UI) angegeben ist. Sie fragt `example-table-name` innerhalb von `example-database-name` innerhalb von `example-data-catalog-name` ab.
+ `select * from {{example-database-name}}.{{example-table-name}}` – Die Abfrage verwendet für die Ausführung den Datenkatalog, den Sie im Auswahlmenü **Datenkatalog** angegeben haben. Sie fragt `example-table-name` innerhalb von `example-database-name` innerhalb des Datenkatalogs ab, den Sie angegeben haben.
+ `select * from {{example-table-name}}` – Für die Abfrage müssen Sie Felder für die Auswahlmenüs **Datenkatalog** und **Datenbankname** auswählen. Sie fragt `example-table-name` innerhalb des Datenkatalogs innerhalb der Datenbank und des Datenkatalogs ab, die Sie angegeben haben.

Die Verknüpfung zwischen Data Wrangler und der Datenquelle ist eine *Verbindung*. Sie verwenden die Verbindung, um Daten aus Ihrer Datenquelle zu importieren.

Es gibt die folgenden Verbindungstypen:
+ Direkt
+ Katalogisiert

Data Wrangler hat in einer direkten Verbindung immer Zugriff auf die aktuellsten Daten. Wenn die Daten in der Datenquelle aktualisiert wurden, können Sie die Verbindung verwenden, um die Daten zu importieren. Wenn z. B. jemand eine Datei zu einem Ihrer Amazon-S3-Buckets hinzufügt, können Sie die Datei importieren.

Eine katalogisierte Verbindung ist das Ergebnis einer Datenübertragung. Die Daten in der katalogisierten Verbindung enthalten nicht unbedingt die aktuellsten Daten. Sie könnten z. B. eine Datenübertragung zwischen Salesforce und Amazon S3 einrichten. Wenn die Salesforce-Daten aktualisiert werden, müssen Sie die Daten erneut übertragen. Sie können den Prozess der Datenübertragung automatisieren. Weitere Informationen zur Datenübertragung finden Sie unter [Daten von SaaS-Plattformen (Software-as-a-Service) importieren](#data-wrangler-import-saas).

## Daten aus Amazon S3 importieren
<a name="data-wrangler-import-s3"></a>

Mit Hilfe von Amazon Simple Storage Service (Amazon S3) können Sie beliebige Datenmengen speichern und abrufen, jederzeit und von überall im Internet aus. Sie können diese Aufgaben mithilfe der AWS-Managementkonsole, einer einfachen und intuitiven Weboberfläche, und der Amazon S3 S3-API ausführen. Wenn Sie Ihren Datensatz lokal gespeichert haben, empfehlen wir Ihnen, ihn zu einem S3-Bucket hinzuzufügen, um ihn in Data Wrangler zu importieren. Wie das geht, erfahren Sie unter [Ein Objekt in einen Bucket hochladen](https://docs.aws.amazon.com/AmazonS3/latest/gsg/PuttingAnObjectInABucket.html) im Benutzerhandbuch zum Amazon Simple Storage Service. 

Data Wrangler verwendet [S3 Select](https://aws.amazon.com/s3/features/#s3-select), damit Sie eine Vorschau Ihrer Amazon S3-Dateien in Data Wrangler erhalten können. Für jede Dateivorschau werden Ihnen Standardgebühren berechnet. Weitere Informationen zu den Preisen finden Sie auf der Registerkarte **Anfragen und Datenabrufe** auf [Amazon S3-Preise](https://aws.amazon.com/s3/pricing/). 

**Wichtig**  
Wenn Sie planen, einen Datenfluss zu exportieren und einen Data Wrangler-Job zu starten, Daten in einen SageMaker KI-Feature-Store aufzunehmen oder eine SageMaker KI-Pipeline zu erstellen, beachten Sie, dass sich für diese Integrationen Amazon S3 S3-Eingabedaten in derselben Region befinden müssen. AWS 

**Wichtig**  
Wenn Sie eine CSV-Datei importieren, achten Sie darauf, dass diese die folgenden Anforderungen erfüllt:  
Kein Datensatz in Ihrem Datensatz darf länger als eine Zeile sein.
Ein Backslash, `\`, ist das einzige gültige Escape-Zeichen.
Ihr Datensatz muss eines der folgenden Trennzeichen verwenden:  
Komma – `,`
Doppelpunkt – `:`
Semikolon – `;`
Pipe – `|`
Tab – `[TAB]`
Um Speicherplatz zu sparen, können Sie komprimierte CSV-Dateien importieren.

Data Wrangler bietet Ihnen die Möglichkeit, entweder den gesamten Datensatz zu importieren oder eine Stichprobe daraus. Für Amazon S3 bietet es die folgenden Optionen für die Probenahme:
+ Keine – Importiert den gesamten Datensatz.
+ Erstes K – Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.
+ Randomisiert – Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.
+ Stratifiziert – Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Sobald Sie Ihre Daten importiert haben, können Sie auch den Probenahme-Transformator verwenden, um eine oder mehrere Stichproben aus Ihrem gesamten Datensatz zu nehmen. Weitere Informationen über den Probenahme-Transformator finden Sie unter [Sampling](data-wrangler-transform.md#data-wrangler-transform-sampling).

Verwenden Sie eine der folgenden Ressourcen-IDs, um Ihre Daten zu importieren:
+ Eine Amazon-S3-URI, die einen Amazon-S3-Bucket oder einen Amazon S3 Access Point verwendet
+ Ein Alias für einen Amazon S3 Access Point
+ Ein Amazon-Ressourcenname (ARN), der einen Amazon S3 Access Point oder einen Amazon-S3-Bucket verwendet

Amazon S3 Access Points sind benannte Netzwerk-Endpunkte, die an Buckets angehängt sind. Jeder Zugangspunkt verfügt über unterschiedliche Berechtigungen und Netzwerksteuerungen, die Sie konfigurieren können. Weitere Informationen zu Zugangspunkten finden Sie unter [Verwalten des Datenzugriffs mit Amazon S3 Access Points](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html).

**Wichtig**  
Wenn Sie einen Amazon-Ressourcennamen (ARN) verwenden, um Ihre Daten zu importieren, muss dieser für eine Ressource gelten, die sich in derselben befindet AWS-Region , die Sie für den Zugriff auf Amazon SageMaker Studio Classic verwenden.

Sie können entweder eine einzelne Datei oder mehrere Dateien als Datensatz importieren. Sie können den Vorgang zum Importieren mehrerer Dateien verwenden, wenn Sie einen Datensatz haben, der in separate Dateien partitioniert ist. Er nimmt alle Dateien aus einem Amazon S3-Verzeichnis und importiert sie als ein einziger Datensatz. Informationen zu den Dateitypen, die Sie importieren können, und wie diese importiert werden, finden Sie in den folgenden Abschnitten.

------
#### [ Single File Import ]

Einzelne Dateien können Sie in den folgenden Formaten importieren:
+ Comma Separated Values (CSV)
+ Parquet
+ Javascript Object Notation (JSON)
+ Optimized Row Columnar (ORC)
+ Image – Data Wrangler verwendet OpenCV zum Importieren von Images. Weitere Informationen zu den unterstützten Image-Formaten finden Sie unter [Image-Dateien lesen und schreiben ](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Für in JSON formatierte Dateien unterstützt Data Wrangler sowohl JSON-Lines (.jsonl) als auch JSON-Dokumente (.json). Wenn Sie sich eine Vorschau Ihrer Daten anzeigen lassen, wird das JSON automatisch im Tabellenformat angezeigt. Bei verschachtelten JSON-Dokumenten, die größer als 5 MB sind, zeigt Data Wrangler das Schema für die Struktur und die Arrays als Werte im Datensatz an. Verwenden Sie die Operatoren **Flatten structured** und **Explode array**, damit die verschachtelten Werte in tabellarischer Form angezeigt werden. Weitere Informationen erhalten Sie unter [Verschachtelung von JSON-Daten aufheben](data-wrangler-transform.md#data-wrangler-transform-flatten-column) und [Array explodieren](data-wrangler-transform.md#data-wrangler-transform-explode-array).

Wenn Sie einen Datensatz auswählen, können Sie ihn umbenennen, den Dateityp angeben und die erste Zeile als Kopfzeile identifizieren.

Sie können einen Datensatz, den Sie in mehrere Dateien partitioniert haben, in einem einzigen Importschritt in einem Amazon-S3-Bucket importieren.

**Um einen Datensatz aus einer einzelnen Datei in Data Wrangler zu importieren, die Sie in Amazon S3 gespeichert haben:**

1. Wenn Sie sich gerade nicht auf der Registerkarte **Import** befinden, wählen Sie **Import** aus.

1. Wählen Sie unter **Verfügbar** **Amazon S3** aus.

1. Führen Sie unter **Tabellen-, Image- oder Zeitreihendaten aus S3 importieren** einen der folgenden Schritte aus:
   + Wählen Sie in der Tabellenansicht einen Amazon-S3-Bucket aus und navigieren Sie zu der Datei, die Sie importieren.
   + Geben Sie als **S3-Quelle** einen Amazon-S3-Bucket oder eine Amazon-S3-URI an und wählen Sie **Los** aus. Die Amazon-S3-URIs können in einem der folgenden Formate vorliegen:
     + `s3://{{amzn-s3-demo-bucket}}/{{example-prefix}}/{{example-file}}`
     + {{example-access-point}}-{{aqfqprnstn7aefdfbarligizwgyfouse1a}}-s3alias/datasets/{{example-file}}
     + `s3://arn:aws:s3:{{AWS-Region}}:{{111122223333}}:accesspoint/{{example-prefix}}/{{example-file}}`

1. Wählen Sie den Datensatz aus, um den Bereich mit den **Importeinstellungen** zu öffnen.

1. Wenn Ihre CSV-Datei eine Kopfzeile hat, aktivieren Sie das Kontrollkästchen neben **Kopfzeile zur Tabelle hinzufügen**.

1. In der **Vorschau-**Tabelle sehen Sie eine Vorschau Ihres Datensatzes. Diese Tabelle zeigt bis zu 100 Zeilen. 

1. Überprüfen oder ändern Sie im Bereich **Details** den **Namen** und den **Dateityp** für Ihren Datensatz. Wenn Sie einen **Namen** hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt. 

1. Geben Sie die Probenahmekonfiguration an, die Sie verwenden möchten. 

1. Wählen Sie **Importieren** aus.

------
#### [ Multifile Import ]

Die Anforderungen zum Importieren mehrerer Dateien sind wie folgt:
+ Die Dateien müssen sich im selben Ordner Ihres Amazon-S3-Buckets befinden.
+ Die Dateien müssen entweder denselben Header verwenden oder gar keinen Header haben.

Die Dateien müssen eines der folgenden Formate haben:
+ CSV
+ Parquet
+ Optimized Row Columnar (ORC)
+ Image – Data Wrangler verwendet OpenCV zum Importieren von Images. Weitere Informationen zu den unterstützten Image-Formaten finden Sie unter [Image-Dateien lesen und schreiben](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Gehen Sie wie folgt vor, um mehrere Dateien zu importieren.

**Um einen Datensatz aus mehreren Dateien in Data Wrangler zu importieren, die Sie in einem Amazon S3-Verzeichnis gespeichert haben**

1. Wenn Sie sich gerade nicht auf der Registerkarte **Import** befinden, wählen Sie **Import** aus.

1. Wählen Sie unter **Verfügbar** **Amazon S3** aus.

1. Führen Sie unter **Tabellen-, Image- oder Zeitreihendaten aus S3 importieren** einen der folgenden Schritte aus:
   + Wählen Sie in der tabellarischen Ansicht einen Amazon-S3-Bucket aus und navigieren Sie zu dem Ordner, der die Dateien enthält, die Sie importieren.
   + Geben Sie als **S3-Quelle** den Amazon-S3-Bucket oder eine Amazon-S3-URI mit Ihren Dateien an und wählen Sie **Los** aus. Die folgenden sind gültige URIs:
     + `s3://{{amzn-s3-demo-bucket}}/{{example-prefix}}/{{example-prefix}}`
     + `{{example-access-point}}-{{aqfqprnstn7aefdfbarligizwgyfouse1a}}-s3alias/{{example-prefix}}/`
     + `s3://arn:aws:s3:AWS-Region:{{111122223333}}:accesspoint/{{example-prefix}}`

1. Wählen Sie den Ordner mit den Dateien aus, die Sie importieren möchten. Jede Datei muss in einem der unterstützten Formate vorliegen. Ihre Dateien müssen denselben Datentyp haben.

1. Wenn Ihr Ordner CSV-Dateien mit Kopfzeilen enthält, aktivieren Sie das Kontrollkästchen neben **Erste Zeile ist Kopfzeile**.

1. Wenn sich Ihre Dateien in anderen, verschachtelten Ordnern befinden, aktivieren Sie das Kontrollkästchen neben **Unterverzeichnisse einbeziehen**.

1. (Optional) Wählen Sie **Spalte mit Dateinamen hinzufügen** und fügen Sie zum Datensatz eine Spalte hinzu, die den Dateinamen für jede Beobachtung zeigt.

1. (Optional) Standardmäßig zeigt Data Wrangler Ihnen keine Vorschau eines Ordners. Sie können die Vorschau aktivieren, indem Sie auf die blaue Schaltfläche **Vorschau aus** klicken. Eine Vorschau zeigt die ersten 10 Zeilen der ersten 10 Dateien im Ordner.

1. Überprüfen oder ändern Sie im Bereich **Details** den **Namen** und den **Dateityp** für Ihren Datensatz. Wenn Sie einen **Namen** hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt. 

1. Geben Sie die Probenahmekonfiguration an, die Sie verwenden möchten. 

1. Wählen Sie **Datensatz importieren** aus.

------

Mit Hilfe von Parametern können Sie auch eine Teilmenge der Dateien importieren, die einem Muster entsprechen. Mithilfe von Parametern können Sie die Dateien, die Sie importieren, selektiver auswählen. Um mit der Verwendung von Parametern zu beginnen, bearbeiten Sie die Datenquelle und wenden Sie sie auf den Pfad an, den Sie zum Importieren der Daten verwenden. Weitere Informationen finden Sie unter [Wiederverwenden von Datenabläufe für verschiedene Datensätze](data-wrangler-parameterize.md).

## Daten aus Athena importieren
<a name="data-wrangler-import-athena"></a>

Verwenden Sie Amazon Athena, um Ihre Daten von Amazon Simple Storage Service (Amazon S3) in Data Wrangler zu importieren. In Athena schreiben Sie Standard-SQL-Abfragen, um die Daten auszuwählen, die Sie aus Amazon S3 importieren. Weitere Informationen finden Sie unter [Was ist Amazon Athena?](https://docs.aws.amazon.com/athena/latest/ug/what-is.html)

Sie können das verwenden AWS-Managementkonsole , um Amazon Athena einzurichten. Sie müssen mindestens eine Datenbank in Athena erstellen, bevor Sie Abfragen ausführen können. Weitere Informationen zu den ersten Schritten mit Athena finden Sie unter [Erste Schritte](https://docs.aws.amazon.com/athena/latest/ug/getting-started.html).

Athena ist direkt in Data Wrangler integriert. Sie können Athena-Abfragen schreiben, ohne die Benutzeroberfläche von Data Wrangler verlassen zu müssen.

Neben dem Schreiben einfacher Athena-Abfragen in Data Wrangler können Sie auch:
+ Athena-Arbeitsgruppen zur Verwaltung von Abfrageergebnissen verwenden. Weitere Informationen zu Arbeitsgruppen finden Sie unter [Abfrageergebnisse verwalten](#data-wrangler-import-manage-results).
+ Lebenszykluskonfigurationen zur Festlegung von Datenaufbewahrungszeiträumen. Weitere Informationen zur Datenspeicherung finden Sie unter [Datenaufbewahrungszeitraum festlegen](#data-wrangler-import-athena-retention).

### In Data Wrangler können Sie Abfragen in Athena vornehmen
<a name="data-wrangler-import-athena-query"></a>

**Anmerkung**  
Data Wrangler unterstützt keine Verbundabfragen.

Wenn Sie Athena verwenden AWS Lake Formation , stellen Sie sicher, dass Ihre Lake Formation IAM-Berechtigungen die IAM-Berechtigungen für die Datenbank nicht überschreiben. `sagemaker_data_wrangler`

Data Wrangler bietet Ihnen die Möglichkeit, entweder den gesamten Datensatz zu importieren oder eine Stichprobe daraus. Für Athena bietet es die folgenden Optionen für die Probenahme:
+ Keine – Importiert den gesamten Datensatz.
+ Erstes K – Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.
+ Randomisiert – Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.
+ Stratifiziert – Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Das folgende Verfahren zeigt, wie ein Datensatz von Athena in Data Wrangler importiert wird.

**Um einen Datensatz von Athena in Data Wrangler zu importieren**

1. Melden Sie sich [bei Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Studio**.

1. Wählen Sie **App starten**.

1. Wählen Sie in der Auswahlliste **Studio** aus.

1. Wählen Sie das Symbol Startseite aus.

1. Wählen Sie **Daten** aus.

1. Wählen Sie **Data Wrangler**.

1. Wählen Sie **Daten importieren** aus.

1. Wählen Sie unter **Verfügbar** **Amazon Athena** aus.

1. Wählen Sie für **Datenkatalog** einen Datenkatalog aus.

1. Wählen Sie von der Auswahlliste **Datenbank** die Datenbank aus, die Sie abfragen möchten. Wenn Sie eine Datenbank auswählen, können Sie mithilfe der unter **Details** aufgelisteten Tabellen eine Vorschau aller **Tabellen** in Ihrer Datenbank anzeigen.

1. (Optional) Wählen Sie **Erweiterte Konfiguration** aus.

   1. Wählen Sie eine **Arbeitsgruppe** aus.

   1. Wenn Ihre Arbeitsgruppe den Amazon S3-Ausgabespeicherort nicht durchgesetzt hat oder wenn Sie keine Arbeitsgruppe verwenden, geben Sie einen Wert für den **Amazon S3-Speicherort für die Abfrageergebnisse** an.

   1. (Optional) Aktivieren Sie für **Datenaufbewahrungsdauer** das Kontrollkästchen, um eine Datenaufbewahrungsdauer festzulegen, und geben Sie die Anzahl der Tage an, für die die Daten gespeichert werden sollen, bevor sie gelöscht werden.

   1. (Optional) Data Wrangler speichert die Verbindung standardmäßig. Sie können das Kontrollkästchen deaktivieren und die Verbindung nicht speichern.

1. Wählen Sie für **Probenahme** eine Methode zur Probenahme aus. Wählen Sie **Keine**, um die Probenahme zu deaktivieren.

1. Geben Sie Ihre Abfrage in den Abfrage-Editor ein und verwenden Sie die Schaltfläche **Ausführen**, um die Abfrage auszuführen. Nach erfolgreicher Abfrage sehen Sie im Editor eine Vorschau Ihres Ergebnisses.
**Anmerkung**  
Salesforce-Daten verwenden den Typ `timestamptz`. Wenn Sie die Spalte für Zeitstempel abfragen, die Sie aus Salesforce in Athena importiert haben, wandeln Sie die Daten in der Spalte in den Typ `timestamp` um. Die folgende Abfrage wandelt die Spalte für Zeitstempel in den richtigen Typ um.  

   ```
   # cast column timestamptz_col as timestamp type, and name it as timestamp_col
   select cast(timestamptz_col as timestamp) as timestamp_col from table
   ```

1. Um die Ergebnisse Ihrer Abfrage zu importieren, wählen Sie **Import** aus.

Sobald Sie das obige Verfahren abgeschlossen haben, erscheint der Datensatz, den Sie abgefragt und importiert haben, im Data Wrangler-Ablauf.

Data Wrangler speichert die Verbindungseinstellungen standardmäßig als neue Verbindung. Wenn Sie Ihre Daten importieren, wird die Abfrage, die Sie bereits angegeben haben, als neue Verbindung angezeigt. Die gespeicherten Verbindungen speichern Informationen über die Athena-Arbeitsgruppen und Amazon-S3-Buckets, die Sie verwenden. Wenn Sie erneut eine Verbindung zu der Datenquelle herstellen, können Sie die gespeicherte Verbindung auswählen.

### Abfrageergebnisse verwalten
<a name="data-wrangler-import-manage-results"></a>

Data Wrangler unterstützt die Verwendung von Athena-Arbeitsgruppen zur Verwaltung der Abfrageergebnisse innerhalb eines AWS -Kontos. Sie können für jede Arbeitsgruppe einen Amazon-S3-Ausgabespeicherort angeben. Sie können auch angeben, ob die Ausgabe der Abfrage an verschiedene Amazon S3-Speicherorte gesendet werden kann. Weitere Informationen finden Sie unter [Zugriffs- und Kostenkontrolle für Abfragen mit Hilfe von Arbeitsgruppen](https://docs.aws.amazon.com/athena/latest/ug/manage-queries-control-costs-with-workgroups.html).

Ihre Arbeitsgruppe ist möglicherweise so konfiguriert, dass sie den Amazon S3-Abfragespeicherort erzwingt. Sie können den Ausgabespeicherort der Abfrageergebnisse für diese Arbeitsgruppen nicht ändern.

Wenn Sie keine Arbeitsgruppe verwenden oder keinen Ausgabespeicherort für Ihre Abfragen angeben, verwendet Data Wrangler den standardmäßigen Amazon S3 S3-Bucket in derselben AWS Region, in der sich Ihre Studio Classic-Instance befindet, um Athena-Abfrageergebnisse zu speichern. Es erstellt temporäre Tabellen in dieser Datenbank, um die Abfrageausgabe in diesen Amazon-S3-Bucket zu verschieben. Es löscht diese Tabellen, sobald Daten importiert wurden. Die Datenbank `sagemaker_data_wrangler` bleibt jedoch bestehen. Weitere Informationen hierzu finden Sie unter [Speicher für importierte Daten](#data-wrangler-import-storage).

Um Athena-Arbeitsgruppen zu verwenden, richten Sie die IAM-Richtlinie ein, die den Zugriff auf Arbeitsgruppen gewährt. Wenn Sie eine `SageMaker AI-Execution-Role` verwenden, empfehlen wir, die Richtlinie zur Rolle hinzuzufügen. Weitere Informationen zu IAM-Richtlinien für Arbeitsgruppen finden Sie unter [IAM-Richtlinien für den Zugriff auf Arbeitsgruppen](https://docs.aws.amazon.com/athena/latest/ug/workgroups-iam-policy.html). Beispielrichtlinien für Arbeitsgruppen finden Sie unter [Beispielrichtlinien für Arbeitsgruppen](https://docs.aws.amazon.com/athena/latest/ug/example-policies-workgroup.html).

### Datenaufbewahrungszeitraum festlegen
<a name="data-wrangler-import-athena-retention"></a>

Data Wrangler legt automatisch eine Datenaufbewahrungsdauer für die Abfrageergebnisse fest. Die Ergebnisse werden nach Ablauf der Aufbewahrungsfrist gelöscht. Die Standardaufbewahrungsdauer beträgt z. B. fünf Tage. Die Ergebnisse der Abfrage werden nach fünf Tagen gelöscht. Diese Konfiguration soll Ihnen helfen, Daten zu bereinigen, die Sie nicht mehr verwenden. Durch das Bereinigen Ihrer Daten wird verhindert, dass unbefugte Benutzer darauf zugreifen können. Es hilft auch, die Kosten zum Speichern Ihrer Daten auf Amazon S3 zu kontrollieren.

Wenn Sie keinen Aufbewahrungszeitraum festlegen, bestimmt die Amazon S3-Lebenszykluskonfiguration die Dauer, für die die Objekte gespeichert werden. Die Datenaufbewahrungsrichtlinie, die Sie für die Lebenszykluskonfiguration angegeben haben, entfernt alle Abfrageergebnisse, die älter sind als die von Ihnen angegebene Lebenszykluskonfiguration. Weitere Informationen finden Sie unter [Lebenszykluskonfiguration in einem Bucket festlegen](https://docs.aws.amazon.com/AmazonS3/latest/userguide/how-to-set-lifecycle-configuration-intro.html).

Data Wrangler verwendet Amazon S3-Lebenszykluskonfigurationen, um die Aufbewahrung und den Ablauf von Daten zu verwalten. Sie müssen Ihrer Amazon SageMaker Studio Classic IAM-Ausführungsrolle Berechtigungen zur Verwaltung von Bucket-Lebenszykluskonfigurationen erteilen. Gehen Sie wie folgt vor, um Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Berechtigungen zur Verwaltung der Lebenszykluskonfiguration zu erteilen.

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die IAM-Konsole unter. [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/)

1. Wählen Sie **Roles**.

1. Geben Sie in der Suchleiste die Amazon SageMaker AI-Ausführungsrolle an, die Amazon SageMaker Studio Classic verwendet.

1. Wählen Sie die Rolle aus.

1. Wählen Sie **Add permissions** (Berechtigungen hinzufügen) aus.

1. Wählen Sie **Inline-Richtlinie erstellen** aus.

1. Geben Sie für **Service** **S3** an und wählen Sie diesen aus.

1. Wählen **Sie im Abschnitt Lesen** die Option **GetLifecycleConfiguration**.

1. Wählen **Sie im Abschnitt Schreiben** die Option **PutLifecycleConfiguration**.

1. Wählen Sie für **Ressourcen** die Option **Spezifisch** aus.

1. Wählen Sie für **Aktionen** das Pfeilsymbol neben **Berechtigungsverwaltung** aus.

1. Wählen Sie **PutResourcePolicy**.

1. Wählen Sie für **Ressourcen** die Option **Spezifisch** aus.

1. Wählen Sie das Kontrollkästchen neben **Alle in diesem Konto** aus.

1. Wählen Sie **Richtlinie prüfen**.

1. Geben Sie für **Name** einen Namen an.

1. Wählen Sie **Richtlinie erstellen** aus.

## Daten aus Amazon Redshift importieren
<a name="data-wrangler-import-redshift"></a>

Amazon Redshift ist ein vollständig verwalteter Data-Warehouse-Service in Petabytegröße in der Cloud. Der erste Schritt zur Erstellung eines Data Warehouse besteht darin, eine Reihe von Knoten zu starten, die als Amazon-Redshift-Cluster bezeichnet werden. Sobald Sie Ihren Cluster bereitgestellt haben, können Sie Ihren Datensatz hochladen und anschließend Datenanalyseabfragen vornehmen. 

Sie können in Data Wrangler eine Verbindung zu einem oder mehreren Amazon Redshift-Clustern herstellen und diese abfragen. Um diese Importoption verwenden zu können, müssen Sie mindestens einen Cluster in Amazon Redshift erstellen. Wie das geht, erfahren Sie unter [Erste Schritte mit Amazon Redshift](https://docs.aws.amazon.com/redshift/latest/gsg/getting-started.html).

Sie können die Ergebnisse Ihrer Amazon Redshift-Abfrage an einem der folgenden Speicherorte ausgeben:
+ Der Standard-Amazon-S3-Bucket
+ Ein Amazon S3-Ausgabespeicherort, den Sie angeben

Sie können entweder den gesamten Datensatz importieren oder eine Stichprobe davon. Für Amazon Redshift bietet es die folgenden Probenahme-Optionen:
+ Keine – Importiert den gesamten Datensatz.
+ Erstes K – Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.
+ Randomisiert – Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.
+ Stratifiziert – Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Der standardmäßige Amazon S3 S3-Bucket befindet sich in derselben AWS Region, in der sich Ihre Studio Classic-Instance zum Speichern von Amazon Redshift Redshift-Abfrageergebnissen befindet. Weitere Informationen finden Sie unter [Speicher für importierte Daten](#data-wrangler-import-storage).

Für den standardmäßigen Amazon-S3-Bucket oder den von Ihnen angegebenen Bucket haben Sie die folgenden Verschlüsselungsoptionen:
+ Die standardmäßige AWS serviceseitige Verschlüsselung mit einem von Amazon S3 verwalteten Schlüssel () SSE-S3
+  Ein AWS Key Management Service (AWS KMS) Schlüssel, den Sie angeben

Ein AWS KMS Schlüssel ist ein Verschlüsselungsschlüssel, den Sie erstellen und verwalten. Weitere Informationen zu KMS-Schlüsseln finden Sie unter [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

Sie können einen AWS KMS Schlüssel entweder mit dem Schlüssel-ARN oder dem ARN Ihres AWS Kontos angeben.

Wenn Sie die von IAM verwaltete Richtlinie `AmazonSageMakerFullAccess` verwenden, um einer Rolle die Berechtigung zur Verwendung von Data Wrangler in Studio Classic zu erteilen, muss Ihr **Datenbankbenutzername** das Präfix `sagemaker_access` haben.

Gehen Sie wie folgt vor, um zu erfahren, wie Sie einen neuen Cluster hinzufügen. 

**Anmerkung**  
Data Wrangler verwendet die Amazon-Redshift-Daten-API mit temporären Anmeldeinformationen. Weitere Informationen zu dieser API finden Sie unter [Verwendung des Amazon-Redshift-Daten-API](https://docs.aws.amazon.com//redshift/latest/mgmt/data-api.html) im Amazon Redshift Management-Leitfaden. 

**So stellen Sie eine Verbindung zu einem Amazon-Redshift-Cluster her**

1. Melden Sie sich [bei Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Studio**.

1. Wählen Sie **App starten**.

1. Wählen Sie in der Auswahlliste **Studio** aus.

1. Wählen Sie das Symbol Startseite aus.

1. Wählen Sie **Daten** aus.

1. Wählen Sie **Data Wrangler**.

1. Wählen Sie **Daten importieren** aus.

1. Wählen Sie unter **Verfügbar** **Amazon Athena** aus.

1. Wählen Sie **Amazon Redshift** aus.

1. Wählen Sie **Temporäre Anmeldeinformationen (IAM)** als **Typ** aus.

1. Geben Sie einen **Verbindungsnamen** ein. Dies ist ein Name, der von Data Wrangler verwendet wird, um diese Verbindung zu identifizieren. 

1. Geben Sie die **Cluster-ID** ein, um anzugeben, zu welchem Cluster Sie eine Verbindung herstellen möchten. Hinweis: Geben Sie nur die Cluster-ID und nicht den vollständigen Endpunkt des Amazon-Redshift-Clusters ein.

1. Geben Sie den **Datenbanknamen** der Datenbank ein, mit der Sie eine Verbindung herstellen möchten.

1. Geben Sie einen **Datenbankbenutzer** ein, um den Benutzer zu identifizieren, den Sie für die Verbindung mit der Datenbank verwenden möchten. 

1. Geben Sie für **IAM-Rolle entladen** den IAM-Rollen-ARN der Rolle ein, die der Amazon-Redshift-Cluster annehmen soll, um Daten in Amazon S3 zu verschieben und zu schreiben. Weitere Informationen zu dieser Rolle finden Sie unter [Authorizing Amazon Redshift to access other AWS services in Ihrem Namen im](https://docs.aws.amazon.com/redshift/latest/mgmt/authorizing-redshift-service.html) Amazon Redshift Management Guide. 

1. Wählen Sie **Connect** aus.

1. (Optional) Geben Sie für den **Amazon S3-Ausgabespeicherort** den S3-URI zum Speichern der Abfrageergebnisse an.

1. (Optional) Geben Sie für die **KMS-Schlüssel-ID** den ARN des AWS KMS Schlüssels oder Alias an. Die folgende Abbildung zeigt Ihnen, wo Sie jeden dieser Schlüssel in der AWS-Managementkonsole finden.  
![Der Speicherort des AWS KMS Alias-ARN, des Aliasnamens und des Schlüssel-ARN in der AWS KMS Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/kms-alias-redacted.png)

Die folgende Abbildung zeigt alle Felder aus dem vorangehenden Verfahren.

![Das Verbindungsfenster Amazon Redshift hinzufügen.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/redshift-connection.png)


Sobald Ihre Verbindung erfolgreich hergestellt wurde, erscheint sie als Datenquelle unter **Datenimport**. Wählen Sie diese Datenquelle aus, um Ihre Datenbank abzufragen und Daten zu importieren.

**Gehen Sie wie folgt vor, um Daten aus Amazon Redshift abzufragen und zu importieren**

1. Wählen Sie aus **Datenquellen** die Verbindung aus, über die Sie die Abfrage vornehmen möchten.

1. Wählen Sie ein **Schema** aus. Weitere Informationen zu Amazon Redshift-Schemata finden Sie unter [Schemata](https://docs.aws.amazon.com/redshift/latest/dg/r_Schemas_and_tables.html) im Entwicklerhandbuch für Amazon Redshift-Datenbanken.

1. (Optional) Geben Sie unter **Erweiterte Konfiguration** die **Probenahme-Methode** an, die Sie verwenden möchten.

1. Geben Sie Ihre Abfrage in den Abfrage-Editor ein und wählen Sie **Ausführen**, um die Abfrage auszuführen. Nach erfolgreicher Abfrage sehen Sie im Editor eine Vorschau Ihres Ergebnisses.

1. Wählen Sie **Datensatz importieren** aus, um den abgefragten Datensatz zu importieren. 

1. Geben Sie einen **Datensatznamen** ein. Wenn Sie einen **Datensatznamen** hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt. 

1. Wählen Sie **Hinzufügen** aus.

Gehen Sie wie folgt vor, um einen Datensatz zu bearbeiten.

1. Navigieren Sie zu Ihrem Data Wrangler-Ablauf.

1. Wählen Sie das \+ neben **Quelle – Gesampelt**.

1. Ändern Sie die importierten Daten.

1. Wählen Sie **Anwenden** aus.

## Daten aus Amazon EMR importieren
<a name="data-wrangler-emr"></a>

Sie können Amazon EMR als Datenquelle für Ihren Amazon SageMaker Data Wrangler-Flow verwenden. Amazon EMR ist eine verwaltete Cluster-Plattform, mit der Sie große Datenmengen verarbeiten und analysieren können. Weitere Informationen über Amazon EMR finden Sie unter [Was ist Amazon EMR?](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html) Um einen Datensatz aus EMR zu importieren, stellen Sie eine Verbindung dazu her und nehmen Sie eine Abfrage vor. 

**Wichtig**  
Sie müssen die folgenden Voraussetzungen erfüllen, um eine Verbindung mit einem Amazon EMR-Cluster herzustellen:  
Sie haben eine Amazon VPC in der Region, die Sie für den Start von Amazon SageMaker Studio Classic und Amazon EMR verwenden.
Sowohl Amazon EMR als auch Amazon SageMaker Studio Classic müssen in privaten Subnetzen gestartet werden. Sie können sich im selben oder in verschiedenen Subnetzen befinden.
Amazon SageMaker Studio Classic muss im VPC-only Modus sein.  
Weitere Informationen zum Erstellen einer VPC finden Sie unter [Erstellen einer VPC](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-vpcs.html#Create-VPC).  
Weitere Informationen zum Erstellen einer VPC finden Sie unter [ SageMaker Studio Classic-Notebooks in einer VPC mit externen Ressourcen Connect](https://docs.aws.amazon.com/vpc/latest/userguide/studio-notebooks-and-internet-access.html).
Die Amazon EMR-Cluster, die Sie ausführen, müssen sich in derselben Amazon-VPC befinden.
Die Amazon EMR-Cluster und die Amazon VPC müssen sich im selben AWS Konto befinden.
Auf Ihren Amazon EMR-Clustern läuft Hive oder Presto.  
Hive-Cluster müssen eingehenden Datenverkehr von Studio-Classic-Sicherheitsgruppen am Port 10000 zulassen.
Presto-Cluster müssen eingehenden Datenverkehr von Studio-Classic-Sicherheitsgruppen am Port 8889 zulassen.  
Die Portnummer ist für Amazon EMR-Cluster, die IAM-Rollen verwenden, unterschiedlich. Weitere Informationen finden Sie am Ende des Abschnitts mit den Voraussetzungen.
Amazon SageMaker Studio Classic muss Jupyter Lab Version 3 ausführen. Informationen zur Aktualisierung der Jupyter-Lab-Version finden Sie unter. [Die JupyterLab Version einer Anwendung von der Konsole aus anzeigen und aktualisieren](studio-jl.md#studio-jl-view)
Amazon SageMaker Studio Classic hat eine IAM-Rolle, die den Benutzerzugriff steuert. Die Standard-IAM-Rolle, die Sie für die Ausführung von Amazon SageMaker Studio Classic verwenden, hat keine Richtlinien, die Ihnen Zugriff auf Amazon EMR-Cluster gewähren können. Sie müssen die Berechtigungen erteilende Richtlinie an die IAM-Rolle anhängen. Weitere Informationen finden Sie unter [Amazon-EMR-Cluster konfigurieren](studio-notebooks-configure-discoverability-emr-cluster.md).
Der IAM-Rolle muss außerdem die folgende Richtlinie angefügt sein `secretsmanager:PutResourcePolicy`.
Wenn Sie eine Studio Classic-Domain verwenden, die Sie bereits erstellt haben, stellen Sie sicher, dass sie sich im `AppNetworkAccessType` VPC-only Modus befindet. Informationen zum Aktualisieren einer Domain für den VPC-only Nutzungsmodus finden Sie unter[Amazon SageMaker Studio Classic herunterfahren und aktualisieren](studio-tasks-update-studio.md).
Sie müssen Hive oder Presto in Ihrem Cluster installiert haben.
Amazon EMR muss Version 5.5.0 oder höher sein.  
Amazon EMR unterstützt automatisches Beenden. Automatisches Beenden verhindert, dass inaktive Cluster ausgeführt werden, und verhindert, dass Ihnen Kosten entstehen. Die folgenden Versionen unterstützen automatisches Beenden:  
Für 6.x-Versionen Version 6.1.0 oder später.
Für 5.x-Versionen Version 5.30.0 oder später.
Verwenden Sie die folgenden Seiten, um IAM-Laufzeitrollen für den Amazon EMR-Cluster einzurichten. Wenn Sie Laufzeitrollen verwenden, müssen Sie die Verschlüsselung während der Übertragung aktivieren:  
[Voraussetzungen für den Start eines Amazon EMR-Clusters mit einer Laufzeitrolle](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html#emr-steps-runtime-roles-configure)
[Starten Sie einen Amazon EMR-Cluster mit rollenbasierter Zugriffskontrolle](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html#emr-steps-runtime-roles-launch)
Sie benötigen Lake Formation als Governance-Tool für die Daten in Ihren Datenbanken. Sie müssen außerdem die externe Datenfilterung für die Zugriffskontrolle verwenden.  
Weitere Informationen zu Lake Formation finden Sie unter [Was ist AWS Lake Formation?](https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html)
Weitere Informationen zur Integration von Lake Formation in Amazon EMR finden Sie unter [Integration von Drittanbieter-Services in Lake Formation](https://docs.aws.amazon.com/lake-formation/latest/dg/Integrating-with-LakeFormation.html).
Die Version Ihres Clusters muss 6.9.0 oder später sein.
Zugriff auf AWS Secrets Manager. Weitere Informationen über Secrets Manager finden Sie unter [Was ist AWS Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html)
Hive-Cluster müssen eingehenden Datenverkehr von Studio-Classic-Sicherheitsgruppen am Port 10000 zulassen.

Eine Amazon VPC ist ein virtuelles Netzwerk, das logisch von anderen Netzwerken in der AWS Cloud isoliert ist. Amazon SageMaker Studio Classic und Ihr Amazon EMR-Cluster existieren nur innerhalb der Amazon VPC.

Gehen Sie wie folgt vor, um Amazon SageMaker Studio Classic in einer Amazon VPC zu starten.

Gehen Sie wie folgt vor, um Studio Classic in einer VPC zu starten.

1. Navigieren Sie zur SageMaker AI-Konsole unter [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Wählen Sie **Launch SageMaker Studio Classic**.

1. Wählen Sie **Standardeinstellung**.

1. Wählen Sie für **Standard-Ausführungsrolle** die IAM-Rolle aus, um Studio Classic einzurichten.

1. Wählen Sie die VPC aus, auf der Sie die Amazon EMR-Cluster gestartet haben.

1. Wählen Sie als **Subnetz** ein privates Subnetz aus.

1. Geben Sie für **Sicherheitsgruppe(n)** die Sicherheitsgruppen an, die Sie zwischen Ihren VPC zur Steuerung verwenden.

1. Wählen Sie **Nur VPC**.

1. (Optional) AWS verwendet einen Standard-Verschlüsselungsschlüssel. Sie können einen AWS Key Management Service Schlüssel zur Verschlüsselung Ihrer Daten angeben.

1. Wählen Sie **Weiter** aus.

1. Wählen Sie unter **Studio-Einstellungen** die Konfigurationen aus, die am besten für Sie geeignet sind.

1. Wählen Sie **Weiter**, um die SageMaker Canvas-Einstellungen zu überspringen.

1. Wählen Sie **Weiter**, um die RStudio-Einstellungen zu überspringen.

Wenn Sie noch keinen Amazon EMR-Cluster haben, können Sie mit dem folgenden Verfahren einen solchen erstellen. Weitere Informationen zu Amazon EMR finden Sie unter [Was ist Amazon EMR?](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html)

Gehen Sie wie folgt vor, um einen Cluster zu erstellen.

1. Navigieren Sie zur AWS-Managementkonsole.

1. Geben Sie in die Suchleiste **Amazon EMR** ein.

1. Wählen Sie **Cluster erstellen**.

1. Geben Sie als **Cluster-Name** den Namen Ihres Clusters ein.

1. Wählen Sie als **Veröffentlichung** die veröffentlichte Version des Clusters aus.
**Anmerkung**  
Amazon EMR unterstützt die automatische Beenden für die folgenden Versionen:  
Für 6.x-Versionen: Versionen 6.1.0 oder später
Für 5.x-Versionen die Versionen 5.30.0 oder später
Automatisches Beenden verhindert, dass inaktive Cluster ausgeführt werden, und verhindert, dass Ihnen Kosten entstehen.

1. (Optional) Wählen Sie für **Anwendungen** **Presto** aus.

1. Wählen Sie die Anwendung aus, die Sie auf dem Cluster ausführen.

1. Geben Sie unter **Netzwerk** für **Hardwarekonfiguration** die Hardwarekonfigurationseinstellungen an.
**Wichtig**  
Wählen Sie für **Networking** die VPC aus, auf der Amazon SageMaker Studio Classic ausgeführt wird, und wählen Sie ein privates Subnetz aus.

1. Geben Sie unter **Sicherheit und Zugriff** die Sicherheitseinstellungen an.

1. Wählen Sie **Erstellen** aus.

Ein Tutorial zur Erstellung eines Amazon EMR-Clusters finden Sie unter [Erste Schritte mit Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html). Informationen zu bewährten Methoden für die Konfiguration eines Clusters finden Sie unter [Überlegungen und bewährte Methoden](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha-considerations.html).

**Anmerkung**  
Für bewährte Methoden für die Sicherheit kann Data Wrangler nur Verbindungen zu VPCs in privaten Subnetzen herstellen. Sie können keine Verbindung zum Master-Knoten herstellen, es sei denn, Sie verwenden AWS Systems Manager ihn für Ihre Amazon EMR-Instances. Weitere Informationen finden Sie unter [Sicherung des Zugriffs auf EMR-Cluster mithilfe von AWS Systems Manager](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/).

Sie können derzeit die folgenden Methoden verwenden, um auf einen Amazon EMR-Cluster zuzugreifen:
+ Keine Authentifizierung
+ Lightweight Directory Access Protocol (LDAP)
+ IAM (Laufzeitrolle)

Wenn Sie keine Authentifizierung oder LDAP verwenden, müssen Sie ggf. mehrere Cluster und Amazon-EC2-Instance-Profile erstellen. Wenn Sie Administrator sind, müssen Sie ggf. Benutzergruppen mit unterschiedlichen Zugriffsebenen auf die Daten anlegen. Diese Methoden können zu einem Verwaltungsaufwand führen, der die Verwaltung Ihrer Benutzer erschwert.

Wir empfehlen die Verwendung einer IAM-Laufzeitrolle, mit der sich mehrere Benutzer mit demselben Amazon EMR-Cluster verbinden können. Eine Laufzeitrolle ist eine IAM-Rolle, die Sie einem Benutzer zuweisen können, der eine Verbindung zu einem Amazon EMR-Cluster herstellt. Sie können die IAM-Laufzeitrolle so konfigurieren, dass sie über Berechtigungen verfügt, die für jede Benutzergruppe spezifisch sind.

Verwenden Sie die folgenden Abschnitte, um einen Presto- oder Hive Amazon EMR-Cluster mit aktiviertem LDAP zu erstellen.

------
#### [ Presto ]

**Wichtig**  
Um es AWS Glue als Metastore für Presto-Tabellen zu **verwenden**, wählen Sie Für **Presto-Tabellenmetadaten** verwenden aus, um die Ergebnisse Ihrer Amazon EMR-Abfragen in einem AWS Glue Datenkatalog zu speichern, wenn Sie einen EMR-Cluster starten. Das Speichern der Abfrageergebnisse in einem AWS Glue Datenkatalog kann Ihnen Kosten ersparen.  
Um große Datensätze auf Amazon EMR-Clustern abzufragen, müssen Sie zur Presto-Konfigurationsdatei auf Ihren Amazon EMR-Clustern die folgenden Eigenschaften hinzufügen:  

```
[{"classification":"presto-config","properties":{
"http-server.max-request-header-size":"5MB",
"http-server.max-response-header-size":"5MB"}}]
```
Sie können die Einstellungen für die Konfiguration auch ändern, wenn Sie den Amazon EMR-Cluster starten.  
Die Konfigurationsdatei für Ihren Amazon EMR-Cluster befindet sich unter dem folgenden Pfad: `/etc/presto/conf/config.properties`.

Gehen Sie wie folgt vor, um einen Presto-Cluster mit aktiviertem LDAP zu erstellen.

Gehen Sie wie folgt vor, um einen Cluster zu erstellen.

1. Navigieren Sie zur AWS-Managementkonsole.

1. Geben Sie in die Suchleiste **Amazon EMR** ein.

1. Wählen Sie **Cluster erstellen**.

1. Geben Sie als **Cluster-Name** den Namen Ihres Clusters ein.

1. Wählen Sie als **Veröffentlichung** die veröffentlichte Version des Clusters aus.
**Anmerkung**  
Amazon EMR unterstützt die automatische Beenden für die folgenden Versionen:  
Für 6.x-Versionen: Versionen 6.1.0 oder später
Für 5.x-Versionen die Versionen 5.30.0 oder später
Durch die automatische Beendigung wird verhindert, dass inaktive Cluster ausgeführt werden, damit Ihnen keine Kosten entstehen.

1. Wählen Sie die Anwendung aus, die Sie auf dem Cluster ausführen.

1. Geben Sie unter **Netzwerk** für **Hardwarekonfiguration** die Hardwarekonfigurationseinstellungen an.
**Wichtig**  
Wählen Sie für **Networking** die VPC aus, auf der Amazon SageMaker Studio Classic ausgeführt wird, und wählen Sie ein privates Subnetz aus.

1. Geben Sie unter **Sicherheit und Zugriff** die Sicherheitseinstellungen an.

1. Wählen Sie **Erstellen** aus.

------
#### [ Hive ]

**Wichtig**  
Um es AWS Glue als Metastore für Hive-Tabellen zu verwenden, wählen Sie Für **Hive-Tabellenmetadaten** **verwenden** aus, um die Ergebnisse Ihrer Amazon EMR-Abfragen in einem AWS Glue Datenkatalog zu speichern, wenn Sie einen EMR-Cluster starten. Durch das Speichern der Abfrageergebnisse in einem AWS Glue Datenkatalog können Sie sich vor Gebühren schützen.  
Um große Datensätze auf Amazon EMR-Clustern abfragen zu können, müssen Sie zur Hive-Konfigurationsdatei auf Ihren Amazon EMR-Clustern die folgenden Eigenschaften hinzufügen:  

```
[{"classification":"hive-site", "properties"
:{"hive.resultset.use.unique.column.names":"false"}}]
```
Sie können die Einstellungen für die Konfiguration auch ändern, wenn Sie den Amazon EMR-Cluster starten.  
Die Konfigurationsdatei für Ihren Amazon EMR-Cluster befindet sich unter dem folgenden Pfad: `/etc/hive/conf/hive-site.xml`. Sie können die folgende Eigenschaft angeben und den Cluster neu starten:  

```
<property>
    <name>hive.resultset.use.unique.column.names</name>
    <value>false</value>
</property>
```

Gehen Sie wie folgt vor, um einen Hive-Cluster mit aktiviertem LDAP zu erstellen.

Gehen Sie wie folgt vor, um einen Hive-Cluster mit aktiviertem LDAP zu erstellen.

1. Navigieren Sie zur AWS-Managementkonsole.

1. Geben Sie in die Suchleiste **Amazon EMR** ein.

1. Wählen Sie **Cluster erstellen**.

1. Wählen Sie **Go to advanced options (Zu erweiterten Optionen navigieren)** aus.

1. Wählen Sie für **Release** eine Amazon EMR-Release-Version aus.

1. Die **Hive-**Konfigurationsoption ist standardmäßig ausgewählt. Achten Sie darauf, dass neben der **Hive-**Option ein Kontrollkästchen erscheint.

1. (Optional) Sie können auch **Presto** als Konfigurationsoption auswählen, um sowohl Hive als auch Presto auf Ihrem Cluster zu aktivieren.

1. (Optional) Wählen Sie **Für Hive-Tabellenmetadaten verwenden** aus, um die Ergebnisse Ihrer Amazon EMR-Abfragen in einem AWS Glue Datenkatalog zu speichern. Durch das Speichern der Abfrageergebnisse in einem AWS Glue Katalog können Sie sich vor Gebühren schützen. Weitere Informationen finden Sie unter [Verwenden des AWS Glue Datenkatalogs als Metastore](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html) für Hive.
**Anmerkung**  
Zum Speichern der Abfrageergebnisse in einem Datenkatalog ist Amazon EMR Version 5.8.0 oder später erforderlich.

1. Geben Sie unter **Konfiguration eingeben** den folgenden JSON an:

   ```
   [
     {
       "classification": "hive-site",
       "properties": {
         "hive.server2.authentication.ldap.baseDN": "dc={{example}},dc={{org}}",
         "hive.server2.authentication": "LDAP",
         "hive.server2.authentication.ldap.url": "ldap://{{ldap-server-dns-name}}:389"
       }
     }
   ]
   ```
**Anmerkung**  
Aus Sicherheitsgründen empfehlen wir, SSL für zu aktivieren, HiveServer indem Sie einige Eigenschaften im vorherigen Hive-Site-JSON hinzufügen. Weitere Informationen finden Sie unter [Aktivieren von SSL auf 2. HiveServer](https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.0.1/configuring-wire-encryption/content/enable_ssl_on_hiveserver2.html)

1. Geben Sie die verbleibenden Cluster-Einstellungen an und erstellen Sie einen Cluster.

------

Verwenden Sie die folgenden Abschnitte, um die LDAP-Authentifizierung für Amazon EMR-Cluster zu verwenden, die Sie bereits erstellt haben.

------
#### [ LDAP for Presto ]

Die Verwendung von LDAP auf einem Cluster, auf dem Presto läuft, erfordert Zugriff auf den Presto-Koordinator über HTTPS. Gehen Sie wie folgt vor, um den Zugriff zu gewähren:
+ Aktivieren Sie den Zugriff an Port 636
+ Aktivieren Sie SSL für den Presto-Koordinator

Verwenden Sie die folgende Vorlage, um Presto zu konfigurieren:

```
- Classification: presto-config
     ConfigurationProperties:
        http-server.authentication.type: 'PASSWORD'
        http-server.https.enabled: 'true'
        http-server.https.port: '8889'
        http-server.http.port: '8899'
        node-scheduler.include-coordinator: 'true'
        http-server.https.keystore.path: '/path/to/keystore/path/for/presto'
        http-server.https.keystore.key: {{'keystore-key-password'}}
        discovery.uri: 'http://{{master-node-dns-name}}:8899'
- Classification: presto-password-authenticator
     ConfigurationProperties:
        password-authenticator.name: 'ldap'
        ldap.url: !Sub 'ldaps://{{ldap-server-dns-name}}:636'
        ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org"
        internal-communication.authentication.ldap.user: {{"ldap-user-name"}}
        internal-communication.authentication.ldap.password: {{"ldap-password"}}
```

Informationen zum Einrichten von LDAP in Presto finden Sie in den folgenden Ressourcen:
+ [LDAP-Authentifizierung](https://prestodb.io/docs/current/security/ldap.html)
+ [Verwendung der LDAP-Authentifizierung für Presto in Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-presto-ldap.html)

**Anmerkung**  
Aus Sicherheitsgründen empfehlen wir, SSL für Presto zu aktivieren. Weitere Informationen finden Sie unter [Sichere interne Kommunikation](https://prestodb.io/docs/current/security/internal-communication.html).

------
#### [ LDAP for Hive ]

Gehen Sie wie folgt vor, um LDAP für Hive für einen von Ihnen erstellten Cluster zu verwenden, [Konfigurieren Sie eine Instance-Gruppe in der Konsole neu.](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps-running-cluster.html#emr-configure-apps-running-cluster-considerations)

Sie geben den Namen des Clusters an, mit dem Sie eine Verbindung herstellen.

```
[
  {
    "classification": "hive-site",
    "properties": {
      "hive.server2.authentication.ldap.baseDN": "dc={{example}},dc={{org}}",
      "hive.server2.authentication": "LDAP",
      "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389"
    }
  }
]
```

------

Gehen Sie wie folgt vor, um Daten aus einem Cluster zu importieren.

Gehen Sie wie folgt vor, um Daten aus einem Cluster zu importieren.

1. Öffnen Sie einen Data Wrangler-Ablauf.

1. Wählen Sie **Create Connection (Verbindung erstellen)** aus.

1. Wählen Sie **Amazon EMR** aus.

1. Führen Sie eine der folgenden Aufgaben aus.
   + (Optional) Geben Sie für **Secrets ARN** die Amazon-Ressourcennummer (ARN) der Datenbank innerhalb des Clusters an. Secrets geben zusätzliche Sicherheit. Weitere Informationen zu Geheimnissen finden Sie unter [Was ist AWS Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) Informationen zum Erstellen eines Geheimnisses für Ihren Cluster finden Sie unter [Erstellen eines AWS Secrets Manager Geheimnis für Ihren Cluster](#data-wrangler-emr-secrets-manager).
**Wichtig**  
Sie müssen ein Secret angeben, wenn Sie für die Authentifizierung eine IAM-Laufzeitrolle verwenden.
   + Wählen Sie aus der Dropdown-Tabelle einen Cluster aus.

1. Wählen Sie **Weiter** aus.

1. **Wählen Sie für Wählen Sie einen Endpunkt für den {{example-cluster-name}} Cluster** eine Abfrage-Engine aus.

1. (Optional) Wählen Sie **Verbindung speichern** aus.

1. Wählen Sie **Weiter aus, wählen Sie Anmeldung** und wählen Sie dann eine der folgenden Optionen aus:
   + Keine Authentifizierung
   + LDAP
   + IAM

1. Geben Sie für **Login to {{example-cluster-name}} cluster** den **Benutzernamen** und das **Passwort** für den Cluster an.

1. Wählen Sie **Connect** aus.

1. Geben Sie im Abfrage-Editor eine SQL-Abfrage an.

1. Klicken Sie auf **Ausführen**.

1. Wählen Sie **Importieren** aus.

### Erstellen eines AWS Secrets Manager Geheimnis für Ihren Cluster
<a name="data-wrangler-emr-secrets-manager"></a>

Wenn Sie für den Zugriff auf Ihren Amazon EMR-Cluster eine IAM-Laufzeitrolle verwenden, müssen Sie die Anmeldeinformationen, die Sie für den Zugriff auf Amazon EMR verwenden, als Secrets-Manager-Secret speichern. Sie speichern alle Anmeldeinformationen, die Sie für den Zugriff auf den Cluster verwenden, innerhalb des Secrets.

Sie müssen die folgenden Informationen im Secret speichern:
+ JDBC-Endpunkt – `jdbc:hive2://`
+ DNS-Name – Der DNS-Name Ihres Amazon-EMR-Clusters. Dies ist entweder der Endpunkt für den Primärknoten oder der Hostname.
+ Port – `8446`

Auch die folgenden Zusatzinformationen können Sie innerhalb des Secrets speichern:
+ IAM-Rolle – Die IAM-Rolle, die Sie für den Zugriff auf den Cluster verwenden. Data Wrangler verwendet standardmäßig Ihre SageMaker AI-Ausführungsrolle.
+ Truststore-Pfad – Standardmäßig erstellt Data Wrangler einen Truststore-Pfad für Sie. Außerdem können Sie einen eigenen Truststore-Pfad verwenden. Weitere Informationen zu Truststore-Pfaden finden Sie unter [In-transit Verschlüsselung](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/hs2-encryption-intransit.html) in 2. HiveServer
+ Truststore-Passwort – Standardmäßig erstellt Data Wrangler ein Truststore-Passwort für Sie. Außerdem können Sie einen eigenen Truststore-Pfad verwenden. Weitere Informationen zu Truststore-Pfaden finden Sie unter [In-transit Verschlüsselung in 2. HiveServer](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/hs2-encryption-intransit.html)

Gehen Sie wie folgt vor, um die Anmeldeinformationen in einem Secrets-Manager-Secret zu speichern.

Gehen Sie wie folgt vor, um Ihre Anmeldeinformationen als Secret zu speichern.

1. Navigieren Sie zur AWS-Managementkonsole.

1. Geben Sie im Suchfeld Secrets Manager an.

1. Wählen Sie **AWS Secrets Manager**.

1. Wählen Sie **Store a new secret** (Ein neues Secret speichern).

1. Als **Secret-Typ** wählen Sie **Anderer Secret-Typ** aus.

1. Wählen Sie unter **Key/value**Paare die Option **Plaintext** aus.

1. Für Cluster, auf denen Hive läuft, können Sie für die IAM-Authentifizierung die folgende Vorlage verwenden.

   ```
   {"jdbcURL": ""
    "iam_auth": {"endpoint": "jdbc:hive2://", #required
                   "dns": "ip-{{xx-x-xxx-xxx}}.ec2.internal", #required 
                   "port": "10000", #required
                 "cluster_id": "j-{{xxxxxxxxx}}", #required
                 "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional
                 "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional
                 "truststore_password": "changeit" #optional
                 
                 }}
   ```
**Anmerkung**  
Wenn Sie Ihre Daten importiert haben, wenden Sie Transformationen darauf an. Anschließend exportieren Sie die so transformierten Daten an einen bestimmten Speicherort. Wenn Sie ein Jupyter Notebook verwenden, um Ihre transformierten Daten nach Amazon S3 zu exportieren, müssen Sie den im vorangehenden Beispiel angegebenen Truststore-Pfad verwenden.

Ein Secrets-Manager-Secret speichert die JDBC-URL des Amazon EMR-Clusters als Secret. Die Verwendung eines Secrets ist sicherer als die direkte Eingabe Ihrer Anmeldeinformationen.

Gehen Sie wie folgt vor, um die JDBC-URL als Geheimnis zu speichern.

Gehen Sie wie folgt vor, um die JDBC-URL als Geheimnis zu speichern.

1. Navigieren Sie zur AWS-Managementkonsole.

1. Geben Sie im Suchfeld Secrets Manager an.

1. Wählen Sie **AWS Secrets Manager**.

1. Wählen Sie **Store a new secret** (Ein neues Secret speichern).

1. Als **Secret-Typ** wählen Sie **Anderer Secret-Typ** aus.

1. Geben Sie für **Key/value Paare** `jdbcURL` als Schlüssel und eine gültige JDBC-URL als Wert an.

   Das Format einer gültigen JDBC-URL hängt davon ab, ob Sie die Authentifizierung verwenden und ob Sie Hive oder Presto als Abfrage-Engine verwenden. Die folgende Liste zeigt die gültigen JBDC-URL-Formate für die verschiedenen möglichen Konfigurationen.
   + Hive, keine Authentifizierung – `jdbc:hive2://{{emr-cluster-master-public}}-dns:10000/;`
   + Hive, LDAP-Authentifizierung – `jdbc:hive2://{{emr-cluster-master-public-dns-name}}:10000/;AuthMech=3;UID=david;PWD=welcome123;`
   + Bei Hive mit aktiviertem SSL hängt das JDBC-URL-Format davon ab, ob Sie für die TLS-Konfiguration eine Java-Keystore-Datei verwenden. Die Java-Keystore-Datei hilft dabei, die Identität des Hauptknotens des Amazon EMR-Clusters zu überprüfen. Um eine Java-Keystore-Datei zu verwenden, generieren Sie diese auf einem EMR-Cluster und laden Sie sie auf Data Wrangler hoch. Verwenden Sie den folgenden Befehl auf dem Amazon EMR-Cluster, `keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks`, um eine Datei zu generieren. Informationen zum Ausführen von Befehlen auf einem Amazon EMR-Cluster finden Sie unter [Zugriffs auf EMR-Cluster sichern mithilfe von AWS Systems Manager](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/). Um eine Datei hochzuladen, wählen Sie links auf der Navigationsleiste der Data Wrangler-Benutzeroberfläche den Aufwärtspfeil.

     Im Folgenden sind die gültigen JDBC-URL-Formate für Hive mit aktiviertem SSL aufgeführt:
     + Ohne Java-Keystore-Datei – `jdbc:hive2://{{emr-cluster-master-public-dns}}:10000/;AuthMech=3;UID={{user-name}};PWD={{password}};SSL=1;AllowSelfSignedCerts=1;`
     + Mit Java-Keystore-Datei – `jdbc:hive2://{{emr-cluster-master-public-dns}}:10000/;AuthMech=3;UID={{user-name}};PWD={{password}};SSL=1;SSLKeyStore=/home/sagemaker-user/data/{{Java-keystore-file-name}};SSLKeyStorePwd={{Java-keystore-file-passsword}};`
   + Presto, keine Authentifizierung — jdbc:presto: //:8889/; {{emr-cluster-master-public-dns}}
   + Bei Presto mit aktivierter LDAP-Authentifizierung und SSL hängt das JDBC-URL-Format davon ab, ob Sie für die TLS-Konfiguration eine Java-Keystore-Datei verwenden. Die Java-Keystore-Datei hilft dabei, die Identität des Hauptknotens des Amazon EMR-Clusters zu überprüfen. Um eine Java-Keystore-Datei zu verwenden, generieren Sie diese auf einem EMR-Cluster und laden Sie sie auf Data Wrangler hoch. Um eine Datei hochzuladen, wählen Sie links auf der Navigationsleiste der Data Wrangler-Benutzeroberfläche den Aufwärtspfeil. Informationen zum Erstellen einer Java-Keystore-Datei für Presto finden Sie unter [Java-Keystore-Datei für TLS](https://prestodb.io/docs/current/security/tls.html#server-java-keystore). Informationen zum Ausführen von Befehlen auf einem Amazon EMR-Cluster finden Sie unter [Zugriffs auf EMR-Cluster sichern mithilfe von AWS Systems Manager](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/).
     + Ohne Java-Keystore-Datei – `jdbc:presto://{{emr-cluster-master-public-dns}}:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID={{user-name}};PWD={{password}};AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;`
     + Mit Java-Keystore-Datei – `jdbc:presto://{{emr-cluster-master-public-dns}}:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/{{Java-keystore-file-name}};SSLTrustStorePwd={{Java-keystore-file-passsword}};UID={{user-name}};PWD={{password}};`

Während des Importierens von Daten aus einem Amazon-EMR-Cluster können Probleme auftreten. Informationen zur Fehlerbehebung finden Sie unter [Beheben von Problemen mit Amazon EMR](data-wrangler-trouble-shooting.md#data-wrangler-trouble-shooting-emr).

## Daten aus Databricks importieren (JDBC)
<a name="data-wrangler-databricks"></a>

Sie können Databricks als Datenquelle für Ihren Amazon SageMaker Data Wrangler-Flow verwenden. Um einen Datensatz aus Databricks zu importieren, verwenden Sie die JDBC-Importfunktion (Java Database Connectivity), um auf Ihre Databricks-Datenbank zuzugreifen. Sobald Sie die Datenbank öffnen, geben Sie eine SQL-Abfrage an, um die Daten abzurufen und zu importieren.

Wir gehen davon aus, dass Sie einen laufenden Databricks-Cluster haben und dass Sie Ihren JDBC-Treiber entsprechend konfiguriert haben. Weitere Informationen finden Sie auf den folgenden Seiten mit der Dokumentation zu Databricks:
+ [JDBC-Treiber](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-driver)
+ [JDBC-Konfiguration und Verbindungsparameter](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters)
+ [Authentifizierungsparameter](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#authentication-parameters)

Data Wrangler speichert Ihre JDBC-URL in. AWS Secrets Manager Sie müssen Ihrer Amazon SageMaker Studio Classic IAM-Ausführungsrolle Berechtigungen zur Verwendung von Secrets Manager erteilen. Gehen Sie wie folgt vor, um Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Secrets Manager Berechtigungen zu erteilen.

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die IAM-Konsole unter. [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/)

1. Wählen Sie **Roles**.

1. Geben Sie in der Suchleiste die Amazon SageMaker AI-Ausführungsrolle an, die Amazon SageMaker Studio Classic verwendet.

1. Wählen Sie die Rolle aus.

1. Wählen Sie **Add permissions** (Berechtigungen hinzufügen) aus.

1. Wählen Sie **Inline-Richtlinie erstellen** aus.

1. Geben Sie für **Service** **Secrets Manager** an und wählen Sie ihn aus.

1. Wählen Sie für **Aktionen** das Pfeilsymbol neben **Berechtigungsverwaltung** aus.

1. Wählen Sie **PutResourcePolicy**.

1. Wählen Sie für **Ressourcen** die Option **Spezifisch** aus.

1. Wählen Sie das Kontrollkästchen neben **Alle in diesem Konto** aus.

1. Wählen Sie **Richtlinie prüfen**.

1. Geben Sie für **Name** einen Namen an.

1. Wählen Sie **Richtlinie erstellen** aus.

Sie können Partitionen verwenden, um Ihre Daten schneller zu importieren. Mit Partitionen kann Data Wrangler die Daten parallel verarbeiten. Standardmäßig verwendet Data Wrangler 2 Partitionen. In den meisten Anwendungsfällen bieten Ihnen 2 Partitionen nahezu optimale Datenverarbeitungsgeschwindigkeiten.

Wenn Sie mehr als 2 Partitionen angeben möchten, können Sie auch eine Spalte angeben, um die Daten zu partitionieren. Die Werte in der Spalte müssen vom Typ „Numerisch“ oder „Datum“ sein.

Wir empfehlen, Partitionen nur dann zu verwenden, wenn Sie die Struktur der Daten und deren Verarbeitung kennen.

Sie können entweder den gesamten Datensatz importieren oder eine Stichprobe davon. Für eine Databricks-Datenbank werden die folgenden Optionen für die Probenahme angeboten:
+ Keine – Importiert den gesamten Datensatz.
+ Erstes K – Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.
+ Randomisiert – Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.
+ Stratifiziert – Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Gehen Sie wie folgt vor, um Ihre Daten aus einer Databricks-Datenbank zu importieren.

Gehen Sie wie folgt vor, um Daten aus Databricks zu importieren.

1. Melden Sie sich [bei Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Studio**.

1. Wählen Sie **App starten**.

1. Wählen Sie von der Auswahlliste **Studio** aus.

1. **Wählen Sie in Ihrem **Data Wrangler-Ablauf auf der Registerkarte Daten importieren** die Option Databricks aus.**

1. Geben Sie die folgenden Felder an:
   + **Datensatzname** – Ein Name, den Sie für den Datensatz in Ihrem Data Wrangler-Ablauf verwenden möchten.
   + **Treiber – com.simba.spark.jdbc.Driver****.**
   + **JDBC-URL** – Die URL der Databricks-Datenbank. Die URL-Formatierung kann zwischen den Databricks-Instances variieren. Informationen zum Auffinden der URL und zur Angabe der darin enthaltenen Parameter finden Sie unter [JDBC-Konfiguration und Verbindungsparameter](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters). Im Folgenden finden Sie ein Beispiel dafür, wie eine URL formatiert werden kann: jdbc:spark: //aws-sagemaker-datawrangler.cloud.databricks.com:; transportmode=HTTP; ssl=1; httpPath=//0909-200301-cut318; =3; UID=; PWD=. 443/default sql/protocolv1 o/3122619508517275 AuthMech {{token}} {{personal-access-token}}
**Anmerkung**  
Sie können eine Secret-ARN angeben, die die JDBC-URL enthält, anstatt die JDBC-URL selbst anzugeben. Das Secret muss ein Schlüssel-Wert-Paar mit dem folgenden Format enthalten: `jdbcURL:{{JDBC-URL}}`. Weitere Informationen finden Sie unter [Was ist der Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html).

1. Geben Sie eine SQL SELECT-Anweisung an.
**Anmerkung**  
Data Wrangler unterstützt innerhalb einer Abfrage keine Common-Table-Expressions (CTE) oder temporäre Tabellen.

1. Wählen Sie für **Probenahme** eine Methode zur Probenahme aus.

1. Klicken Sie auf **Ausführen**. 

1. (Optional) Wählen Sie für die **VORSCHAU** die Zahnräder, um die **Partitionseinstellungen** zu öffnen. 

   1. Geben Sie die Anzahl der Partitionen an. Sie können nach Spalten partitionieren, wenn Sie die Anzahl der Partitionen angeben:
     + **Anzahl der Partitionen eingeben** – Geben Sie einen Wert an, der größer als 2 ist.
     + (Optional) **Partitionieren nach Spalten** – Geben Sie die folgenden Felder an. Sie können nur dann nach einer Spalte partitionieren, wenn Sie einen Wert für **Anzahl der Partitionen eingeben** angegeben haben.
       + **Spalte auswählen** – Wählen Sie die Spalte aus, die Sie für die Datenpartition verwenden. Der Datentyp der Spalte muss ein numerisches oder ein Datumsformat haben.
       + **Obergrenze** – Aus den Werten in der Spalte, die Sie angegeben haben, ist die Obergrenze derjenige Wert, den Sie in der Partition verwenden. Der von Ihnen angegebene Wert ändert nichts an den Daten, die Sie importieren. Er wirkt sich nur auf die Geschwindigkeit des Imports aus. Um eine optimale Leistung zu erzielen, geben Sie eine Obergrenze an, die nahe am Maximum für die Spalte liegt.
       + **Untergrenze** – Aus den Werten in der Spalte, die Sie angegeben haben, ist die Untergrenze der Wert, den Sie in der Partition verwenden. Der von Ihnen angegebene Wert ändert nichts an den Daten, die Sie importieren. Er wirkt sich nur auf die Geschwindigkeit des Imports aus. Um eine optimale Leistung zu erzielen, geben Sie eine Untergrenze an, die nahe am Minimum für die Spalte liegt.

1. Wählen Sie **Importieren** aus.

## Daten aus Salesforce Data Cloud importieren
<a name="data-wrangler-import-salesforce-data-cloud"></a>

Sie können Salesforce Data Cloud als Datenquelle in Amazon SageMaker Data Wrangler verwenden, um die Daten in Ihrer Salesforce Data Cloud für maschinelles Lernen vorzubereiten.

Mit Salesforce Data Cloud als Datenquelle in Data Wrangler können Sie schnell eine Verbindung zu Ihren Salesforce-Daten herstellen, ohne eine einzige Zeile Code schreiben zu müssen. Sie können Ihre Salesforce-Daten mit Daten aus jeder anderen Datenquelle in Data Wrangler zusammenführen.

Sobald Sie eine Verbindung mit der Data Cloud hergestellt haben, haben Sie folgende Optionen:
+ Ihre Daten mit integrierten Visualisierungen visualisieren
+ Die Daten verstehen und potenzielle Fehler und Extremwerte identifizieren
+ Die Daten mit mehr als 300 integrierten Transformationen transformieren
+ Die so transformierten Daten exportieren

**Topics**
+ [Administrator-Einrichtung](#data-wrangler-import-salesforce-data-cloud-administrator)
+ [Leitfaden für Datenwissenschaftler](#data-wrangler-salesforce-data-cloud-ds)

### Administrator-Einrichtung
<a name="data-wrangler-import-salesforce-data-cloud-administrator"></a>

**Wichtig**  
Bevor Sie beginnen, stellen Sie sicher, dass Ihre Benutzer Amazon SageMaker Studio Classic Version 1.3.0 oder höher ausführen. Informationen dazu, wie Sie die Version von Studio Classic überprüfen und aktualisieren können, finden Sie unter [Vorbereiten von ML-Daten mit Amazon SageMaker Data Wrangler](data-wrangler.md).

Wenn Sie den Zugriff auf Salesforce Data Cloud einrichten, müssen Sie die folgenden Aufgaben ausführen:
+ Abrufen Ihrer Salesforce-Domain-URL. Salesforce bezieht sich auf die Domain-URL auch als URL Ihrer Organisation.
+ Abrufen von OAuth-Anmeldeinformationen von Salesforce. 
+ Abrufen der Autorisierungs-URL und der Token-URL für Ihre Salesforce-Domain.
+ Erstellen eines AWS Secrets Manager Geheimnisses mit der OAuth-Konfiguration.
+ Erstellen einer Lebenszykluskonfiguration, die Data Wrangler verwendet, um die Anmeldeinformationen aus dem Secret zu lesen.
+ Data Wrangler die Erlaubnis erteilen, das Secret zu lesen.

Wenn Sie die obigen Aufgaben ausgeführt haben, können sich Ihre Benutzer mit OAuth bei der Salesforce Data Cloud anmelden.

**Anmerkung**  
Ihre Benutzer stoßen ggf. auf Probleme, wenn Sie alles eingerichtet haben. Informationen zur Fehlerbehebung finden Sie unter [Fehlerbehebung mit Salesforce](data-wrangler-trouble-shooting.md#data-wrangler-troubleshooting-salesforce-data-cloud).

Gehen Sie wie folgt vor, um die Domain-URL abzurufen.

1. Navigieren Sie zur [Salesforce](login.salesforce.com)-Anmeldeseite.

1. Geben Sie für **Schnellsuche** **Meine Domain** an.

1. Kopieren Sie den Wert von **Meine aktuelle Domain-URL** in eine Textdatei.

1. Fügen Sie am Anfang der URL `https://` hinzu. 

Sobald Sie die Salesforce-Domain-URL erhalten haben, können Sie das folgende Verfahren verwenden, um die Anmeldeinformationen von Salesforce abzurufen und Data Wrangler den Zugriff auf Ihre Salesforce-Daten zu erlauben.

Gehen Sie wie folgt vor, um die Anmeldeinformationen von Salesforce abzurufen und Zugriff auf Data Wrangler zu gewähren.

1. Navigieren Sie zu Ihrer Salesforce-Domain-URL und melden Sie sich bei Ihrem Konto an.

1. Wählen Sie das Zahnradsymbol aus.

1. Geben Sie in der Suchleiste, die nun erscheintn **App Manager** an.

1. Wählen Sie **Neue verbundene App** aus.

1. Geben Sie die folgenden Felder an:
   + Name der verbundenen App – Sie können einen beliebigen Namen angeben. Wir empfehlen jedoch, einen Namen zu wählen, der Data Wrangler enthält. Sie können z. B. **Salesforce Data Cloud Data Wrangler-Integration** angeben.
   + API-Name – Verwenden Sie den Standardwert.
   + Kontakt-E-Mail – Geben Sie Ihre E-Mail-Adresse an.
   + Wählen Sie unter der **API-Überschrift (OAuth-Einstellungen aktivieren)** das Kontrollkästchen aus, um die OAuth-Einstellungen zu aktivieren.
   + Geben Sie für **Callback-URL** die Amazon SageMaker Studio Classic-URL an. Um die URL für Studio Classic abzurufen, greifen Sie von der darauf zu AWS-Managementkonsole und kopieren Sie die URL.

1. Verschieben Sie unter **Ausgewählte OAuth-Bereiche** folgende Elemente aus **Verfügbare OAuth-Bereiche** nach **Ausgewählte OAuth-Bereiche**:
   + Benutzerdaten über APIs verwalten (`api`)
   + Anfragen jederzeit ausführen (`refresh_token`, `offline_access`)
   + Führen Sie ANSI-SQL-Abfragen für Salesforce Data Cloud-Daten durch (`cdp_query_api`)
   + Profildaten der Salesforce Customer Data Platform verwalten (`cdp_profile_api`)

1. Wählen Sie **Speichern**. Wenn Sie Ihre Änderungen gespeichert haben, öffnet Salesforce eine neue Seite.

1. Klicken Sie auf **Continue**

1. Navigieren Sie zu **Verbraucherschlüssel und Secret**.

1. Wählen Sie **Verbraucherdaten verwalten** aus. Salesforce leitet Sie auf eine neue Seite weiter, auf der Sie ggf. die Zwei-Faktor-Authentifizierung passieren müssen.

1. 
**Wichtig**  
Kopieren Sie den Verbraucherschlüssel und das Verbraucher-Secret in einen Texteditor. Diese Informationen brauchen Sie, um die Verbindung zwischen der Data Cloud und Data Wrangler herzustellen.

1. Navigieren Sie zurück zu **Verbundene Apps verwalten**.

1. Navigieren Sie zum **Namen der verbundenen App** und zum Namen Ihrer Anwendung.

1. Wählen Sie **Manage** (Verwalten).

   1. Wählen Sie **Richtlinien bearbeiten** aus.

   1. Ändern Sie **IP-Lockerung** in **IP-Einschränkungen lockern**.

   1. Wählen Sie **Speichern** aus.

Wenn Sie den Zugriff auf Ihre Salesforce Data Cloud gewährt haben, müssen Sie noch Ihren Benutzern Berechtigungen erteilen. Gehen Sie wie folgt vor, um ihnen Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Ihren Benutzern Berechtigungen zu erteilen.

1. Navigieren Sie zur Setup-Homepage.

1. Suchen Sie in der linken Navigationsleiste nach **Benutzern** und wählen Sie den Menüpunkt **Benutzer** aus.

1. Wählen Sie das Hyperlink mit Ihrem Benutzernamen.

1. Navigieren Sie zu **Zuweisungen für den Berechtigungssatz**.

1. Wählen Sie **Zuweisungen bearbeiten**.

1. Fügen Sie die folgenden Berechtigungen hinzu:
   + **Administrator der Kundendatenplattform**
   + **Data-Aware-Spezialist für die Kundendatenplattform**

1. Wählen Sie **Speichern**.

Nachdem Sie die Informationen für Ihre Salesforce-Domäne erhalten haben, müssen Sie die Autorisierungs-URL und die Token-URL für das AWS Secrets Manager Geheimnis abrufen, das Sie erstellen.

Gehen Sie wie folgt vor, um die Autorisierungs-URL und die Token-URL abzurufen.

**Zum Abrufen der Autorisierungs-URL und der Token-URL**

1. Navigieren Sie zu Ihrer Salesforce-Domain-URL.

1. Verwenden Sie eine der folgenden Methoden, um die URLs abzurufen. Wenn Sie eine Linux-Distribution verwenden und `curl` und `jq` installiert haben, empfehlen wir, die Methode zu verwenden, die nur unter Linux funktioniert.
   + (Nur Linux) Geben Sie in Ihrem Terminal den folgenden Befehl an.

     ```
     curl {{salesforce-domain-URL}}/.well-known/openid-configuration | \
     jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \
     jq '.  += { identity_provider: "SALESFORCE", client_id: "{{example-client-id}}", client_secret: "{{example-client-secret}}" }'
     ```
   + 

     1. Navigieren Sie {{{{example-org-URL}}/.well-known/openid-configuration}} in Ihrem Browser zu.

     1. Kopieren Sie `authorization_endpoint` und `token_endpoint` in einen Texteditor.

     1. Erstellen Sie das folgende JSON-Objekt:

        ```
        {
          "identity_provider": "SALESFORCE",
          "authorization_url": "{{example-authorization-endpoint}}", 
          "token_url": "{{example-token-endpoint}}",
          "client_id": "{{example-consumer-key}}",
          "client_secret": "{{example-consumer-secret}}"
        }
        ```

Nachdem Sie das OAuth-Konfigurationsobjekt erstellt haben, können Sie ein AWS Secrets Manager Geheimnis erstellen, in dem es gespeichert wird. Gehen Sie wie folgt vor, um das Secret zu erstellen.

Gehen Sie wie folgt vor, um ein Secret zu erstellen.

1. Navigieren Sie zur [AWS Secrets Manager -Konsole](https://console.aws.amazon.com/secretsmanager/).

1. Wählen Sie **Secret speichern** aus.

1. Wählen Sie **Anderer Geheimnistyp** aus.

1. **Wählen Sie unter **Key/value**Paare die Option Plaintext aus.**

1. Ersetzen Sie das leere JSON durch die folgenden Konfigurationseinstellungen.

   ```
   {
     "identity_provider": "SALESFORCE",
     "authorization_url": "{{example-authorization-endpoint}}", 
     "token_url": "{{example-token-endpoint}}",
     "client_id": "{{example-consumer-key}}",
     "client_secret": "{{example-consumer-secret}}"
   }
   ```

1. Wählen Sie **Weiter** aus.

1. Geben Sie unter **Name des Secrets** den Namen des Secrets an.

1. Wählen Sie unter **Tags** die Option **Hinzufügen** aus.

   1. Geben Sie als **Schlüssel** **sagemaker:partner** an. Wir empfehlen, für **Value** einen Wert anzugeben, der für Ihren Anwendungsfall nützlich sein könnte. Sie können jedoch eine beliebige Angabe machen.
**Wichtig**  
Sie müssen den Schlüssel erstellen. Sie können Ihre Daten nicht aus Salesforce importieren, wenn Sie sie nicht erstellen.

1. Wählen Sie **Weiter** aus.

1. Wählen Sie **Store** (Speichern) aus.

1. Wählen Sie das Secret aus, das Sie erstellt haben.

1. Notieren Sie sich die folgenden Felder:
   + Die Amazon Resource Number (ARN) des Secrets
   + Den Namen des Secrets

Wenn Sie das Geheimnis erstellt haben, müssen Sie Berechtigungen hinzufügen, damit Data Wrangler das Secret lesen kann. Gehen Sie wie folgt vor, um Berechtigungen hinzuzufügen.

Gehen Sie wie folgt vor, um Leseberechtigungen für Data Wrangler hinzuzufügen.

1. Navigieren Sie zur [Amazon SageMaker AI-Konsole](https://console.aws.amazon.com/sagemaker/).

1. Wählen Sie **Domains** aus.

1. Wählen Sie die Domain aus, die Sie für den Zugriff auf Data Wrangler verwenden.

1. Wählen Sie Ihr **Benutzerprofil** aus.

1. Suchen Sie unter **Details** nach der **Ausführungsrolle**. Ihre ARN hat das folgende Format: `arn:aws:iam::111122223333:role/{{example-role}}`. Notieren Sie sich die SageMaker KI-Ausführungsrolle. Innerhalb der ARN geht es um alles nach `role/`.

1. Navigieren Sie zur [IAM-Konsole](https://console.aws.amazon.com/iam).

1. Geben Sie in der **Suchleiste Search IAM** den Namen der SageMaker AI-Ausführungsrolle an.

1. Wählen Sie die Rolle aus.

1. Wählen Sie **Add permissions** (Berechtigungen hinzufügen) aus.

1. Wählen Sie **Inline-Richtlinie erstellen** aus.

1. Wählen Sie den Tab JSON.

1. Geben Sie im Editor die folgende Richtlinie an.

------
#### [ JSON ]

****  

   ```
   {
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue",
                "secretsmanager:PutSecretValue"
            ],
            "Resource": "arn:aws:secretsmanager:*:*:secret:*",
            "Condition": {
                "ForAnyValue:StringLike": {
                    "aws:ResourceTag/sagemaker:partner": "*"
                }
            }
        },
        {
            "Effect": "Allow",
            "Action": [
                "secretsmanager:UpdateSecret"
            ],
            "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*"
        }
    ]
   }
   ```

------

1. Wählen Sie **Review policy** (Richtlinie überprüfen) aus.

1. Geben Sie für **Name** einen Namen an.

1. Wählen Sie **Richtlinie erstellen** aus.

Nachdem Sie Data Wrangler-Berechtigungen zum Lesen des Secrets erteilt haben, müssen Sie Ihrem Amazon SageMaker Studio Classic-Benutzerprofil eine Lifecycle-Konfiguration hinzufügen, die Ihr Secrets Manager-Geheimnis verwendet.

Gehen Sie wie folgt vor, um eine Lebenszykluskonfiguration zu erstellen und es zum Studio-Classic-Profil hinzuzufügen.

Gehen Sie wie folgt vor, um eine Lebenszykluskonfiguration zu erstellen und es zum Studio-Classic-Profil hinzuzufügen.

1. Navigieren Sie zur [Amazon SageMaker AI-Konsole](console.aws.amazon.com/sagemaker).

1. Wählen Sie **Domains** aus.

1. Wählen Sie die Domain aus, die Sie für den Zugriff auf Data Wrangler verwenden.

1. Wählen Sie Ihr **Benutzerprofil** aus.

1. Wenn Sie die folgenden Anwendungen sehen, löschen Sie sie:
   + KernelGateway
   + JupyterKernel
**Anmerkung**  
Durch das Löschen der Anwendungen wird Studio Classic aktualisiert. Es kann eine Weile dauern, bis die Updates erfolgen.

1. Während Sie auf die Updates warten, wählen Sie **Lebenszykluskonfigurationen** aus.

1. Vergewissern Sie sich, dass auf der Seite, auf der Sie sich befinden, **Lebenszykluskonfigurationen von Studio Classic** steht.

1. Wählen Sie **Create configuration** (Konfiguration erstellen).

1. Achten Sie darauf, dass die **Jupyter-Server-App** ausgewählt wurde.

1. Wählen Sie **Weiter**.

1. Geben Sie für **Name** einen Namen für die Konfiguration an.

1. Geben Sie für **Skripte** das folgende Skript an:

   ```
   #!/bin/bash
   set -eux
   
   cat > ~/.sfgenie_identity_provider_oauth_config <<EOL
   {
       "secret_arn": "{{secrets-arn-containing-salesforce-credentials}}"
   }
   EOL
   ```

1. Wählen Sie **Absenden** aus.

1. Wählen Sie in der Navigation links **Domains** aus.

1. Wählen Sie Ihre Domain aus.

1. Wählen Sie **Environment** (Umgebung) aus.

1. Wählen Sie unter **Lebenszykluskonfigurationen für persönliche Studio-Apps** die Option **anfügen** aus. 

1. Wählen Sie **Vorhandene Konfiguration** aus.

1. Wählen Sie unter **Lebenszykluskonfigurationen von Studio Classic** die Lebenszykluskonfiguration aus, die Sie erstellt haben.

1. Wählen Sie **An Domain anhängen** aus.

1. Aktivieren Sie das Kontrollkästchen neben der Lebenszykluskonfiguration, die Sie angehängt haben.

1. Wählen Sie **Als Standard festlegen** aus.

Beim Einrichten Ihrer Lebenszykluskonfiguration können Probleme auftreten. Informationen zum Debuggen finden Sie unter [Debuggen von Lebenszykluskonfigurationen in Amazon SageMaker Studio Classic](studio-lcc-debug.md).

### Leitfaden für Datenwissenschaftler
<a name="data-wrangler-salesforce-data-cloud-ds"></a>

Gehen Sie wie folgt vor, um Salesforce Data Cloud mit Data Wrangler zu verbinden und von dort aus auf Ihre Daten zuzugreifen.

**Wichtig**  
Ihr Administrator muss die Informationen in den vorangehenden Abschnitten verwenden, um Salesforce Data Cloud einzurichten. Wenn Probleme auftreten, wenden Sie sich an Ihren Administrator, um Hilfe bei der Fehlerbehebung zu erhalten.

Gehen Sie wie folgt vor, um Studio Classic zu öffnen und die Version zu überprüfen.

1. Gehen Sie wie unter beschrieben vor[Voraussetzungen](data-wrangler-getting-started.md#data-wrangler-getting-started-prerequisite), um über Amazon SageMaker Studio Classic auf Data Wrangler zuzugreifen.

1. Wählen Sie neben dem Benutzer, den Sie zum Starten von Studio Classic verwenden möchten, die Option **App starten** aus.

1. Wählen Sie **Studio**.

**Um in Data Wrangler einen Datensatz mit Daten aus der Salesforce Data Cloud zu erstellen**

1. Melden Sie sich [bei Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Studio**.

1. Wählen Sie **App starten**.

1. Wählen Sie in der Auswahlliste **Studio** aus.

1. Wählen Sie das Symbol Startseite aus.

1. Wählen Sie **Daten** aus.

1. Wählen Sie **Data Wrangler**.

1. Wählen Sie **Daten importieren** aus.

1. Wählen Sie unter **Verfügbar** die Option **Salesforce Data Cloud** aus.

1. Geben Sie unter **Name der Verbindung** einen Namen für Ihre Verbindung zur Salesforce Data Cloud an.

1. Geben Sie für **Org URL** die Organisations-URL in Ihrem Salesforce-Konto an. Die URL können Sie von Ihrem Administrator erhalten.

1. Wählen Sie **Connect** aus.

1. Geben Sie Ihre Anmeldeinformationen an, um sich bei Salesforce anzumelden.

Sie können mit der Erstellung eines Datensatzes mithilfe von Daten aus der Salesforce Data Cloud beginnen, sobald Sie eine Verbindung hergestellt haben.

Sobald Sie eine Tabelle ausgewählt haben, können Sie Abfragen schreiben und ausführen. Die Ausgabe zu Ihrer Abfrage wird unter **Abfrageergebnisse** angezeigt.

Wenn Sie sich für die Ausgabe zu Ihrer Abfrage entschieden haben, können Sie nun die Ausgabe zu Ihrer Abfrage in einen Data Wrangler-Ablauf importieren, um Datentransformationen durchzuführen. 

Wenn Sie einen Datensatz erstellt haben, navigieren Sie zu dem Bildschirm **Datenablauf**, um mit der Transformation Ihrer Daten zu beginnen.

## Importieren von Daten aus Snowflake
<a name="data-wrangler-snowflake"></a>

Sie können Snowflake als Datenquelle in Data Wrangler verwenden, um SageMaker Daten in Snowflake für maschinelles Lernen vorzubereiten.

Mit Snowflake als Datenquelle in Data Wrangler können Sie schnell eine Verbindung zu Snowflake herstellen, ohne eine einzige Zeile Code schreiben zu müssen. In Snowflake können Sie Ihre Daten mit Daten aus jeder anderen Datenquelle in Data Wrangler zusammenführen.

Sobald die Verbindung hergestellt ist, können Sie in Snowflake gespeicherte Daten interaktiv abfragen, mehr als 300 vorkonfigurierte Transformationen auf die Daten anwenden, Daten verstehen und potenzielle Fehler und Extremwerte mit einer Reihe robuster vorkonfigurierter Visualisierungsvorlagen identifizieren, schnell Inkonsistenzen in Ihrem Datenvorbereitungsworkflow erkennen und Probleme diagnostizieren, bevor Modelle in der Produktion eingesetzt werden. Schließlich können Sie Ihren Datenvorbereitungs-Workflow nach Amazon S3 exportieren, um ihn mit anderen SageMaker KI-Funktionen wie Amazon SageMaker Autopilot, Amazon SageMaker Feature Store und Amazon SageMaker Pipelines zu verwenden.

Sie können die Ausgabe Ihrer Abfragen mit einem von Ihnen erstellten AWS Key Management Service Schlüssel verschlüsseln. Weitere Informationen zu finden Sie AWS KMS unter [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

**Topics**
+ [Administratorhandbuch](#data-wrangler-snowflake-admin)
+ [Leitfaden für Datenwissenschaftler](#data-wrangler-snowflake-ds)

### Administratorhandbuch
<a name="data-wrangler-snowflake-admin"></a>

**Wichtig**  
Weitere Informationen zur detaillierten Zugriffskontrolle und zu bewährten Methoden finden Sie unter [Security Access Control](https://docs.snowflake.com/en/user-guide/security-access-control.html). 

Dieser Abschnitt richtet sich an Snowflake-Administratoren, die den Zugriff auf Snowflake von Data Wrangler aus einrichten. SageMaker 

**Wichtig**  
Sie sind für die Verwaltung und Überwachung der Zugriffskontrolle in Snowflake verantwortlich. Data Wrangler fügt keine zusätzliche Zugriffskontrollebene für Snowflake hinzu.   
Zur Zugriffskontrolle gehören u.a.:  
Die Daten, auf die ein Benutzer zugreift
(Optional) Die Speicherintegration, mit deren Hilfe Snowflake Abfrageergebnisse in einen Amazon-S3-Bucket schreiben kann
Die Abfragen, die ein Benutzer ausführen kann

#### (Optional) Snowflake-Datenimportberechtigungen konfigurieren
<a name="data-wrangler-snowflake-admin-config"></a>

Standardmäßig fragt Data Wrangler die Daten in Snowflake ab, ohne an einem Amazon S3-Standort eine Kopie davon zu erstellen. Verwenden Sie die folgenden Informationen, wenn Sie eine Speicherintegration in Snowflake konfigurieren. Ihre Benutzer können eine Speicherintegration verwenden, um ihre Abfrageergebnisse an einem Amazon S3-Standort zu speichern.

Ihre Benutzer haben ggf. unterschiedliche Zugriffsebenen für sensible Daten. Für eine optimale Sicherheit der Daten sollten Sie für jeden Benutzer eine eigene Speicherintegration anlegen. Für jede Speicherintegration sollte eine eigene Datenverwaltungsrichtlinie gelten.

Diese Funktion steht in den Opt-in-Regionen derzeit nicht zur Verfügung.

Snowflake benötigt die folgenden Berechtigungen für einen S3-Bucket und ein Verzeichnis, um auf Dateien im Verzeichnis zugreifen zu können:
+ `s3:GetObject`
+ `s3:GetObjectVersion`
+ `s3:ListBucket`
+ `s3:ListObjects`
+ `s3:GetBucketLocation`

**Eine IAM-Richtlinie erstellen**

Sie müssen eine IAM-Richtlinie erstellen, um Zugriffsberechtigungen für Snowflake zum Laden und Entladen von Daten aus einem Amazon-S3-Bucket zu konfigurieren.

Im Folgenden finden Sie das JSON-Richtliniendokument, das Sie zur Erstellung der Richtlinie verwenden:

```
# Example policy for S3 write access
# This needs to be updated
{
"Version": "2012-10-17",		 	 	 
"Statement": [
  {
    "Effect": "Allow",
    "Action": [
        "s3:PutObject",
        "s3:GetObject",
        "s3:GetObjectVersion",
        "s3:DeleteObject",
        "s3:DeleteObjectVersion"
    ],
    "Resource": "arn:aws:s3:::{{bucket}}/{{prefix}}/*"
  },
  {
    "Effect": "Allow",
    "Action": [
        "s3:ListBucket"
    ],
    "Resource": "arn:aws:s3:::{{bucket/}}",
    "Condition": {
        "StringLike": {
            "s3:prefix": ["{{prefix}}/*"]
        }
    }
  }
 ]
}
```

Informationen und Verfahren zum Erstellen von Richtlinien mit Richtliniendokumenten finden Sie unter [IAM-Richtlinien erstellen](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html).

Eine Dokumentation, die einen Überblick über die Verwendung von IAM-Berechtigungen mit Snowflake bietet, finden Sie in den folgenden Ressourcen:
+ [Was ist IAM?](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html)
+ [Erstellen Sie die IAM-Rolle in AWS](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-2-create-the-iam-role-in-aws)
+ [Erstellen Sie eine Cloud-Speicherintegration in Snowflake](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-3-create-a-cloud-storage-integration-in-snowflake)
+ [Rufen Sie den AWS IAM-Benutzer für Ihr Snowflake-Konto ab](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-4-retrieve-the-aws-iam-user-for-your-snowflake-account)
+ [Erteilen Sie dem IAM-Benutzer Berechtigungen für den Zugriff auf den Bucket.](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-5-grant-the-iam-user-permissions-to-access-bucket-objects)

Um der Snowflake-Rolle des Datenwissenschaftlers die Nutzungsberechtigung für die Speicherintegration zu erteilen, müssen Sie `GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;` ausführen.
+ `integration_name` ist der Name Ihrer Speicherintegration.
+ `snowflake_role` ist der Name der [Snowflake-Standardrolle](https://docs.snowflake.com/en/user-guide/security-access-control-overview.html#roles), die dem Datenwissenschaftler als Benutzer zugewiesen wurde.

#### Snowflake OAuth-Zugang einrichten
<a name="data-wrangler-snowflake-oauth-setup"></a>

Anstatt Ihre Benutzer ihre Anmeldeinformationen direkt in Data Wrangler eingeben zu lassen, können Sie sie für den Zugriff auf Snowflake einen Identitätsanbieter verwenden lassen. Im Folgenden finden Sie Links zur Snowflake-Dokumentation für die von Data Wrangler unterstützten Identitätsanbieter.
+ [Azure AD](https://docs.snowflake.com/en/user-guide/oauth-azure.html)
+ [Okta](https://docs.snowflake.com/en/user-guide/oauth-okta.html)
+ [Ping Federate](https://docs.snowflake.com/en/user-guide/oauth-pingfed.html)

Verwenden Sie die Dokumentation unter den obigen Links, um den Zugang zu Ihrem Identitätsanbieter einzurichten. Mit Hilfe der in diesem Abschnitt beschriebenen Informationen und Verfahren verstehen Sie leichter, wie Sie die Dokumentation für den Zugriff auf Snowflake in Data Wrangler richtig verwenden.

Ihr Identitätsanbieter muss Data Wrangler als Anwendung erkennen. Gehen Sie wie folgt vor, um Data Wrangler als Anwendung beim Identitätsanbieter zu registrieren:

1. Wählen Sie die Konfiguration aus, die den Registrierungsprozess für Data Wrangler als Anwendung startet.

1. Gewähren Sie den Benutzern innerhalb des Identitätsanbieters Zugriff auf Data Wrangler.

1. Aktivieren Sie die OAuth-Clientauthentifizierung, indem Sie die Client-Anmeldeinformationen geheim speichern. AWS Secrets Manager 

1. Geben Sie eine Umleitungs-URL im folgenden Format an: https://{{domain-ID}}.studio. {{AWS-Region}}.sagemaker. aws/jupyter/default/lab
**Wichtig**  
Sie geben die Amazon SageMaker AI-Domain-ID an AWS-Region , mit der Sie Data Wrangler ausführen.
**Wichtig**  
Sie müssen für jede Amazon SageMaker AI-Domain und für den Ort, AWS-Region an dem Sie Data Wrangler ausführen, eine URL registrieren. Benutzer aus einer Domain, für AWS-Region die keine Weiterleitungs-URLs eingerichtet sind, können sich nicht beim Identitätsanbieter authentifizieren, um auf die Snowflake-Verbindung zuzugreifen.

1. Vergewissern Sie sich, dass die Gewährungstypen für den Berechtigungscode und das Refresh-Token für die Anwendung Data Wrangler zulässig sind.

Innerhalb Ihres Identitätsanbieters müssen Sie einen Server einrichten, der OAuth-Token auf Benutzerebene an Data Wrangler sendet. Der Server sendet die Token mit Snowflake als Zielgruppe.

Snowflake verwendet das Konzept von Rollen, bei denen es sich um unterschiedliche Rollen handelt, in denen die IAM-Rollen verwendet werden. AWS Sie müssen den Identitätsanbieter so konfigurieren, dass er eine beliebige Rolle verwendet, um die dem Snowflake-Konto zugeordnete Standardrolle zu verwenden. Wenn ein Benutzer z. B. `systems administrator` als Standardrolle in seinem Snowflake-Profil hat, wird für die Verbindung von Data Wrangler zu Snowflake `systems administrator` als Rolle verwendet.

Gehen Sie wie folgt vor, um den Server einzurichten.

Gehen Sie wie folgt vor, um den Server einzurichten. Sie arbeiten für alle außer dem letzten Schritte in Snowflake.

1. Beginnen Sie damit, den Server oder die API einzurichten.

1. Konfigurieren Sie den Autorisierungsserver so, dass er die Gewährungstypen Autorisierungscode und Aktualisierungstoken verwendet.

1. Geben Sie die Lebensdauer des Zugriffstokens an.

1. Legen Sie die Leerlaufzeitüberschreitung für das Aktualisierungstoken fest. Die Leerlaufzeitüberschreitung ist die Zeitdauer, nach der das Aktualisierungstoken abläuft, wenn es nicht verwendet wird.
**Anmerkung**  
Wenn Sie Jobs in Data Wrangler planen, empfehlen wir, die Leerlaufzeitüberschreitung länger als die Häufigkeit des Verarbeitungsauftrags festzulegen. Andernfalls könnten manche Verarbeitungsaufträge fehlschlagen, weil das Aktualisierungstoken abgelaufen ist, bevor der Auftrag ausgeführt werden konnte. Wenn das Aktualisierungstoken abläuft, muss sich der Benutzer erneut authentifizieren, indem er auf die Verbindung zugreift, die er über Data Wrangler zu Snowflake hergestellt hat.

1. Geben Sie `session:role-any` als neuen Bereich an.
**Anmerkung**  
Kopieren Sie für Azure AD die eindeutige Kennung für den Bereich. Data Wrangler verlangt von Ihnen, dass Sie ihm die Kennung zur Verfügung stellen.

1. 
**Wichtig**  
Aktivieren Sie `external_oauth_any_role_mode` innerhalb der externen OAuth-Sicherheitsintegration für Snowflake.

**Wichtig**  
Data Wrangler unterstützt keine rotierenden Aktualisierungstoken. Die Verwendung rotierender Aktualisierungstoken kann dazu führen, dass der Zugriff fehlschlägt oder der Benutzer sich häufig anmelden muss.

**Wichtig**  
Wenn der Aktualisierungstoken abläuft, müssen sich Ihre Benutzer erneut authentifizieren, indem sie auf die Verbindung zugreifen, die sie über Data Wrangler zu Snowflake hergestellt haben.

Wenn Sie den OAuth-Anbieter eingerichtet haben, stellen Sie Data Wrangler die für die Verbindung mit dem Anbieter erforderlichen Informationen zur Verfügung. Sie können die Dokumentation Ihres Identitätsanbieters verwenden, um Werte für die folgenden Felder abzurufen:
+ Token-URL – Die URL des Tokens, das der Identitätsanbieter an Data Wrangler sendet.
+ Autorisierungs-URL – Die URL des Autorisierungsservers des Identitätsanbieters.
+ Client-ID – Die ID des Identitätsanbieters.
+ Client-Secret – Das Secret, das nur der Autorisierungsserver oder die API erkennen.
+ (Nur Azure AD) Die Anmeldeinformationen für den OAuth-Bereich, die Sie kopiert haben.

Sie speichern die Felder und Werte in einem AWS Secrets Manager Geheimnis und fügen es der Amazon SageMaker Studio Classic-Lebenszykluskonfiguration hinzu, die Sie für Data Wrangler verwenden. Eine Lebenszykluskonfiguration ist ein Shell-Skript. Damit können Sie Data Wrangler den Amazon Resource Name (ARN) des Secrets zugänglich zu machen. Informationen zum Erstellen von Geheimnissen finden Sie unter [Hartcodierte Geheimnisse verschieben nach](https://docs.aws.amazon.com/secretsmanager/latest/userguide/hardcoded.html). AWS Secrets Manager Informationen zur Verwendung von Lebenszykluskonfigurationen in Studio Classic finden Sie unter [Verwenden Sie Lebenszykluskonfigurationen, um Amazon SageMaker Studio Classic anzupassen](studio-lcc.md).

**Wichtig**  
Bevor Sie ein Secrets Manager-Geheimnis erstellen, stellen Sie sicher, dass die SageMaker AI-Ausführungsrolle, die Sie für Amazon SageMaker Studio Classic verwenden, über Berechtigungen zum Erstellen und Aktualisieren von Geheimnissen in Secrets Manager verfügt. Weitere Informationen zum Hinzufügen von Berechtigungen finden Sie unter [Beispiel: Berechtigung zum Erstellen von Secrets.](https://docs.aws.amazon.com/secretsmanager/latest/userguide/auth-and-access_examples.html#auth-and-access_examples_create)

Für Okta und Ping Federate ist das folgende das Format des Secrets:

```
{
    "token_url":"https://{{identityprovider}}.com/oauth2/{{example-portion-of-URL-path}}/v2/token",
    "client_id":"{{example-client-id}}",
    "client_secret":"{{example-client-secret}}",
    "identity_provider":"{{OKTA}}"|"{{PING_FEDERATE}}",
    "authorization_url":"https://{{identityprovider}}.com/oauth2/{{example-portion-of-URL-path}}/v2/authorize"
}
```

Für Azure AD ist das folgende Format für das Secret vorgesehen:

```
{
    "token_url":"https://{{identityprovider}}.com/oauth2/{{example-portion-of-URL-path}}/v2/token",
    "client_id":"{{example-client-id}}",
    "client_secret":"{{example-client-secret}}",
    "identity_provider":"AZURE_AD",
    "authorization_url":"https://{{identityprovider}}.com/oauth2/{{example-portion-of-URL-path}}/v2/authorize",
    "datasource_oauth_scope":"api://appuri/{{session:role-any}})"
}
```

Sie müssen über eine Lebenszykluskonfiguration verfügen, die das Secrets-Manager-Secret verwendet, das Sie erstellt haben. Sie können entweder die Lebenszykluskonfiguration erstellen oder eine bereits erstellte ändern. Die Konfiguration muss das folgende Skript verwenden.

```
#!/bin/bash

set -eux

## Script Body

cat > ~/.snowflake_identity_provider_oauth_config <<EOL
{
    "secret_arn": "{{example-secret-arn}}"
}
EOL
```

Informationen zur Einrichtung von Lebenszykluskonfigurationen finden Sie unter [Eine Lifecycle-Konfiguration erstellen und mit Amazon SageMaker Studio Classic verknüpfen](studio-lcc-create.md). Gehen Sie beim Einrichten wie folgt vor:
+ Stellen Sie den Anwendungstyp der Konfiguration auf `Jupyter Server` ein.
+ Hängen Sie die Konfiguration an die Amazon SageMaker AI-Domain an, die Ihre Benutzer hat.
+ Lassen Sie die Konfiguration standardmäßig ausführen. Sie muss jedes Mal ausgeführt werden, wenn sich ein Benutzer bei Studio Classic anmeldet. Andernfalls sind die in der Konfiguration gespeicherten Anmeldeinformationen für Ihre Benutzer nicht verfügbar, wenn sie Data Wrangler verwenden.
+ Die Lebenszykluskonfiguration erstellt eine Datei mit dem Namen `snowflake_identity_provider_oauth_config` im Home-Ordner des Benutzers. Die Datei enthält das Secrets-Manager-Secret. Vergewissern Sie sich, dass es sich bei jeder Initialisierung der Jupyter Server-Instance im Home-Ordner des Benutzers befindet.

#### Private Konnektivität zwischen Data Wrangler und Snowflake über AWS PrivateLink
<a name="data-wrangler-security-snowflake-vpc"></a>

In diesem Abschnitt wird erklärt, wie Sie AWS PrivateLink eine private Verbindung zwischen Data Wrangler und Snowflake herstellen können. Die einzelnen Schritte werden in den folgenden Abschnitten erläutert. 

##### Erstellen einer VPC
<a name="data-wrangler-snowflake-snowflake-vpc-setup"></a>

Wenn Sie keine VPC eingerichtet haben, folgen Sie den Anweisungen unter [Neue VPC erstellen](https://docs.aws.amazon.com/directoryservice/latest/admin-guide/gsg_create_vpc.html#create_vpc), um eine zu erstellen.

Sobald Sie eine VPC ausgewählt haben, die Sie zur Herstellung einer privaten Verbindung verwenden möchten, geben Sie Ihrem Snowflake-Administrator die folgenden Anmeldeinformationen zur Aktivierung an AWS PrivateLink:
+ VPC-ID
+ AWS Konto-ID
+ Ihre entsprechende Konto-URL, mit der Sie auf Snowflake zugreifen

**Wichtig**  
Wie in der Snowflake-Dokumentation beschrieben, kann die Aktivierung Ihres Snowflake-Kontos bis zu zwei Werktage dauern. 

##### Richten Sie Snowflake ein AWS PrivateLink Integration
<a name="data-wrangler-snowflake-snowflake-vpc-privatelink-setup"></a>

Rufen Sie nach AWS PrivateLink der Aktivierung die AWS PrivateLink Konfiguration für Ihre Region ab, indem Sie den folgenden Befehl in einem Snowflake-Arbeitsblatt ausführen. Melden Sie sich bei Ihrer Snowflake-Konsole an und geben Sie unter **Arbeitsblätter** Folgendes ein: `select SYSTEM$GET_PRIVATELINK_CONFIG();` 

1. Rufen Sie die Werte für Folgendes ab: `privatelink-account-name`, `privatelink_ocsp-url`, `privatelink-account-url` und `privatelink_ocsp-url` aus dem resultierenden JSON-Objekt. Beispiele für jeden dieser Werte sind im folgenden Ausschnitt gezeigt. Speichern Sie diese Werte zur späteren Verwendung.

   ```
   privatelink-account-name: xxxxxxxx.region.privatelink
   privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx
   privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com
   privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
   ```

1. Wechseln Sie zu Ihrer AWS Konsole und navigieren Sie zum VPC-Menü.

1. Wählen Sie im linken Bereich das Link **Endpunkte** aus, um zur Einrichtung der **VPC-Endpunkte** zu gelangen.

   Wählen Sie dort **Endpunkt erstellen** aus. 

1. Wählen Sie die Optionsschaltfläche für **Dienst nach Name suchen** aus, wie im folgenden Screenshot gezeigt.   
![Der Abschnitt Endpunkt erstellen in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-radio.png)

1. Fügen Sie im Feld **Dienstname** den Wert für `privatelink-vpce-id`, den Sie im vorangehenden Schritt abgerufen haben, und wählen Sie **Überprüfen** aus. 

   Wenn die Verbindung erfolgreich ist, erscheint auf Ihrem Bildschirm eine grüne Warnung mit der Meldung **Dienstname gefunden**, und die Optionen für **VPC** und **Subnetz** werden automatisch erweitert, wie im folgenden Screenshot gezeigt. Je nach Ihrer Zielregion wird auf dem dann angezeigten Bildschirm ggf. der Name einer anderen AWS -Region angezeigt.   
![Im Bereich „Endpunkt erstellen“ in der Konsole wird angezeigt, dass die Verbindung erfolgreich hergestellt wurde.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-service-name-found.png)

1. Wählen Sie dieselbe VPC-ID, die Sie an Snowflake gesendet haben, von der Auswahlliste **VPC** aus.

1. Wenn Sie noch kein Subnetz erstellt haben, folgen Sie den folgenden Anweisungen zum Erstellen eines Subnetzes. 

1. Wählen Sie **Subnetze** von der Auswahlliste **VPC** aus. Wählen Sie dann **Subnetz erstellen** aus und folgen Sie den Anweisungen, um in Ihrer VPC eine Teilmenge zu erstellen. Achten Sie darauf, dass Sie auch diejenige VPC-ID auswählen, die Sie an Snowflake gesendet haben. 

1. Wählen Sie unter **Konfiguration von Sicherheitsgruppen** die Option **Neue Sicherheitsgruppe erstellen** aus, um das Standardfenster für **Sicherheitsgruppen** auf einer neuen Registerkarte zu öffnen. Wählen Sie auf dieser neuen Registerkarte die Option **Sicherheitsgruppe erstellen** aus. 

1. Geben Sie einen Namen für die neue Sicherheitsgruppe (z. B. `datawrangler-doc-snowflake-privatelink-connection`) und eine Beschreibung ein. Achten Sie darauf, die VPC-ID auszuwählen, die Sie in den vorangehenden Schritten verwendet haben. 

1. Fügen Sie zwei Regeln hinzu, um Datenverkehr von innerhalb Ihrer VPC zu diesem VPC-Endpunkt zuzulassen. 

   Navigieren Sie auf einer separaten Registerkarte unter **Ihre VPCs** zu Ihrer VPC und rufen Sie Ihren CIDR-Block für Ihre VPC ab. Wählen Sie dann im Abschnitt **Regeln für eingehenden Datenverkehr** die Option **Regel hinzufügen** aus. Wählen Sie als Typ `HTTPS` aus, belassen Sie im Formular **Quelle** als **Benutzerdefiniert** und fügen Sie den beim vorangehenden `describe-vpcs` Aufruf abgerufenen Wert ein (z. B. `10.0.0.0/16`). 

1. Wählen Sie **Sicherheitsgruppen erstellen** aus. Rufen Sie die **ID der Sicherheitsgruppe** aus der neu erstellten Sicherheitsgruppe ab (z. B. `sg-xxxxxxxxxxxxxxxxx`).

1. Entfernen Sie im Konfigurationsbildschirm **VPC-Endpunkte** die Standardsicherheitsgruppe. Fügen Sie die ID der Sicherheitsgruppe in das Suchfeld ein und aktivieren Sie das Kontrollkästchen.  
![Der Abschnitt Sicherheitsgruppe in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-security-group.png)

1. Wählen Sie **Endpunkt erstellen** aus. 

1. Wenn die Endpunkterstellung erfolgreich ist, sehen Sie eine Seite mit einem Link zur Konfiguration Ihres VPC-Endpunktes, die durch die VPC-ID angegeben ist. Wählen Sie das Link aus, damit die gesamte Konfiguration angezeigt wird.   
![Der Abschnitt mit den Endpunktdetails.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-success-endpoint.png)

   Rufen Sie den obersten Eintrag auf der Liste mit den DNS-Namen ab. Dieser Name kann von anderen DNS-Namen unterschieden werden, da er nur den Namen der Region (z. B. `us-west-2`) und keine Bezeichnung mit einem Buchstaben für die Availability Zone (z. B. `us-west-2a`) enthält. Speichern Sie diese Informationen zur späteren Verwendung.

##### DNS für Snowflake-Endpunkte in Ihrer VPC konfigurieren
<a name="data-wrangler-snowflake-vpc-privatelink-dns"></a>

In diesem Abschnitt wird erklärt, wie DNS für Snowflake-Endpunkte in Ihrer VPC konfiguriert werden. Damit kann Ihre VPC Anfragen an den AWS PrivateLink Snowflake-Endpunkt auflösen. 

1. Navigieren Sie in Ihrer AWS Konsole zum [Route 53 53-Menü](https://console.aws.amazon.com/route53).

1. Wählen Sie die Option **Gehostete Zonen** (erweitern Sie ggf. links das Menü, um diese Option zu finden).

1. Wählen Sie **Create Hosted Zone**.

   1. Schauen Sie im Feld **Domainname** den Wert nach, der in den vorangehenden Schritten für `privatelink-account-url` gespeichert wurde. In diesem Feld wird Ihre Snowflake-Konto-ID aus dem DNS-Namen entfernt und es wird nur der Wert verwendet, der mit der Regionskennung beginnt. Später wird auch ein **Resource Record Set** für die Subdomain erstellt, z. B. `region.privatelink.snowflakecomputing.com`

   1. Wählen Sie die Optionsschaltfläche für **Private Hosted Zone** im Abschnitt **Typ** aus. Der Code für Ihre Region ist ggf. nicht`us-west-2`. Schauen Sie den DNS-Namen nach, den Sie von Snowflake erhalten haben.  
![Die Seite Gehostete Zone erstellen in der Konsole:](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-create-hosted-zone.png)

   1. Wählen Sie im Abschnitt **Der gehosteten Zone zuzuordnende VPCs** die Region aus, in der sich Ihre VPC befindet, und die VPC-ID, die in den vorangehenden Schritten verwendet wurde.  
![Die VPCs, die der Hosting-Zone zugeordnet werden sollen, in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-vpc-hosted-zone.png)

   1. Wählen Sie **Erstellte gehostete Zone**.

1. Erstellen Sie als Nächstes zwei Datensätze, einen für `privatelink-account-url` und einen für `privatelink_ocsp-url`.
   + Wählen Sie im Menü **Hosted Zone** die Option **Datensätze erstellen** aus.

     1. Geben Sie unter **Datensatzname** nur Ihre Snowflake-Konto-ID ein (die ersten 8 Zeichen in `privatelink-account-url`).

     1. Wählen Sie unter **Datensatztyp** die Option **CNAME** aus.

     1. Geben Sie unter **Wert** den DNS-Namen für den regionalen VPC-Endpunkt ein, den Sie im letzten Schritt im Abschnitt *Snowflake-Integration für AWS PrivateLink einrichten* abgerufen haben.   
![Der Abschnitt „Datensatz schnell erstellen“ in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-quick-create-record.png)

     1. Wählen Sie **Create records** (Datensätze erstellen).

     1. Wiederholen Sie die vorangehenden Schritte für den OCSP-Datensatz, den wir als `privatelink-ocsp-url` wir notiert haben, beginnend mit `ocsp` bis zu der 8-stelligen Snowflake-ID für den Datensatznamen (z. B. `ocsp.xxxxxxxx`).  
![Der Abschnitt „Datensatz schnell erstellen“ in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-quick-create-ocsp.png)

##### Konfigurieren Sie Route 53 Resolver Endpunkt für eingehenden Datenverkehr für Ihre VPC
<a name="data-wrangler-snowflake-vpc-privatelink-route53"></a>

In diesem Abschnitt wird erklärt, wie die Endpunkte für eingehenden Datenverkehr von Route 53 Resolvern für Ihre VPC konfiguriert werden.

1. Navigieren Sie in Ihrer AWS Konsole zum [Route 53 53-Menü](https://console.aws.amazon.com/route53).
   + Wählen Sie links im Bereich **Sicherheit** die Option **Sicherheitsgruppen** aus.

1. Wählen Sie **Sicherheitsgruppen erstellen** aus. 
   + Geben Sie einen Namen für Ihre Sicherheitsgruppe (z. B. `datawranger-doc-route53-resolver-sg`) und eine Beschreibung ein.
   + Wählen Sie die in den vorangehenden Schritten verwendete VPC-ID aus.
   + Erstellen Sie Regeln, die von innerhalb des VPC-CIDR-Blocks DNS über UDP und TCP zulassen.   
![Der Abschnitt „Regeln für eingehende Nachrichten“ in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-inbound-rules.png)
   + Wählen Sie **Sicherheitsgruppen erstellen** aus. Notieren Sie sich die **Sicherheitsgruppen-ID**, da eine Regel hinzugefügt wird, die den Datenverkehr zur Sicherheitsgruppe des VPC-Endpunktes zulässt.

1. Navigieren Sie in Ihrer AWS Konsole zum [Route 53 53-Menü](https://console.aws.amazon.com/route53).
   + Wählen Sie im Bereich **Resolver** die Option **Endpunkt für eingehenden Datenverkehr** aus.

1. Wählen Sie **Endpunkt für eingehenden Datenverkehr erstellen** aus. 
   + Geben Sie einen Namen für den Endpunkt ein.
   + Wählen Sie von der Auswahlliste **VPC in der Region** die VPC-ID aus, die Sie in allen vorangehenden Schritten verwendet haben. 
   + Wählen Sie von der Auswahlliste **Sicherheitsgruppe für diesen Endpunkt** die Sicherheitsgruppen-ID aus Schritt 2 in diesem Abschnitt aus.   
![Der Abschnitt Allgemeine Einstellungen für eingehende Endpunkte in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-inbound-endpoint.png)
   + Wählen Sie im Abschnitt **IP-Adresse** eine Availability Zones aus, wählen Sie ein Subnetz aus und lassen Sie für jede IP-Adresse die Optionsschaltfläche für **Automatisch ausgewählte IP-Adresse verwende** ausgewählt.   
![Der Abschnitt IP-Adresse in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-ip-address-1.png)
   + Wählen Sie **Absenden** aus.

1. Wählen Sie den **Endpunkt für eingehenden Datenverkehr** aus, sobald dieser erstellt wurde.

1. Sobald der Endpunkt für eingehenden Datenverkehr erstellt wurde, notieren Sie sich die beiden IP-Adressen für die Resolver.  
![Der Abschnitt IP-Adressen in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/studio/mohave/snowflake-ip-addresses-2.png)

##### SageMaker KI VPC-Endpunkte
<a name="data-wrangler-snowflake-sagemaker-vpc-endpoints"></a>

 In diesem Abschnitt wird erklärt, wie Sie VPC-Endpoints für Folgendes erstellen: Amazon SageMaker Studio Classic, SageMaker Notebooks, die SageMaker API, SageMaker Runtime Runtime und Amazon SageMaker Feature Store Runtime.

**Eine Sicherheitsgruppe erstellen, die auf alle Endgeräte angewendet wird.**

1. Navigieren Sie in der [Konsole zum EC2-Menü](https://console.aws.amazon.com/ec2). AWS 

1. Wählen Sie im Bereich **Netzwerk und Sicherheit** die Option **Sicherheitsgruppen** aus.

1. Wählen Sie **Sicherheitsgruppe erstellen** aus.

1. Geben Sie einen Namen und eine Beschreibung für die Sicherheitsgruppe an (z. B. `datawrangler-doc-sagemaker-vpce-sg`). Später wird eine Regel hinzugefügt, um Traffic über HTTPS von SageMaker AI zu dieser Gruppe zuzulassen. 

**Endpunkte erstellen**

1. Navigieren Sie in der AWS Konsole zum [VPC-Menü](https://console.aws.amazon.com/vpc).

1. Wählen Sie die Option **Endpunkte** aus.

1. Klicken Sie auf **Create Endpunkt** (Endpunkt erstellen).

1. Suchen Sie nach dem Dienst, indem Sie dessen Namen in das Feld **Suchen** eingeben.

1. Wählen Sie aus der **VPC-Dropdownliste die VPC** aus, in der Ihre AWS PrivateLink Snowflake-Verbindung besteht.

1. Wählen Sie im Abschnitt **Subnetze die Subnetze** aus, die Zugriff auf die Snowflake-Verbindung haben. PrivateLink 

1. Lassen Sie das Kontrollkästchen **DNS-Namen aktivieren** aktiviert.

1. Wählen Sie im Abschnitt **Sicherheitsgruppen** die Sicherheitsgruppe aus, die Sie im vorangehenden Abschnitt erstellt haben.

1. Klicken Sie auf **Endpunkt erstellen**.

**Konfigurieren von Studio Classic und Data Wrangler**

In diesem Abschnitt wird erklärt, wie Studio Classic und Data Wrangler konfiguriert werden.

1. Sicherheitsgruppe konfigurieren.

   1. Navigieren Sie in der AWS Konsole zum Amazon EC2 EC2-Menü.

   1. Wählen Sie im Bereich **Netzwerk und Sicherheit** die Option **Sicherheitsgruppen** aus.

   1. Wählen Sie **Sicherheitsgruppen erstellen** aus. 

   1. Geben Sie einen Namen und eine Beschreibung für Ihre Sicherheitsgruppe an (z. B. `datawrangler-doc-sagemaker-studio`). 

   1. Erstellen Sie die folgenden Regeln für eingehenden Datenverkehr.
      + Die HTTPS-Verbindung zu der Sicherheitsgruppe, die Sie für die PrivateLink Snowflake-Verbindung bereitgestellt haben, die Sie im Schritt Snowflake-Integration *einrichten* erstellt haben. PrivateLink 
      + *Die HTTP-Verbindung zu der Sicherheitsgruppe, die Sie für die PrivateLink Snowflake-Verbindung bereitgestellt haben, die Sie im Schritt Snowflake-Integration einrichten erstellt haben. PrivateLink *
      + Die Sicherheitsgruppe für UDP und TCP für DNS (Port 53) zum Route 53 Resolver-Endpunkt für eingehenden Datenverkehr, die Sie in Schritt 2 von *Route 53 Resolver Endpunkt für eingehenden Datenverkehr konfigurieren* für Ihre VPC erstellen.

   1. Wählen Sie unten rechts in der Ecke die Schaltfläche **Sicherheitsgruppe erstellen**.

1. Studio Classic konfigurieren.
   + Navigieren Sie in der Konsole zum SageMaker AI-Menü. AWS 
   + Wählen Sie auf der linken Konsole die Option **SageMaker AI Studio Classic** aus.
   + Wenn Sie keine Domains konfiguriert haben, wird das Menü **Erste Schritte** angezeigt.
   + Wählen Sie im Menü **Erste Schritte** die Option **Standardeinrichtung** aus.
   + Wählen Sie unter **Authentifizierungsmethode** die Option **AWS Identity and Access Management (IAM)**.
   + Im Menü **Berechtigungen** können Sie je nach Anwendungsfall eine neue Rolle erstellen oder eine bereits vorhandene Rolle verwenden.
     + Wenn Sie **Neue Rolle erstellen** wählen, erhalten Sie die Option, einen S3-Bucket-Namen anzugeben. Außerdem wird eine Richtlinie für Sie erzeugt.
     + Wenn Sie bereits eine Rolle mit Berechtigungen für die S3-Buckets erstellt haben, auf die Sie Zugriff benötigen, wählen Sie die Rolle von der Auswahlliste aus. Dieser Rolle sollte die Richtlinie `AmazonSageMakerFullAccess` angefügt werden.
   + Wählen Sie die Dropdownliste **Netzwerk und Speicher** aus, um die VPC, Sicherheit und Subnetze SageMaker zu konfigurieren, die KI verwendet.
     + Wählen Sie unter **VPC** die VPC aus, in der Ihre PrivateLink Snowflake-Verbindung besteht.
     + Wählen Sie unter **Subnetz (e)** die Subnetze aus, die Zugriff auf die Snowflake-Verbindung haben. PrivateLink
     + Wählen Sie unter **Netzwerkzugriff für Studio Classic** die Option **Nur VPC** aus.
     + Wählen Sie unter **Sicherheitsgruppe(n)** die Sicherheitsgruppe aus, die Sie in Schritt 1 erstellt haben.
   + Wählen Sie **Absenden** aus.

1. Bearbeiten Sie die AI-Sicherheitsgruppe SageMaker .
   + Erstellen Sie die folgenden Regeln für eingehenden Datenverkehr:
     + Port 2049 zu den eingehenden und ausgehenden NFS-Sicherheitsgruppen, die von SageMaker AI in Schritt 2 automatisch erstellt wurden (die Namen der Sicherheitsgruppen enthalten die Studio Classic-Domänen-ID).
     + Zugriff auf alle TCP-Ports zu sich selbst (nur für SageMaker AI for VPC erforderlich).

1. VPC-Endpunkt-Sicherheitsgruppen bearbeiten:
   + Navigieren Sie in der AWS Konsole zum Amazon EC2 EC2-Menü.
   + Suchen Sie die Sicherheitsgruppe, die Sie in einem vorangehenden Schritt erstellt haben.
   + Fügen Sie eine Regel für eingehenden Datenverkehr hinzu, nach der HTTPS-Datenverkehr von der in Schritt 1 erstellten Sicherheitsgruppe zulässig ist.

1. Benutzerprofil erstellen.
   + Wählen Sie im **SageMaker Studio Classic Control Panel** die Option **Benutzer hinzufügen**.
   + Geben Sie einen Benutzernamen an. 
   + Wählen Sie für die **Ausführungsrolle** aus, ob Sie eine neue Rolle erstellen oder eine bereits vorhandene Rolle verwenden möchten.
     + Wenn Sie **Neue Rolle erstellen** auswählen, erhalten Sie die Option, einen Amazon-S3-Bucket-Namen anzugeben, und es wird eine Richtlinie für Sie erzeugt.
     + Wenn Sie bereits eine Rolle mit Berechtigungen für die Amazon-S3-Buckets erstellt haben, auf die Sie Zugriff benötigen, wählen Sie die Rolle von der Auswahlliste aus. Dieser Rolle sollte die Richtlinie `AmazonSageMakerFullAccess` angefügt werden.
   + Wählen Sie **Absenden** aus. 

1. Erstellen Sie einen Datenablauf (folgen Sie hierzu dem Leitfaden für Datenwissenschaftler, der in einem vorangehenden Abschnitt beschrieben wurde). 
   + Geben Sie beim Hinzufügen einer Snowflake-Verbindung anstelle des einfachen Snowflake-Kontonamens den Wert von `privatelink-account-name` (aus dem Schritt * PrivateLinkSnowflake-Integration einrichten*) in das Feld **Snowflake-Kontoname (alphanumerisch)** ein. Alles andere bleibt unverändert.

#### Informationen für den Datenwissenschaftler zur Verfügung stellen
<a name="data-wrangler-snowflake-admin-ds-info"></a>

Stellen Sie dem Datenwissenschaftler die Informationen zur Verfügung, die er für den Zugriff auf Snowflake von Amazon SageMaker AI Data Wrangler aus benötigt.

**Wichtig**  
Ihre Benutzer müssen Amazon SageMaker Studio Classic Version 1.3.0 oder höher ausführen. Informationen dazu, wie Sie die Version von Studio Classic überprüfen und aktualisieren können, finden Sie unter [Vorbereiten von ML-Daten mit Amazon SageMaker Data Wrangler](data-wrangler.md).

1. Damit Ihr Datenwissenschaftler von SageMaker Data Wrangler aus auf Snowflake zugreifen kann, stellen Sie ihm eine der folgenden Informationen zur Verfügung:
   + Für die Basisauthentifizierung einen Snowflake-Kontonamen, einen Benutzernamen und ein Passwort.
   + Für OAuth einen Benutzernamen und ein Passwort beim Identitätsanbieter.
   + Für ARN, das Secrets-Manager-Secret Amazon Resource Name (ARN).
   + Ein Secret, das mit [AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) und dem ARN des Secrets erstellt wurde. Gehen Sie wie folgt vor, um das Secret für Snowflake zu erstellen, wenn Sie diese Option wählen.
**Wichtig**  
Wenn Ihre Datenwissenschaftler die Option **Snowflake-Anmeldeinformationen (Benutzername und Passwort)** verwenden, um eine Verbindung zu Snowflake herzustellen, können Sie die Anmeldeinformationen mit [Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) in einem Secret speichern. Secrets Manager rotiert Secrets im Rahmen eines auf bewährten Methoden basierenden Sicherheitsplans. Das in Secrets Manager erstellte Secret ist nur zugänglich, wenn die Studio-Classic-Rolle konfiguriert wurde, als Sie ein Studio-Classic-Benutzerprofil eingerichtet haben. Hierzu müssen Sie diese Berechtigung, `secretsmanager:PutResourcePolicy`, zu der Richtlinie hinzufügen, die Ihrer Studio-Classic-Rolle zugeordnet ist.  
Es wird dringend empfohlen, dass Sie die Rollenrichtlinie so einschränken, dass sie für verschiedene Gruppen von Studio-Classic-Benutzern verschiedene Rollen verwendet. Sie können weitere ressourcenbasierte Berechtigungen für die Secrets-Manager-Secrets hinzufügen. Bedingungsschlüssel, die Sie verwenden können, finden Sie unter [Secret Policy verwalten](https://docs.aws.amazon.com/secretsmanager/latest/userguide/manage_secret-policy.html).  
Informationen dazu, wie Sie ein Secret erstellen können, finden Sie unter [Secret erstellen](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html). Die von Ihnen erstellten Secrets werden Ihnen in Rechnung gestellt.

1. (Optional) Teilen Sie dem Datenwissenschaftler den Namen der Speicherintegration mit, die Sie mithilfe des Verfahrens [Cloud-Speicherintegration in Snowflake erstellen](                                      https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-3-create-a-cloud-storage-integration-in-snowflake) erstellt haben. Dies ist der Name der neuen Integration und wird `integration_name` in dem von Ihnen ausgeführten `CREATE INTEGRATION` SQL-Befehl aufgerufen, der im folgenden Codeausschnitt dargestellt ist: 

   ```
     CREATE STORAGE INTEGRATION integration_name
     TYPE = EXTERNAL_STAGE
     STORAGE_PROVIDER = S3
     ENABLED = TRUE
     STORAGE_AWS_ROLE_ARN = 'iam_role'
     [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ]
     STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/')
     [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]
   ```

### Leitfaden für Datenwissenschaftler
<a name="data-wrangler-snowflake-ds"></a>

Gehen Sie wie folgt vor, um Snowflake zu verbinden und in Data Wrangler auf Ihre Daten zuzugreifen.

**Wichtig**  
Ihr Administrator muss die Informationen in den vorangehenden Abschnitten verwenden, um Snowflake einzurichten. Wenn Sie Probleme auftreten, wenden Sie sich an Ihren Administrator, um Hilfe bei der Fehlerbehebung zu erhalten.

Eine Verbindung zu Snowflake können Sie wie folgt herstellen:
+ Geben Sie Ihre Snowflake-Anmeldeinformationen (Kontoname, Benutzername und Passwort) in Data Wrangler an. 
+ Angabe eines Amazon Resource Name (ARN) eines Secrets mit den Anmeldeinformationen.
+ Verwendung eines offenen Standards für den Anbieter der Zugriffsdelegation (OAuth), der eine Verbindung zu Snowflake herstellt. Ihr Administrator kann Ihnen Zugriff auf einen der folgenden OAuth-Anbieter gewähren:
  + [Azure AD](https://docs.snowflake.com/en/user-guide/oauth-azure.html)
  + [Okta](https://docs.snowflake.com/en/user-guide/oauth-okta.html)
  + [Ping Federate](https://docs.snowflake.com/en/user-guide/oauth-pingfed.html)

Sprechen Sie mit Ihrem Administrator über die Methode, die Sie für die Verbindung zu Snowflake verwenden müssen.

In den folgenden Abschnitten finden Sie Informationen darüber, wie Sie mit den o.g. Methoden eine Verbindung zu Snowflake herstellen können.

------
#### [ Specifying your Snowflake Credentials ]

**Um aus Snowflake einen Datensatz mit Ihren Anmeldeinformationen in Data Wrangler zu importieren**

1. Melden Sie sich [bei Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Studio**.

1. Wählen Sie **App starten**.

1. Wählen Sie in der Auswahlliste **Studio** aus.

1. Wählen Sie das Symbol Startseite aus.

1. Wählen Sie **Daten** aus.

1. Wählen Sie **Data Wrangler**.

1. Wählen Sie **Daten importieren** aus.

1. **Wählen Sie unter **Verfügbar** die Option Snowflake aus.**

1. Geben Sie unter **Name der Verbindung** einen Namen an, der die Verbindung eindeutig angibt.

1. Wählen Sie als **Authentifizierungsmethode** **Basic** aus Username-Password.

1. Geben Sie für **Snowflake-Kontoname (alphanumerisch)** den vollständigen Namen des Snowflake-Kontos an.

1. Geben Sie unter **Benutzername** den Benutzernamen an, den Sie für den Zugriff auf das Snowflake-Konto verwenden.

1. Geben Sie für **Passwort** das mit dem Benutzernamen verbundene Passwort an.

1. (Optional) Geben Sie für **erweiterte Einstellungen** Folgendes an:
   + **Rolle** – Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.
   + **Speicherintegration** – Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen die S3-URI zur Verfügung gestellt.
   + **KMS-Schlüssel-ID** – Ein von Ihnen erstellter KMS-Schlüssel. Sie können dessen ARN angeben, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

1. Wählen Sie **Connect** aus.

------
#### [ Providing an Amazon Resource Name (ARN) ]

**Um einen Datensatz mit einem ARN aus Snowflake in Data Wrangler zu importieren**

1. Melden Sie sich [bei Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Studio**.

1. Wählen Sie **App starten**.

1. Wählen Sie in der Auswahlliste **Studio** aus.

1. Wählen Sie das Symbol Startseite aus.

1. Wählen Sie **Daten** aus.

1. Wählen Sie **Data Wrangler**.

1. Wählen Sie **Daten importieren** aus.

1. **Wählen Sie unter **Verfügbar** die Option Snowflake aus.**

1. Geben Sie unter **Name der Verbindung** einen Namen an, der die Verbindung eindeutig angibt.

1. Wählen Sie als **Authentifizierungsmethode** **ARN** aus.

1. **Secrets Manager ARN** — Der ARN des AWS Secrets Manager Secrets, der zum Speichern der Anmeldeinformationen verwendet wird, die für die Verbindung mit Snowflake verwendet werden.

1. (Optional) Geben Sie für **erweiterte Einstellungen** Folgendes an:
   + **Rolle** – Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.
   + **Speicherintegration** – Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen die S3-URI zur Verfügung gestellt.
   + **KMS-Schlüssel-ID** – Ein von Ihnen erstellter KMS-Schlüssel. Sie können dessen ARN angeben, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

1. Wählen Sie **Connect** aus.

------
#### [ Using an OAuth Connection ]

**Wichtig**  
Ihr Administrator hat Ihre Studio-Classic-Umgebung so angepasst, dass sie die Funktionalität bietet, die Sie für die Verwendung einer OAuth-Verbindung verwenden. Sie müssen die Jupyter-Serveranwendung ggf. neu starten, um die Funktionalität nutzen zu können.  
Gehen Sie wie folgt vor, um die Jupyter-Serveranwendung zu aktualisieren.  
Wählen Sie in Studio Classic **Datei**
Wählen Sie **Herunterfahren** aus.
Wählen Sie **Server herunterfahren** aus.
Schließen Sie die Registerkarte oder das Fenster, über das Sie auf Studio Classic zugreifen.
Öffnen Sie Studio Classic von der Amazon SageMaker AI-Konsole aus.

**Um aus Snowflake einen Datensatz mit Ihren Anmeldeinformationen in Data Wrangler zu importieren**

1. Melden Sie sich [bei Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Studio**.

1. Wählen Sie **App starten**.

1. Wählen Sie in der Auswahlliste **Studio** aus.

1. Wählen Sie das Symbol Startseite aus.

1. Wählen Sie **Daten** aus.

1. Wählen Sie **Data Wrangler**.

1. Wählen Sie **Daten importieren** aus.

1. **Wählen Sie unter **Verfügbar** die Option Snowflake aus.**

1. Geben Sie unter **Name der Verbindung** einen Namen an, der die Verbindung eindeutig angibt.

1. Wählen Sie als **Authentifizierungsmethode** **OAuth** aus.

1. (Optional) Geben Sie für **erweiterte Einstellungen** Folgendes an:
   + **Rolle** – Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.
   + **Speicherintegration** – Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen die S3-URI zur Verfügung gestellt.
   + **KMS-Schlüssel-ID** – Ein von Ihnen erstellter KMS-Schlüssel. Sie können dessen ARN angeben, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

1. Wählen Sie **Connect** aus.

------

Sie können mit dem Import Ihrer Daten aus Snowflake beginnen, sobald Sie eine Verbindung hergestellt haben.

In Data Wrangler können Sie sich Ihre Data Warehouses, Datenbanken und Schemata sowie das Augensymbol anzeigen lassen, über das Sie sich eine Vorschau Ihrer Tabelle anzeigen lassen können. Wenn Sie das Symbol **Tabellenvorschau** ausgewählt haben, wird die Schemavorschau dieser Tabelle erzeugt. Sie müssen ein Warehouse auswählen, bevor Sie eine Tabellenvorschau sehen können.

**Wichtig**  
Wenn Sie einen Datensatz mit Spalten vom Typ `TIMESTAMP_TZ` oder `TIMESTAMP_LTZ` importieren, fügen Sie `::string` zu den Spaltennamen Ihrer Abfrage hinzu. Weitere Informationen finden Sie unter [So entladen Sie TIMESTAMP\_TZ- und TIMESTAMP\_LTZ-Daten in eine Parquet-Datei](https://community.snowflake.com/s/article/How-To-Unload-Timestamp-data-in-a-Parquet-file).

Wenn Sie ein Data Warehouse, eine Datenbank und ein Schema ausgewählt haben, können Sie nun Abfragen schreiben und diese ausführen. Die Ausgabe zu Ihrer Abfrage wird unter **Abfrageergebnisse** angezeigt.

Wenn Sie sich für die Ausgabe Ihrer Abfrage entschieden haben, können Sie die Ausgabe Ihrer Abfrage in einen Data-Wrangler-Ablauf importieren, um Datentransformationen vorzunehmen. 

Wenn Sie Ihre Daten importiert haben, navigieren Sie zu Ihrem Data-Wrangler-Ablauf und beginnen Sie damit, Transformationen hinzuzufügen. Eine Liste der verfügbaren Transformationen finden Sie unter [Daten transformieren](data-wrangler-transform.md).

## Daten von SaaS-Plattformen (Software-as-a-Service) importieren
<a name="data-wrangler-import-saas"></a>

Mit Data Wrangler können Sie Daten von mehr als vierzig SaaS-Plattformen (Software as a Service) importieren. Um Ihre Daten von Ihrer SaaS-Plattform zu importieren, müssen Sie oder Ihr Administrator Amazon verwenden, AppFlow um die Daten von der Plattform zu Amazon S3 oder Amazon Redshift zu übertragen. Weitere Informationen zu Amazon AppFlow finden Sie unter [Was ist Amazon AppFlow?](https://docs.aws.amazon.com/appflow/latest/userguide/what-is-appflow.html) Wenn Sie Amazon Redshift nicht zu verwenden brauchen, empfehlen wir, die Daten nach Amazon S3 zu übertragen, um das Verfahren zu vereinfachen.

Data Wrangler unterstützt die Übertragung von Daten von den folgenden SaaS-Plattformen:
+ [Amplitude](https://docs.aws.amazon.com/appflow/latest/userguide/amplitude.html)
+ [Asana](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-asana.html)
+ [Braintree](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-braintree.html)
+ [CircleCI](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-circleci.html)
+ [DocuSign Monitor](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-docusign-monitor.html)
+ [Delighted](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-delighted.html)
+ [Domo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-domo.html)
+ [Datadog](https://docs.aws.amazon.com/appflow/latest/userguide/datadog.html)
+ [Dynatrace](https://docs.aws.amazon.com/appflow/latest/userguide/dynatrace.html)
+ [Facebook Ads](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-ads.html)
+ [Facebook Page Insights](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-page-insights.html)
+ [Google Ads](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-ads.html)
+ [Google Analytics 4](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-analytics-4.html)
+ [Google Calendar](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-calendar.html)
+ [Google Search Console](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-search-console.html)
+ [GitHub](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-github.html)
+ [GitLab](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-gitlab.html)
+ [Infor Nexus](https://docs.aws.amazon.com/appflow/latest/userguide/infor-nexus.html)
+ [Instagram Ads](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-instagram-ads.html)
+ [Intercom](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-intercom.html)
+ [JDBC (Sync)](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jdbc.html)
+ [Jira Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jira-cloud.html)
+ [LinkedIn Werbeanzeigen](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html)
+ [Mailchimp](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mailchimp.html)
+ [Marketo](https://docs.aws.amazon.com/appflow/latest/userguide/marketo.html)
+ [Microsoft Dynamics 365](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-dynamics-365.html)
+ [Microsoft Teams](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-teams.html)
+ [Mixpanel](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mixpanel.html)
+ [Okta](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-okta.html)
+ [Oracle HCM](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-oracle-hcm.html)
+ [Paypal Checkout](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-paypal.html)
+ [Pendo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-pendo.html)
+ [Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/salesforce.html)
+ [Salesforce Marketing Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-salesforce-marketing-cloud.html)
+ [Salesforce Pardot](https://docs.aws.amazon.com/appflow/latest/userguide/pardot.html)
+ [SAP OData](https://docs.aws.amazon.com/appflow/latest/userguide/sapodata.html)
+ [SendGrid](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-sendgrid.html)
+ [ServiceNow](https://docs.aws.amazon.com/appflow/latest/userguide/servicenow.html)
+ [Singular](https://docs.aws.amazon.com/appflow/latest/userguide/singular.html)
+ [Slack](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html)
+ [Smartsheet](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-smartsheet.html)
+ [Snapchat Ads](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-snapchat-ads.html)
+ [Stripe](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-stripe.html)
+ [Trend Micro](https://docs.aws.amazon.com/appflow/latest/userguide/trend-micro.html)
+ [Typeform](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-typeform.html)
+ [Veeva](https://docs.aws.amazon.com/appflow/latest/userguide/veeva.html)
+ [WooCommerce](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-woocommerce.html)
+ [Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html)
+ [Zendesk Chat](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-chat.html)
+ [Zendesk Sell](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sell.html)
+ [Zendesk Sunshine](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sunshine.html)
+ [Zoho CRM](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoho-crm.html)
+ [Zoom Meetings](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoom-meetings.html)

Die obige Liste enthält Links zu weiteren Informationen dazu, wie Sie Ihre Datenquelle einrichten müssen. Sie oder Ihr Administrator können auf die obigen Links verweisen, sobald Sie die folgenden Informationen gelesen haben.

Wenn Sie in Ihrem Data-Wrangler-Ablauf zur Registerkarte **Import** navigieren, sehen Sie Datenquellen in den folgenden Abschnitten:
+ **Verfügbar**
+ **Datenquellen einrichten**

Sie können unter **Verfügbar** eine Verbindung zu Datenquellen herstellen, ohne dass eine zusätzliche Konfiguration erforderlich ist. Sie können die Datenquelle auswählen und Ihre Daten importieren.

Für Datenquellen unter **Datenquellen einrichten** müssen Sie oder Ihr Administrator Amazon AppFlow verwenden, um die Daten von der SaaS-Plattform zu Amazon S3 oder Amazon Redshift zu übertragen. Informationen zur Durchführung einer Übertragung finden Sie unter [Amazon AppFlow zur Übertragung Ihrer Daten verwenden](#data-wrangler-import-saas-transfer).

Wenn Sie die Datenübertragung durchgeführt haben, erscheint wird die SaaS-Plattform als Datenquelle unter **Verfügbar**. Sie können sie auswählen und die Daten, die Sie in Data Wrangler übertragen haben, importieren. Die Daten, die Sie übertragen haben, werden als Tabellen angezeigt, die Sie abfragen können.

### Amazon AppFlow zur Übertragung Ihrer Daten verwenden
<a name="data-wrangler-import-saas-transfer"></a>

Amazon AppFlow ist eine Plattform, mit der Sie Daten von Ihrer SaaS-Plattform zu Amazon S3 oder Amazon Redshift übertragen können, ohne Code schreiben zu müssen. Um eine Datenübertragung durchzuführen, verwenden Sie die AWS-Managementkonsole.

**Wichtig**  
Sie müssen sich vergewissern, dass Sie die Berechtigungen für die Durchführung einer Datenübertragung eingerichtet haben. Weitere Informationen finden Sie unter [AppFlow Amazon-Berechtigungen](data-wrangler-security.md#data-wrangler-appflow-permissions).

Sobald Sie die Berechtigungen hinzugefügt haben, können Sie die Daten übertragen. Innerhalb von Amazon AppFlow erstellen Sie einen *Flow* zur Übertragung der Daten. Ein Ablauf besteht aus einer Reihe von Konfigurationen. Sie können damit angeben, ob Sie die Datenübertragung nach einem Zeitplan ausführen oder ob Sie die Daten in separate Dateien partitionieren. Wenn Sie den Ablauf konfiguriert haben, führen Sie ihn aus, um die Daten zu übertragen.

Informationen zum Erstellen eines Flows finden Sie unter [Flows in Amazon erstellen AppFlow](https://docs.aws.amazon.com/appflow/latest/userguide/create-flow.html). Informationen zum Ausführen eines Flows finden Sie unter [Aktivieren eines AppFlow Amazon-Flows](https://docs.aws.amazon.com/appflow/latest/userguide/run-flow.html).

Gehen Sie nach der Übertragung der Daten wie folgt vor, um auf die Daten in Data Wrangler zuzugreifen.
**Wichtig**  
Bevor Sie versuchen, auf Ihre Daten zuzugreifen, vergewissern Sie sich, dass für Ihre IAM-Rolle die folgende Richtlinie gilt:  

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "glue:SearchTables",
            "Resource": [
                "arn:aws:glue:*:*:table/*/*",
                "arn:aws:glue:*:*:database/*",
                "arn:aws:glue:*:*:catalog"
            ]
        }
    ]
}
```
Standardmäßig ist die IAM-Rolle, die Sie für den Zugriff auf Data Wrangler verwenden, die `SageMakerExecutionRole`. Weitere Informationen dazu, wie Richtlinien hinzugefügt werden, finden Sie unter [IAM-Identitätsberechtigungen hinzufügen (Konsole)](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html#add-policies-console).

Gehen Sie wie folgt vor, um eine Verbindung zu einer Datenquelle herzustellen.

1. Melden Sie sich [bei Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Studio**.

1. Wählen Sie **App starten**.

1. Wählen Sie in der Auswahlliste **Studio** aus.

1. Wählen Sie das Symbol Startseite aus.

1. Wählen Sie **Daten** aus.

1. Wählen Sie **Data Wrangler**.

1. Wählen Sie **Daten importieren** aus.

1. Wählen Sie unter **Verfügbar** die Datenquelle aus.

1. Geben Sie im Feld **Name** den Namen der Verbindung ein.

1. (Optional) Wählen Sie **Erweiterte Konfiguration** aus.

   1. Wählen Sie eine **Arbeitsgruppe** aus.

   1. Wenn Ihre Arbeitsgruppe den Amazon S3-Ausgabespeicherort nicht durchgesetzt hat oder wenn Sie keine Arbeitsgruppe verwenden, geben Sie einen Wert für den **Amazon S3-Speicherort für die Abfrageergebnisse** an.

   1. (Optional) Aktivieren Sie für **Datenaufbewahrungsdauer** das Kontrollkästchen, um eine Datenaufbewahrungsdauer festzulegen, und geben Sie die Anzahl der Tage an, für die die Daten gespeichert werden sollen, bevor sie gelöscht werden.

   1. (Optional) Data Wrangler speichert die Verbindung standardmäßig. Sie können das Kontrollkästchen deaktivieren und die Verbindung nicht speichern.

1. Wählen Sie **Connect** aus.

1. Geben Sie eine Abfrage an.
**Anmerkung**  
Als Hilfestellung bei der Angabe einer Abfrage können Sie im linken Navigationsbereich eine Tabelle auswählen. Data Wrangler zeigt den Tabellennamen und eine Vorschau der Tabelle an. Wählen Sie das Symbol neben dem Tabellennamen aus, um den Namen zu kopieren. Den Tabellennamen können Sie in der Abfrage verwenden.

1. Wählen Sie **Ausführen** aus.

1. Wählen Sie **Abfrage importieren** aus.

1. Geben Sie als **Datensatzname** den Namen des Datensatzes an.

1. Wählen Sie **Hinzufügen** aus.

Wenn Sie zum Bildschirm **Daten importieren** navigieren, können Sie die Verbindung sehen, die Sie erstellt haben. Über die Verbindung können Sie weitere Daten importieren.

## Speicher für importierte Daten
<a name="data-wrangler-import-storage"></a>

**Wichtig**  
 Wir empfehlen Ihnen dringend, den bewährten Methoden zum Schutz Ihres Amazon-S3-Buckets zu folgen, indem Sie den [bewährten Sicherheitsmethoden](https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html) folgen. 

Wenn Sie Daten von Amazon Athena oder Amazon Redshift abfragen, wird der abgefragte Datensatz automatisch in Amazon S3 gespeichert. Daten werden im standardmäßigen SageMaker AI S3-Bucket für die AWS Region gespeichert, in der Sie Studio Classic verwenden.

Standard-S3-Buckets haben die folgende Namenskonvention: `sagemaker-{{region}}-{{account number}}`. Wenn Ihre Kontonummer beispielsweise 111122223333 lautet und Sie Studio Classic in `us-east-1` verwenden, werden Ihre importierten Datensätze unter `sagemaker-us-east-1-` 111122223333 gespeichert. 

 Data-Wrangler-Abläufe hängen von diesem Speicherort für Amazon S3-Datensätze ab. Daher sollten Sie diesen Datensatz in Amazon S3 nicht ändern, solange Sie einen abhängigen Ablauf verwenden. Wenn Sie diesen S3-Speicherort ändern und Ihren Datenablauf weiterhin verwenden möchten, müssen Sie alle Objekte in `trained_parameters` in Ihrer .flow-Datei entfernen. Laden Sie dazu die .flow-Datei von Studio Classic herunter und löschen Sie für jede Instance von `trained_parameters` alle Einträge. Wenn Sie damit fertig sind, sollte `trained_parameters` ein leeres JSON-Objekt sein:

```
"trained_parameters": {}
```

Wenn Sie Ihren Datenablauf exportieren und zur Verarbeitung Ihrer Daten verwenden, bezieht sich die von Ihnen exportierte .flow-Datei auf diesen Datensatz in Amazon S3. In den folgenden Abschnitten erfahren Sie mehr dazu. 

### Speicher für Amazon Redshift-Import
<a name="data-wrangler-import-storage-redshift"></a>

Data Wrangler speichert die Datensätze, die sich aus Ihrer Abfrage ergeben, in einer Parquet-Datei in Ihrem standardmäßigen SageMaker AI S3-Bucket. 

Diese Datei wird unter dem folgenden Präfix (Verzeichnis) gespeichert: redshift/ {{uuid}} /data/, wobei sich ein eindeutiger Bezeichner befindet, der für jede {{uuid}} Abfrage erstellt wird. 

Wenn Ihr Standard-Bucket beispielsweise lautet, befindet sich ein einzelner Datensatz`sagemaker-us-east-1-111122223333`, der von Amazon Redshift abgefragt wurde, unter s3://sagemaker-us-east-1 -//data/. 111122223333/redshift {{uuid}}

### Speicher für Amazon Athena-Import
<a name="data-wrangler-import-storage-athena"></a>

Wenn Sie eine Athena-Datenbank abfragen und einen Datensatz importieren, speichert Data Wrangler den Datensatz sowie eine Teilmenge dieses Datensatzes oder *Vorschaudateien* in Amazon S3. 

Der Datensatz, den Sie importieren, indem Sie **Datensatz importieren** auswählen, wird in Amazon S3 im Parquet-Format gespeichert. 

Vorschaudateien werden im CSV-Format geschrieben, wenn Sie auf dem Athena-Importbildschirm **Ausführen** auswählen, und enthalten bis zu 100 Zeilen aus dem von Ihnen abgefragten Datensatz. 

Der Datensatz, den Sie abfragen, befindet sich unter dem Präfix (Verzeichnis): athena/ {{uuid}} /data/, wobei {{uuid}} es sich um eine eindeutige Kennung handelt, die für jede Abfrage erstellt wird.

Wenn Ihr Standard-Bucket beispielsweise lautet, befindet sich ein einzelner Datensatz`sagemaker-us-east-1-111122223333`, der von Athena abgefragt wurde, in `s3://sagemaker-us-east-1-111122223333` /athena/ /data/. {{uuid}} {{example\_dataset.parquet}}

Die Teilmenge des Datensatzes, die zur Vorschau von Dataframes in Data Wrangler gespeichert wird, wird unter dem Präfix: athena/ abgespeichert.