

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Migrieren Sie Daten mithilfe DistCp von AWS PrivateLink für Amazon S3 von einer lokalen Hadoop-Umgebung zu Amazon S3
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3"></a>

*Jason Owens, Andres Cantor, Jeff Klopfenstein, Bruno Rocha Oliveira und Samuel Schmidt, Amazon Web Services*

## Zusammenfassung
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-summary"></a>

Dieses Muster zeigt, wie fast jede Datenmenge aus einer lokalen Apache Hadoop-Umgebung in die Amazon Web Services (AWS) -Cloud migriert werden kann, indem das Open-Source-Tool Apache [DistCp](https://hadoop.apache.org/docs/r1.2.1/distcp.html)mit AWS PrivateLink for Amazon Simple Storage Service (Amazon S3) verwendet wird. Anstatt das öffentliche Internet oder eine Proxy-Lösung für die Datenmigration zu verwenden, können Sie [AWS PrivateLink für Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/privatelink-interface-endpoints.html) verwenden, um Daten über eine private Netzwerkverbindung zwischen Ihrem lokalen Rechenzentrum und einer Amazon Virtual Private Cloud (Amazon VPC) zu Amazon S3 zu migrieren. Wenn Sie DNS-Einträge in Amazon Route 53 verwenden oder Einträge in der Datei **/etc/hosts** in allen Knoten Ihres lokalen Hadoop-Clusters hinzufügen, werden Sie automatisch zum richtigen Schnittstellenendpunkt weitergeleitet.

Dieses Handbuch enthält Anweisungen DistCp zur Migration von Daten in die AWS-Cloud. DistCp ist das am häufigsten verwendete Tool, es sind jedoch auch andere Migrationstools verfügbar. [Sie können beispielsweise Offline-AWS-Tools wie AWS [Snowball oder [AWS Snowmobile](https://docs.aws.amazon.com/whitepapers/latest/how-aws-pricing-works/aws-snow-family.html#aws-snowmobile)](https://docs.aws.amazon.com/whitepapers/latest/how-aws-pricing-works/aws-snow-family.html#aws-snowball) oder Online-AWS-Tools wie AWS [Storage Gateway oder AWS](https://docs.aws.amazon.com/storagegateway/latest/userguide/migrate-data.html) verwenden. DataSync](https://aws.amazon.com/about-aws/whats-new/2021/11/aws-datasync-hadoop-aws-storage-services/) [Darüber hinaus können Sie andere Open-Source-Tools wie Apache verwenden. NiFi](https://nifi.apache.org/)

## Voraussetzungen und Einschränkungen
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-prereqs"></a>

**Voraussetzungen**
+ Ein aktives AWS-Konto mit einer privaten Netzwerkverbindung zwischen Ihrem lokalen Rechenzentrum und der AWS-Cloud
+ [Hadoop](https://hadoop.apache.org/releases.html), lokal installiert mit [DistCp](https://hadoop.apache.org/docs/r1.2.1/distcp.html)
+ Ein Hadoop-Benutzer mit Zugriff auf die Migrationsdaten im Hadoop Distributed File System (HDFS)
+ AWS-Befehlszeilenschnittstelle (AWS CLI), [installiert](https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html) und [konfiguriert](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-configure.html)
+ [Berechtigungen](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_examples_s3_rw-bucket-console.html) zum Ablegen von Objekten in einen S3-Bucket

**Einschränkungen**

Einschränkungen der Virtual Private Cloud (VPC) gelten PrivateLink für AWS für Amazon S3. Weitere Informationen finden Sie unter [Eigenschaften und Einschränkungen von Schnittstellenendpunkten](https://docs.aws.amazon.com/vpc/latest/privatelink/vpce-interface.html#vpce-interface-limitations) und [ PrivateLink AWS-Kontingente](https://docs.aws.amazon.com/vpc/latest/privatelink/vpc-limits-endpoints.html) ( PrivateLink AWS-Dokumentation).

AWS PrivateLink für Amazon S3 unterstützt Folgendes nicht:
+ [Endpunkte für den Federal Information Processing Standard (FIPS).](https://aws.amazon.com/compliance/fips/)
+ [Endpunkte der Website](https://docs.aws.amazon.com/AmazonS3/latest/userguide/WebsiteEndpoints.html)
+ [Globale Legacy-Endpunkte](https://docs.aws.amazon.com/AmazonS3/latest/userguide/VirtualHosting.html#deprecated-global-endpoint)

## Architektur
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-architecture"></a>

**Quelltechnologie-Stack**
+ Hadoop-Cluster mit installiertem DistCp 

**Zieltechnologie-Stack**
+ Amazon S3
+ Amazon VPC

**Zielarchitektur**

![\[Hadoop-Cluster mit DistCp Kopieren von Daten aus der lokalen Umgebung über Direct Connect nach S3.\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/images/pattern-img/8d2b47ae-e854-4e5d-8f19-b9c2606f2c59/images/b8a249bd-307b-41ec-b939-5039d0ae7123.png)


Das Diagramm zeigt, wie der DistCp Hadoop-Administrator Daten aus einer lokalen Umgebung über eine private Netzwerkverbindung wie AWS Direct Connect über einen Amazon S3-Schnittstellenendpunkt nach Amazon S3 kopiert.

## Tools
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-tools"></a>

**AWS-Services**
+ [AWS Identity and Access Management (IAM)](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html) hilft Ihnen dabei, den Zugriff auf Ihre AWS-Ressourcen sicher zu verwalten, indem kontrolliert wird, wer authentifiziert und autorisiert ist, diese zu verwenden.
+ [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) ist ein cloudbasierter Objektspeicherservice, der Sie beim Speichern, Schützen und Abrufen beliebiger Datenmengen unterstützt.
+ [Amazon Virtual Private Cloud (Amazon VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) hilft Ihnen, AWS-Ressourcen in einem von Ihnen definierten virtuellen Netzwerk zu starten. Dieses virtuelle Netzwerk ähnelt einem herkömmlichen Netzwerk, das Sie in Ihrem eigenen Rechenzentrum betreiben würden, mit den Vorteilen der skalierbaren Infrastruktur von AWS.

**Andere Tools**
+ [Apache Hadoop DistCp](https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html) (Distributed Copy) ist ein Tool, das zum Kopieren großer Inter-Cluster und Intra-Cluster verwendet wird. DistCp verwendet Apache MapReduce für die Verteilung, Fehlerbehandlung und Wiederherstellung sowie für die Berichterstattung.

## Epen
<a name="migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3-epics"></a>

### Daten in die AWS-Cloud migrieren
<a name="migrate-data-to-the-aws-cloud"></a>


| Aufgabe | Description | Erforderliche Fähigkeiten | 
| --- | --- | --- | 
| Erstellen Sie einen Endpunkt für AWS PrivateLink für Amazon S3. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3.html) | AWS-Administrator | 
| Überprüfen Sie die Endpunkte und suchen Sie nach den DNS-Einträgen. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3.html) | AWS-Administrator | 
| Überprüfen Sie die Firewall-Regeln und Routing-Konfigurationen. | Um zu überprüfen, ob Ihre Firewallregeln geöffnet sind und ob Ihre Netzwerkkonfiguration korrekt eingerichtet ist, testen Sie den Endpunkt mit Telnet auf Port 443. Beispiel:<pre>$ telnet vpce-<your-VPC-endpoint-ID>.s3.us-east-2.vpce.amazonaws.com 443<br /><br />Trying 10.104.88.6...<br /><br />Connected to vpce-<your-VPC-endpoint-ID>.s3.us-east-2.vpce.amazonaws.com.<br /><br />...<br /><br />$ telnet vpce-<your-VPC-endpoint-ID>.s3.us-east-2.vpce.amazonaws.com 443<br /><br />Trying 10.104.71.141...<br /><br />Connected to vpce-<your-VPC-endpoint-ID>.s3.us-east-2.vpce.amazonaws.com.</pre>Wenn Sie den Eintrag Regional verwenden, zeigt ein erfolgreicher Test, dass das DNS zwischen den beiden IP-Adressen wechselt, die Sie auf der Registerkarte **Subnetze** für Ihren ausgewählten Endpunkt in der Amazon VPC-Konsole sehen können. | Netzwerkadministrator, AWS-Administrator | 
| Konfigurieren Sie die Namensauflösung. | Sie müssen die Namensauflösung so konfigurieren, dass Hadoop auf den Endpunkt der Amazon S3 S3-Schnittstelle zugreifen kann. Sie können den Endpunktnamen selbst nicht verwenden. Stattdessen müssen Sie `<your-bucket-name>.s3.<your-aws-region>.amazonaws.com` oder auflösen`*.s3.<your-aws-region>.amazonaws.com`. Weitere Informationen zu dieser Namensbeschränkung finden Sie unter [Einführung in den Hadoop S3A-Client](https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#Introducing_the_Hadoop_S3A_client.) (Hadoop-Website).Wählen Sie eine der folgenden Konfigurationsoptionen:[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/prescriptive-guidance/latest/patterns/migrate-data-from-an-on-premises-hadoop-environment-to-amazon-s3-using-distcp-with-aws-privatelink-for-amazon-s3.html) | AWS-Administrator | 
| Konfigurieren Sie die Authentifizierung für Amazon S3. | Um sich über Hadoop bei Amazon S3 zu authentifizieren, empfehlen wir, temporäre Rollenanmeldedaten in die Hadoop-Umgebung zu exportieren. Weitere Informationen finden Sie unter [Authentifizierung mit S3](https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#Authenticating_with_S3) (Hadoop-Website). Für Jobs mit langer Laufzeit können Sie einen Benutzer erstellen und ihm eine Richtlinie zuweisen, die nur berechtigt ist, Daten in einem S3-Bucket abzulegen. Der Zugriffsschlüssel und der geheime Schlüssel können in Hadoop gespeichert werden und sind nur für den DistCp Job selbst und für den Hadoop-Administrator zugänglich. Weitere Informationen zum Speichern von Geheimnissen finden Sie unter [Speichern von Geheimnissen mit Hadoop Credential Providers](https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/index.html#hadoop_credential_providers) (Hadoop-Website). Weitere Informationen [zu anderen Authentifizierungsmethoden finden Sie unter So erhalten Sie Anmeldeinformationen für eine IAM-Rolle zur Verwendung mit CLI-Zugriff auf ein AWS-Konto](https://docs.aws.amazon.com/singlesignon/latest/userguide/howtogetcredentials.html) in der Dokumentation für AWS IAM Identity Center (Nachfolger von AWS Single Sign-On).Um temporäre Anmeldeinformationen zu verwenden, fügen Sie die temporären Anmeldeinformationen zu Ihrer Anmeldeinformationsdatei hinzu oder führen Sie die folgenden Befehle aus, um die Anmeldeinformationen in Ihre Umgebung zu exportieren:<pre>export AWS_SESSION_TOKEN=SECRET-SESSION-TOKEN<br />export AWS_ACCESS_KEY_ID=SESSION-ACCESS-KEY<br />export AWS_SECRET_ACCESS_KEY=SESSION-SECRET-KEY</pre>Wenn Sie über eine herkömmliche Kombination aus Zugriffsschlüssel und geheimer Taste verfügen, führen Sie die folgenden Befehle aus:<pre>export AWS_ACCESS_KEY_ID=my.aws.key<br />export AWS_SECRET_ACCESS_KEY=my.secret.key</pre>Wenn Sie eine Kombination aus Zugriffsschlüssel und geheimem Schlüssel verwenden, ändern Sie den Anbieter der Anmeldeinformationen in den DistCp Befehlen von `"org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider"` bis`"org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider"`. | AWS-Administrator | 
| Daten übertragen mit DistCp. | Führen Sie DistCp die folgenden Befehle aus, um Daten zu übertragen:<pre>hadoop distcp -Dfs.s3a.aws.credentials.provider=\<br />"org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider" \<br />-Dfs.s3a.access.key="${AWS_ACCESS_KEY_ID}" \<br />-Dfs.s3a.secret.key="${AWS_SECRET_ACCESS_KEY}" \<br />-Dfs.s3a.session.token="${AWS_SESSION_TOKEN}" \<br />-Dfs.s3a.path.style.access=true \<br />-Dfs.s3a.connection.ssl.enabled=true \<br />-Dfs.s3a.endpoint=s3.<your-aws-region>.amazonaws.com \<br />hdfs:///user/root/ s3a://<your-bucket-name></pre>Die AWS-Region des Endpunkts wird nicht automatisch erkannt, wenn Sie den DistCp Befehl mit AWS PrivateLink for Amazon S3 verwenden. Hadoop 3.3.2 und spätere Versionen lösen dieses Problem, indem sie die Option aktivieren, die AWS-Region des S3-Buckets explizit festzulegen. Weitere Informationen finden Sie unter [S3A, um die Option fs.s3a.endpoint.region hinzuzufügen, um die AWS-Region](https://issues.apache.org/jira/browse/HADOOP-17705) festzulegen (Hadoop-Website).[Weitere Informationen zu zusätzlichen S3A-Anbietern finden Sie unter Allgemeine S3A-Client-Konfiguration (Hadoop-Website).](https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#General_S3A_Client_configuration) Wenn Sie beispielsweise Verschlüsselung verwenden, können Sie der obigen Befehlsreihe je nach Verschlüsselungstyp die folgende Option hinzufügen:<pre>-Dfs.s3a.server-side-encryption-algorithm=AES-256 [or SSE-C or SSE-KMS]</pre>Um den Schnittstellenendpunkt mit S3A zu verwenden, müssen Sie einen DNS-Aliaseintrag für den S3-Regionalnamen (z. B.`s3.<your-aws-region>.amazonaws.com`) für den Schnittstellenendpunkt erstellen. Anweisungen finden *Sie im Abschnitt Authentifizierung für Amazon S3 konfigurieren*. Diese Problemumgehung ist für Hadoop 3.3.2 und frühere Versionen erforderlich. Zukünftige Versionen von S3A benötigen diese Problemumgehung nicht.Wenn Sie Signaturprobleme mit Amazon S3 haben, fügen Sie eine Option hinzu, um Signature Version 4 (Sigv4) zu signieren:<pre>-Dmapreduce.map.java.opts="-Dcom.amazonaws.services.s3.enableV4=true"</pre> | Migrationsingenieur, AWS-Administrator | 