

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. [Weitere Informationen](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Daten mithilfe von Amazon EMR mit Hadoop Streaming verarbeiten
<a name="dp-launch-emr-jobflow"></a>

Sie können es verwenden AWS Data Pipeline , um Ihre Amazon EMR-Cluster zu verwalten. Mit können AWS Data Pipeline Sie Vorbedingungen angeben, die erfüllt sein müssen, bevor der Cluster gestartet wird (z. B. sicherstellen, dass die heutigen Daten auf Amazon S3 hochgeladen wurden), einen Zeitplan für die wiederholte Ausführung des Clusters und die zu verwendende Cluster-Konfiguration angeben. Das folgende Tutorial führt Sie durch den Start eines einfachen Clusters.

In diesem Tutorial erstellen Sie eine Pipeline für einen einfachen Amazon EMR-Cluster, um einen bereits vorhandenen Hadoop-Streaming-Job auszuführen, der von Amazon EMR bereitgestellt wird, und eine Amazon SNS SNS-Benachrichtigung zu senden, nachdem die Aufgabe erfolgreich abgeschlossen wurde. Für diese Aufgabe verwenden Sie die Amazon EMR-Cluster-Ressource, AWS Data Pipeline die von bereitgestellt wird. Die Beispielanwendung wird aufgerufen WordCount und kann auch manuell von der Amazon EMR-Konsole aus ausgeführt werden. Beachten Sie, dass Cluster, die von in AWS Data Pipeline Ihrem Namen erzeugt wurden, in der Amazon EMR-Konsole angezeigt und Ihrem AWS-Konto in Rechnung gestellt werden.

**Pipeline-Objekte**  
Die Pipeline verwendet die folgenden Objekte:

[EmrActivity](dp-object-emractivity.md)  
Definiert die Arbeit, die in der Pipeline ausgeführt werden soll (führt einen bereits vorhandenen Hadoop-Streaming-Job aus, der von Amazon EMR bereitgestellt wird).

[EmrCluster](dp-object-emrcluster.md)  
Die Ressource, AWS Data Pipeline die zur Ausführung dieser Aktivität verwendet wird.  
Ein Cluster besteht aus einer Reihe von Amazon EC2 EC2-Instances. AWS Data Pipeline startet den Cluster und beendet ihn dann, nachdem die Aufgabe abgeschlossen ist. 

[Plan](dp-object-schedule.md)  
Startdatum, Uhrzeit und Dauer dieser Aktivität. Sie können optional das Enddatum und die Endzeit angeben.

[SnsAlarm](dp-object-snsalarm.md)  
Sendet eine Amazon SNS SNS-Benachrichtigung an das von Ihnen angegebene Thema, nachdem die Aufgabe erfolgreich abgeschlossen wurde. 

**Topics**
+ [Bevor Sie beginnen](dp-emr-jobflow-prereq.md)
+ [Einen Cluster über die Befehlszeile starten](dp-launch-emr-jobflow-cli.md)