Ec2Resource - AWS Data Pipeline

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. Weitere Informationen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ec2Resource

Eine Amazon EC2 EC2-Instance, die die durch eine Pipeline-Aktivität definierte Arbeit ausführt.

AWS Data Pipeline unterstützt jetzt IMDSv2 für die Amazon EC2 EC2-Instance, die eine sitzungsorientierte Methode verwendet, um die Authentifizierung beim Abrufen von Metadateninformationen von Instances besser handhaben zu können. Eine Sitzung beginnt und beendet eine Reihe von Anfragen, die Software, die auf einer Amazon EC2 EC2-Instance ausgeführt wird, verwendet, um auf die lokal gespeicherten Amazon EC2 EC2-Instance-Metadaten und Anmeldeinformationen zuzugreifen. Die Software startet eine Sitzung mit einer einfachen HTTP-PUT-Anfrage an IMDSv2. IMDSv2 gibt ein geheimes Token an die Software zurück, die auf der Amazon EC2 EC2-Instance ausgeführt wird. Diese verwendet das Token als Passwort, um Anfragen IMDSv2 nach Metadaten und Anmeldeinformationen zu stellen.

Anmerkung

Um IMDSv2 für Ihre Amazon EC2 EC2-Instance zu verwenden, müssen Sie die Einstellungen ändern, da das Standard-AMI nicht kompatibel mit ist. IMDSv2 Sie können eine neue AMI-Version angeben, die Sie über den folgenden SSM-Parameter abrufen können:/aws/service/ami-amazon-linux-latest/amzn-ami-hvm-x86_64-ebs.

Informationen zu standardmäßigen Amazon EC2 EC2-Instances, die AWS Data Pipeline erstellt werden, wenn Sie keine Instance angeben, finden Sie unterStandard-Amazon EC2-Instances nach AWS-Region.

Beispiele

EC2-Classic

Wichtig

Nur AWS Konten, die vor dem 4. Dezember 2013 erstellt wurden, unterstützen die EC2-Classic-Plattform. Wenn Sie über eines dieser Konten verfügen, haben Sie möglicherweise die Möglichkeit, EC2Resource-Objekte für eine Pipeline in einem EC2-Classic-Netzwerk anstelle einer VPC zu erstellen. Wir empfehlen dringend, Ressourcen für alle Ihre Pipelines in VPCs zu erstellen. Wenn Sie bereits über Ressourcen in EC2-Classic verfügen, empfehlen wir Ihnen außerdem, diese auf eine VPC zu migrieren.

Das folgende Beispielobjekt startet eine EC2-Instance in EC2-Classic, wobei einige optionale Felder gesetzt sind.

{ "id" : "MyEC2Resource", "type" : "Ec2Resource", "actionOnTaskFailure" : "terminate", "actionOnResourceFailure" : "retryAll", "maximumRetries" : "1", "instanceType" : "m5.large", "securityGroups" : [ "test-group", "default" ], "keyPair" : "my-key-pair" }

EC2-VPC

Das folgende Beispielobjekt startet eine EC2 Instance in einem nicht standardmäßigen VPC, wobei einige optionale Felder festgelegt sind.

{ "id" : "MyEC2Resource", "type" : "Ec2Resource", "actionOnTaskFailure" : "terminate", "actionOnResourceFailure" : "retryAll", "maximumRetries" : "1", "instanceType" : "m5.large", "securityGroupIds" : [ "sg-12345678", "sg-12345678" ], "subnetId": "subnet-12345678", "associatePublicIpAddress": "true", "keyPair" : "my-key-pair" }

Syntax

Pflichtfelder Description Slot-Typ
resourceRole Die IAM-Rolle, die die Ressourcen steuert, auf die die Amazon EC2 EC2-Instance zugreifen kann. Zeichenfolge
role Die IAM-Rolle, mit der die AWS Data Pipeline EC2-Instance erstellt wird. Zeichenfolge

Objektaufruf-Felder Description Slot-Typ
schedule

Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen.

Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können dafür eine der folgenden Möglichkeiten auswählen:

  • Um sicherzustellen, dass alle Objekte in der Pipeline den Zeitplan übernehmen, legen Sie einen Zeitplan explizit für das Objekt fest: "schedule": {"ref": "DefaultSchedule"}. In den meisten Fällen ist es nützlich, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan übernehmen.

  • Wenn der Hauptplan in Ihrer Pipeline verschachtelte Zeitpläne enthält, können Sie ein übergeordnetes Objekt mit Zeitplanreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html.

Referenzobjekt, z. B. "schedule":{"ref":"myScheduleId"}

Optionale Felder Description Slot-Typ
actionOnResourceFehlschlag Die Aktion, die nach einem Ressourcenfehler dieser Ressource ausgeführt wird. Gültige Werte sind "retryall" und "retrynone". Zeichenfolge
actionOnTaskFehlschlag Die Aktion, die nach einem Aufgabenfehler dieser Ressource ausgeführt wird. Gültige Werte sind "continue" oder "terminate". Zeichenfolge
associatePublicIpAdresse Gibt an, ob der Instance eine öffentliche IP-Adresse zugewiesen wird. Wenn sich die Instance in Amazon EC2 oder Amazon VPC befindet, ist der Standardwert. true Andernfalls ist der Standardwert false. Boolesch
attemptStatus Zuletzt gemeldeter Status von der Remote-Aktivität. Zeichenfolge
attemptTimeout Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. Zeitraum
availabilityZone Die Availability Zone, in der die Amazon EC2 EC2-Instance gestartet werden soll. Zeichenfolge
deaktivieren IMDSv1 Der Standardwert ist falsch und aktiviert sowohl als auch IMDSv1 IMDSv2. Wenn Sie ihn auf true setzen, wird er deaktiviert IMDSv1 und bietet nur IMDSv2s Boolesch
failureAndRerunModus Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. Aufzählung
httpProxy Der Proxyhost, den Clients verwenden, um eine Verbindung zu AWS Diensten herzustellen. Referenzobjekt, z. B. "httpProxy":{"ref":"myHttpProxyId"}
imageId

Die ID des für die Instance zu verwendenden AMI. AWS Data Pipeline Verwendet standardmäßig den Virtualisierungstyp HVM AMI. Das IDs verwendete spezifische AMI basiert auf einer Region. Sie können das Standard-AMI überschreiben, indem Sie das von Ihnen gewählte HVM-AMI angeben. Weitere Informationen zu AMI-Typen finden Sie unter Linux AMI Virtualization Types und Finding a Linux AMI im Amazon EC2 EC2-Benutzerhandbuch.

Zeichenfolge
initTimeout Die Zeit, die auf den Start der Ressource gewartet wird. Zeitraum
instanceCount Als veraltet gekennzeichnet. Ganzzahl
instanceType Der Typ der Amazon EC2 EC2-Instance, die gestartet werden soll. Zeichenfolge
keyPair Der Name des Schlüsselpaars. Wenn Sie eine Amazon EC2 EC2-Instance starten, ohne ein key pair anzugeben, können Sie sich nicht bei ihr anmelden. Zeichenfolge
lateAfterTimeout Die verstrichene Zeit nach dem Start der Pipeline, innerhalb derer das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand Zeitraum
maxActiveInstances Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. Ganzzahl
maximumRetries Die maximale Anzahl von Versuchen bei Ausfällen. Ganzzahl
minInstanceCount Als veraltet gekennzeichnet. Ganzzahl
onFail Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. Referenzobjekt, z. B. "onFail":{"ref":"myActionId"}
onLateAction Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant wurde oder noch ausgeführt wird. Referenzobjekt, z. B. "onLateAction":{"ref":"myActionId"}
onSuccess Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. Referenzobjekt, z. B. "onSuccess":{"ref":"myActionId"}
übergeordneter Das übergeordnete Objekt des aktuellen Objekts, aus dem Slots übernommen werden. Referenzobjekt, z. B. "parent":{"ref":"myBaseObjectId"}
pipelineLogUri Die Amazon S3 S3-URI (z. B.'s3://BucketName/Key/') zum Hochladen von Protokollen für die Pipeline. Zeichenfolge
Region Der Code für die Region, in der die Amazon EC2 EC2-Instance ausgeführt werden soll. Standardmäßig wird die Instance in derselben Region wie die Pipeline ausgeführt. Sie können die Instance in derselben Region als abhängiges Datenset ausführen. Aufzählung
reportProgressTimeout Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und erneut versucht. Zeitraum
retryDelay Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. Zeitraum
runAsUser Der Benutzer, der ausgeführt werden soll. TaskRunner Zeichenfolge
runsOn Dieses Feld ist für dieses Objekt nicht zulässig. Referenzobjekt, z. B. "runsOn":{"ref":"myResourceId"}
scheduleType

Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang oder am Ende eines Intervalls oder bedarfsabhängig geplant werden sollen.

Die Werte sind:

  • timeseries. Instanzen werden am Ende jedes Intervalls geplant.

  • cron. Instanzen werden zu Beginn jedes Intervalls geplant.

  • ondemand. Ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Sie müssen die Pipeline nicht klonen oder neu erstellen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline-Vorgang für jeden nachfolgenden Lauf auf.

Aufzählung
securityGroupIds Die IDs einer oder mehrerer Amazon EC2-Sicherheitsgruppen, die für die Instances im Ressourcenpool verwendet werden sollen. Zeichenfolge
securityGroups Eine oder mehrere Amazon EC2-Sicherheitsgruppen, die für die Instances im Ressourcenpool verwendet werden sollen. Zeichenfolge
spotBidPrice Die maximale Datenmenge pro Stunde für Ihre Spot-Instance in Dollar, wobei es sich um einen Dezimalwert zwischen 0 und einschließlich 20,00 handelt. Zeichenfolge
subnetId Die ID des Amazon EC2-Subnetzes, in dem die Instance gestartet werden soll. Zeichenfolge
terminateAfter Die Anzahl der Stunden, nach denen die Ressource zu beenden ist. Zeitraum
useOnDemandOnLastAttempt Dieses Feld bestimmt, ob beim letzten Versuch, eine Spot-Instance anzufordern, stattdessen eine On-Demand-Instance angefordert wird. Auf diese Weise wird sichergestellt, dass wenn die vorherigen Versuche fehlgeschlagen sind, der letzte Versuch nicht unterbrochen wird. Boolesch
workerGroup Dieses Feld ist für dieses Objekt nicht zulässig. Zeichenfolge

Laufzeitfelder Description Slot-Typ
@activeInstances Liste der aktuell geplanten aktiven Instance-Objekte. Referenzobjekt, z. B. "activeInstances":{"ref":"myRunnableObjectId"}
@actualEndTime Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. DateTime
@actualStartTime Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. DateTime
cancellationReason Der cancellationReason, wenn dieses Objekt storniert wurde. Zeichenfolge
@cascadeFailedOn Beschreibung der Zuständigkeitskette, bei der das Objekt fehlgeschlagen ist. Referenzobjekt, z. B. "cascadeFailedOn":{"ref":"myRunnableObjectId"}
emrStepLog Schrittprotokolle sind nur bei Amazon EMR-Aktivitätsversuchen verfügbar. Zeichenfolge
errorId Die Fehler-ID, wenn dieses Objekt fehlgeschlagen ist. Zeichenfolge
errorMessage Die Fehlermeldung, wenn dieses Objekt fehlgeschlagen ist. Zeichenfolge
errorStackTrace Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. Zeichenfolge
@failureReason Der Grund für den Ressourcenfehler. Zeichenfolge
@finishedTime Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. DateTime
hadoopJobLog Hadoop-Jobprotokolle sind bei Versuchen für Amazon EMR-Aktivitäten verfügbar. Zeichenfolge
@healthStatus Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. Zeichenfolge
@healthStatusFromInstanceId Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. Zeichenfolge
@ Zeit healthStatusUpdated Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. DateTime
hostname Der Hostname des Clients, der den Aufgabenversuch aufnimmt. Zeichenfolge
@lastDeactivatedTime Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. DateTime
@ latestCompletedRun Zeit Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. DateTime
@latestRunTime Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. DateTime
@nextRunTime Zeitpunkt des Laufs, der als nächstes geplant werden soll DateTime
reportProgressTime Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. DateTime
@scheduledEndTime Die geplante Endzeit für das Objekt. DateTime
@scheduledStartTime Die geplante Startzeit für das Objekt. DateTime
@Status Der Status des Objekts. Zeichenfolge
@Version Die Pipeline-Version, mit der das Objekt erstellt wurde. Zeichenfolge
@waitingOn Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. Referenzobjekt, z. B. "waitingOn":{"ref":"myRunnableObjectId"}

Systemfelder Description Slot-Typ
@error Fehler mit einer Beschreibung des falsch formatierten Objekts. Zeichenfolge
@pipelineId ID der Pipeline, zu der dieses Objekt gehört. Zeichenfolge
@sphere Die Position eines Objekts im Lebenszyklus. Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. Zeichenfolge