Der Befehl pcluster update-cluster kann nicht lokal ausgeführt werden Das Cluster-Update hat das Zeitlimit überschritten ClusterStatus ist UPDATE_FAILED Der Cluster-Stack scheint in UPDATE_IN_PROGRESS oder UPDATE_ROLLBACK_IN_PROGRESS stecken zu bleiben

Es wird versucht, einen Cluster zu aktualisieren

Der folgende Abschnitt enthält mögliche Lösungen zur Behebung von Problemen, die beim Versuch, einen Cluster zu aktualisieren, auftreten können.

Der Befehl `pcluster update-cluster` kann nicht lokal ausgeführt werden

Informationen zum Fehler ~/.parallelcluster/pcluster-cli.log finden Sie in Ihrem lokalen Dateisystem.

Das Cluster-Update hat das Zeitlimit überschritten

Dies könnte ein Problem sein, das damit zusammenhängt, dass es cfn-hup nicht ausgeführt wird. Wenn der cfn-hup Dämon durch einen externen Grund beendet wird, wird er nicht automatisch neu gestartet. Wenn er cfn-hup nicht ausgeführt wird, startet der CloudFormation Stack den Aktualisierungsvorgang während eines Cluster-Updates wie erwartet, aber der Aktualisierungsvorgang ist auf dem Hauptknoten nicht aktiviert, und bei der Stack-Bereitstellung kommt es irgendwann zu einem Timeout. Weitere Informationen finden Sie unter Behebung eines Timeouts bei einem Cluster-Update, wenn cfn-hup nicht läuft So beheben Sie das Problem und beheben es.

`ClusterStatus` `ist UPDATE_FAILED`

Wurzel verursachend

Um die Hauptursache des Fehlers zu ermitteln, sollten Sie sich zunächst die Cluster-Stack-Ereignisse und /var/log/chef-client.log den Hauptknoten ansehen.

Eine mögliche Ursache ist, dass mindestens ein Clusterknoten das Update nicht angewendet hat. Sie können die Liste der Knoten, die nicht aktualisiert werden konnten, /var/log/chef-client.log im Hauptknoten abrufen, indem Sie Check cluster readiness im Protokoll danach suchen.

Prüfen Sie, ob Ihr Problem unter GitHub Bekannte Probleme unter AWS ParallelCluster on erwähnt wird GitHub.

Verhindern

Ein Cluster-Update kann fehlschlagen, wenn mindestens ein Knoten im Cluster das Update nicht erfolgreich angewendet hat. Um das Risiko eines Fehlers bei der Cluster-Aktualisierung zu verringern, empfehlen wir, defekte Knoten zu beenden, bevor Sie das Update starten. Ein Beispiel für Knoten, die defekt sein könnten, sind Rechenknoten, die länger als die erwartete Epilog-Dauer im COMPLETING Status verharren. Um diese Knoten zu erkennen, können Sie den folgenden Befehl ausführen und dabei den threshold Wert an Ihre Bedürfnisse anpassen (der Wert muss größer sein als die für Ihre Epilogs erwartete maximale Dauer).


$ scontrol show nodes --json | jq -r --argjson threshold 60 '
  .nodes[] | select(.state | index("COMPLETING")) |
  select((now - .last_busy.number) > $threshold) |
  .name
'

Wird wiederhergestellt

Wenn das Update fehlgeschlagen ist, ist das Rollback der Mechanismus, mit dem der Status des Clusters wiederhergestellt werden soll.

Wenn das Rollback fehlgeschlagen ist, ist der Clusterstatus nicht deterministisch. In diesem Fall kann es sein, dass das System gestoppt clustermgtd wurde, um die Ausbreitung von Ausfällen zu verhindern. Wir empfehlen, es zu starten, indem Sie den folgenden Befehl auf dem Hauptknoten ausführen. Passen Sie die Python-Version an die an, die mit Ihrer AWS ParallelCluster Version geliefert wurde:


$ /opt/parallelcluster/pyenv/versions/3.12.11/envs/cookbook_virtualenv/bin/supervisorctl start clustermgtd

`ClusterStatus` `ist UPDATE_FAILED und Cloud ist UPDATE_ROLLBACK_FAILED FormationStackStatus`

Wenn pcluster describe-cluster gemeldet clusterStatus wird, dass dies ist UPDATE_FAILED und cloudFormationStackStatus ist, sind sowohl das Cluster-Update als auch das UPDATE_ROLLBACK_FAILED nachfolgende Rollback fehlgeschlagen. In diesem Zustand kann der Cluster-Stack keine weiteren Updates akzeptieren und erfordert einen manuellen Eingriff, um die Blockierung aufzuheben.

Gehen Sie wie folgt vor, um den Cluster-Stack zu entsperren:

Korrigieren Sie die Hauptursache des Fehlers.

Erzwingen Sie die Fortsetzung des Rollbacks.


$ aws cloudformation continue-update-rollback --region REGION --stack-name CLUSTER_STACK_NAME

Warten Sie, bis der Stack den UPDATE_ROLLBACK_COMPLETE Status erreicht hat.
Versuchen Sie erneut, das ursprüngliche Update mit dem pcluster update-cluster Befehl durchzuführen.

`Der Cluster-Stack scheint in UPDATE_IN_PROGRESS oder UPDATE_ROLLBACK_IN_PROGRESS stecken zu bleiben`

Der Cluster-Stack könnte darin UPDATE_IN_PROGRESS oder höchstens UPDATE_ROLLBACK_IN_PROGRESS für 1 Stunde stecken bleiben, wenn sich die Auto Scaling Group für die Anmeldeknoten aufgrund von Bootstrap-Fehlern in den Anmeldeknoten nicht stabilisieren kann.

Um zu überprüfen, ob Sie sich aufgrund der Auto Scaling Group für die Anmeldeknoten in dieser Situation befinden, müssen Sie die folgenden Prüfungen durchführen: Im Hauptstapel ist die einzige Ressource, die sich darin UPDATE_IN_PROGRESS befindet, der verschachtelte Stack der Anmeldeknoten. Im verschachtelten Stack der Anmeldeknoten ist die einzige Ressource, die feststeckt, die Auto Scaling Group der Anmeldeknoten. UPDATE_IN_PROGRESS

Wenn Sie sich in diesem Szenario befinden, können Sie das Update abbrechen, sodass Sie nicht eine Stunde warten müssen, bis das Update abgeschlossen ist.


$ aws cloudformation cancel-update-stack --region REGION --stack-name CLUSTER_STACK_NAME

Wenn Sie das Update abbrechen, wird das Rollback ausgelöst. Sie können das 1-stündige Timeout für das Rollback nicht reduzieren. Im schlimmsten Fall müssen Sie also warten, bis das Rollback seinen endgültigen Status erreicht hat.

Wenn das Rollback erfolgreich ist, können Sie das ursprüngliche Cluster-Update sofort erneut versuchen, sobald Sie die Hauptursache des Fehlers behoben haben. Andernfalls lesen Sie unter ClusterStatus ist UPDATE_FAILED und Cloud ist UPDATE_ROLLBACK_FAILED FormationStackStatus weiter.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Ich versuche, einen Job auszuführen

Sie versuchen, auf Speicher zuzugreifen