View a markdown version of this page

AWSSupport-TroubleshootAWSBatchJob - AWS Systems Manager Riferimento all'Automation Runbook

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWSSupport-TroubleshootAWSBatchJob

Descrizione

Il AWSSupport-TroubleshootAWSBatchJob runbook consente di risolvere i problemi che impediscono a un AWS Batch job di passare dallo stato precedente. RUNNABLE STARTING

Come funziona?

Questo runbook esegue i seguenti controlli:

  • Se l'ambiente di calcolo è in uno stato INVALID orDISABLED.

  • Se il Max vCPU parametro dell'ambiente di calcolo è sufficientemente grande da contenere il volume di lavori nella coda dei lavori.

  • Se i job richiedono più vCPU o risorse di memoria rispetto a quelle fornite dai tipi di istanza dell'ambiente di calcolo.

  • Se i job devono essere eseguiti su GPU-based istanze ma l'ambiente di calcolo non è configurato per l'utilizzo di istanze. GPU-based

  • Se il gruppo Auto Scaling per l'ambiente di calcolo non è riuscito ad avviare le istanze.

  • Se le istanze avviate possono unirsi al cluster Amazon Elastic Container Service (Amazon ECS) sottostante, in caso contrario, esegue il runbook. AWSSupport-TroubleshootECSContainerInstance

  • Se c'è un problema di autorizzazioni che blocca azioni specifiche necessarie per eseguire il lavoro.

Importante
  • Questo runbook deve essere avviato nella stessa AWS regione del job il cui stato è bloccato. RUNNABLE

  • Questo runbook può essere avviato per i AWS Batch lavori pianificati su istanze Amazon ECS o AWS Fargate Amazon Elastic Compute Cloud (Amazon EC2). Se l'automazione viene avviata per un AWS Batch processo su Amazon Elastic Kubernetes Service (Amazon EKS), l'iniziazione si interrompe.

  • Se le istanze sono disponibili per eseguire il job ma non riescono a registrare il cluster Amazon ECS, questo runbook avvia il runbook di AWSSupport-TroubleshootECSContainerInstance automazione per cercare di determinare il motivo. Per ulteriori informazioni, consulta il runbook. AWSSupport-TroubleshootECSContainerInstance

Esegui questa automazione (console)

Tipo di documento

Automazione

Proprietario

Amazon

Piattaforme

LinuxmacOS, Windows

Parametri

  • AutomationAssumeRole

    Tipo: String

    Descrizione: (Facoltativo) L'Amazon Resource Name (ARN) del ruolo AWS Identity and Access Management (IAM) che consente a Systems Manager Automation di eseguire le azioni per tuo conto. Se non viene specificato alcun ruolo, Systems Manager Automation utilizza le autorizzazioni dell'utente che avvia questo runbook.

  • JobId

    Tipo: String

    Descrizione: (Obbligatorio) L'ID del AWS Batch Job il cui RUNNABLE stato è bloccato.

    Modello consentito: ^[a-f0-9]{8}(-[a-f0-9]{4}){3}-[a-f0-9]{12}(:[0-9]+)?(#[0-9]+)?$

Autorizzazioni IAM richieste

Il AutomationAssumeRole parametro richiede le seguenti azioni per utilizzare correttamente il runbook.

  • autoscaling:DescribeAutoScalingGroups

  • autoscaling:DescribeScalingActivities

  • batch:DescribeComputeEnvironments

  • batch:DescribeJobs

  • batch:DescribeJobQueues

  • batch:ListJobs

  • cloudtrail:LookupEvents

  • ec2:DescribeIamInstanceProfileAssociations

  • ec2:DescribeInstanceAttribute

  • ec2:DescribeInstances

  • ec2:DescribeInstanceTypeOfferings

  • ec2:DescribeInstanceTypes

  • ec2:DescribeNetworkAcls

  • ec2:DescribeRouteTables

  • ec2:DescribeSecurityGroups

  • ec2:DescribeSpotFleetInstances

  • ec2:DescribeSpotFleetRequests

  • ec2:DescribeSpotFleetRequestHistory

  • ec2:DescribeSubnets

  • ec2:DescribeVpcEndpoints

  • ec2:DescribeVpcs

  • ecs:DescribeClusters

  • ecs:DescribeContainerInstances

  • ecs:ListContainerInstances

  • iam:GetInstanceProfile

  • iam:GetRole

  • iam:ListRoles

  • iam:PassRole

  • iam:SimulateCustomPolicy

  • iam:SimulatePrincipalPolicy

  • ssm:DescribeAutomationExecutions

  • ssm:DescribeAutomationStepExecutions

  • ssm:GetAutomationExecution

  • ssm:StartAutomationExecution

  • sts:GetCallerIdentity

Istruzioni

  1. Accedere a AWSSupport-TroubleshootAWSBatchJobnella AWS Systems Manager console.

  2. Seleziona Execute Automation

  3. Per i parametri di input, inserisci quanto segue:

    • AutomationAssumeRole(Facoltativo):

      L'Amazon Resource Name (ARN) del ruolo AWS Identity and Access Management (IAM) che consente a Systems Manager Automation di eseguire le azioni per tuo conto. Se non viene specificato alcun ruolo, Systems Manager Automation utilizza le autorizzazioni dell'utente che avvia questo runbook.

    • JobId(Obbligatorio):

      L'ID del AWS Batch Job bloccato nello RUNNABLE stato.

    Modulo dei parametri di input con AutomationAssumeRole e JobId campi per la configurazione del AWS Batch lavoro.
  4. Seleziona Esegui.

  5. Notate che l'automazione si avvia.

  6. Il documento esegue le seguenti operazioni:

    • PreflightPermissionChecks:

      Esegue controlli preliminari delle autorizzazioni IAM rispetto all' user/roleiniziatore. Se mancano delle autorizzazioni, questo passaggio fornisce le azioni API mancanti nella sezione Global Output.

    • ProceedOnlyIfUserHasPermission:

      I rami dipendono dal fatto che si disponga delle autorizzazioni necessarie per eseguire tutte le azioni richieste per il runbook.

    • AWSBatchJobEvaluation:

      Esegue controlli sul AWS Batch Job verificandone l'esistenza e lo RUNNABLE stato.

    • ProceedOnlyIfBatchJobExistsAndIsinRunnableState:

      Filiali in base al fatto che i lavori esistano e si trovino nello RUNNABLE stato.

    • BatchComputeEnvironmentEvaluation:

      Esegue controlli rispetto all'ambiente di AWS Batch calcolo.

    • ProceedOnlyIfComputeEnvironmentChecksAreOK:

      Filiali in base all'esito positivo dei controlli dell'ambiente di calcolo.

    • UnderlyingInfraEvaluation:

      Esegue controlli rispetto all'Auto Scaling Group o Spot Fleet Request sottostante.

    • ProceedOnlyIfInstancesNotJoiningEcsCluster:

      Filiali in base all'eventuale presenza di istanze che non si uniscono al cluster Amazon ECS.

    • EcsAutomationRunner:

      Esegue l'automazione Amazon ECS per le istanze che non entrano a far parte del cluster.

    • ExecutionResults:

      Genera output in base ai passaggi precedenti.

  7. Dopo il completamento, viene fornito l'URI per il file HTML del rapporto di valutazione:

    Collegamento alla console S3 e URI Amazon S3 per il report sull'esecuzione riuscita del runbook

    Riepilogo dei risultati di esecuzione che mostra gli errori nella configurazione dell'ambiente di calcolo e nella coda dei lavori.

Riferimenti

Systems Manager Automation