View a markdown version of this page

AWSSupport-TroubleshootAWSBatchJob - AWS Systems Manager Automation 런북 참조

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWSSupport-TroubleshootAWSBatchJob

설명

AWSSupport-TroubleshootAWSBatchJob 실행서는 AWS Batch 작업이에서 STARTING 상태로 진행되지 않는 문제를 해결하는 RUNNABLE 데 도움이 됩니다.

어떻게 작동하나요?

이 실행서는 다음 검사를 수행합니다.

  • 컴퓨팅 환경이 INVALID 또는 DISABLED 상태인 경우.

  • 컴퓨팅 환경의 Max vCPU 파라미터가 작업 대기열의 작업 볼륨을 수용할 만큼 충분히 큰 경우.

  • 작업에 컴퓨팅 환경의 인스턴스 유형이 제공할 수 있는 것보다 더 많은 vCPUs 또는 메모리 리소스가 필요한 경우.

  • 작업이 GPU 기반 인스턴스에서 실행되어야 하지만 컴퓨팅 환경이 GPU 기반 인스턴스를 사용하도록 구성되지 않은 경우.

  • 컴퓨팅 환경의 Auto Scaling 그룹이 인스턴스를 시작하지 못한 경우.

  • 시작된 인스턴스가 기본 Amazon Elastic Container Service(Amazon ECS) 클러스터에 조인할 수 있는 경우 AWSSupport-TroubleshootECSContainerInstance 실행서를 실행합니다.

  • 권한 문제가 작업을 실행하는 데 필요한 특정 작업을 차단하는 경우.

중요
  • 이 실행서는 RUNNABLE 상태로 멈춘 작업과 동일한 AWS 리전에서 시작해야 합니다.

  • 이 실행서는 Amazon ECS AWS Fargate 또는 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스에 예약된 AWS Batch 작업에 대해 시작할 수 있습니다. Amazon Elastic Kubernetes Service(Amazon EKS)의 AWS Batch 작업에 대해 자동화가 시작되면 시작이 중지됩니다.

  • 인스턴스를 사용하여 작업을 실행할 수 있지만 Amazon ECS 클러스터를 등록하지 못하는 경우이 실행서는 AWSSupport-TroubleshootECSContainerInstance 자동화 실행서를 시작하여 이유를 확인합니다. 자세한 내용은 AWSSupport-TroubleshootECSContainerInstance 실행서를 참조하세요.

이 자동화 실행(콘솔)

문서 유형

자동화

소유자

Amazon

플랫폼

Linux, macOS, Windows

파라미터

  • AutomationAssumeRole

    유형: 문자열

    설명: (선택 사항) 사용자를 대신하여 Systems Manager Automation을 통해 작업을 수행할 수 있도록 허용하는 AWS Identity and Access Management (IAM) 역할의 Amazon 리소스 이름(ARN)입니다. 역할을 지정하지 않은 경우, Systems Manager Automation에서는 이 실행서를 시작하는 사용자의 권한을 사용합니다.

  • JobId

    유형: 문자열

    설명: (필수) RUNNABLE 상태가 멈춘 AWS Batch 작업의 ID입니다.

    허용된 패턴: ^[a-f0-9]{8}(-[a-f0-9]{4}){3}-[a-f0-9]{12}(:[0-9]+)?(#[0-9]+)?$

필수 IAM 권한

실행서를 성공적으로 사용하려면 AutomationAssumeRole 파라미터에 다음 작업이 필요합니다.

  • autoscaling:DescribeAutoScalingGroups

  • autoscaling:DescribeScalingActivities

  • batch:DescribeComputeEnvironments

  • batch:DescribeJobs

  • batch:DescribeJobQueues

  • batch:ListJobs

  • cloudtrail:LookupEvents

  • ec2:DescribeIamInstanceProfileAssociations

  • ec2:DescribeInstanceAttribute

  • ec2:DescribeInstances

  • ec2:DescribeInstanceTypeOfferings

  • ec2:DescribeInstanceTypes

  • ec2:DescribeNetworkAcls

  • ec2:DescribeRouteTables

  • ec2:DescribeSecurityGroups

  • ec2:DescribeSpotFleetInstances

  • ec2:DescribeSpotFleetRequests

  • ec2:DescribeSpotFleetRequestHistory

  • ec2:DescribeSubnets

  • ec2:DescribeVpcEndpoints

  • ec2:DescribeVpcs

  • ecs:DescribeClusters

  • ecs:DescribeContainerInstances

  • ecs:ListContainerInstances

  • iam:GetInstanceProfile

  • iam:GetRole

  • iam:ListRoles

  • iam:PassRole

  • iam:SimulateCustomPolicy

  • iam:SimulatePrincipalPolicy

  • ssm:DescribeAutomationExecutions

  • ssm:DescribeAutomationStepExecutions

  • ssm:GetAutomationExecution

  • ssm:StartAutomationExecution

  • sts:GetCallerIdentity

지침

  1. 콘솔에서 AWSSupport-TroubleshootAWSBatchJob으로 AWS Systems Manager 이동합니다.

  2. 자동화 실행을 선택합니다.

  3. 입력 파라미터에 다음을 입력합니다.

    • AutomationAssumeRole(선택 사항):

      사용자를 대신하여 Systems Manager Automation을 통해 작업을 수행할 수 있도록 허용하는 AWS Identity and Access Management (IAM) 역할의 Amazon 리소스 이름(ARN)입니다. 역할을 지정하지 않은 경우, Systems Manager Automation에서는 이 실행서를 시작하는 사용자의 권한을 사용합니다.

    • JobId(필수):

      RUNNABLE 상태에서 멈춘 AWS Batch 작업의 ID입니다.

    AWS Batch 작업 구성을 위한 AutomationAssumeRole 및 JobId 필드가 포함된 입력 파라미터 양식입니다.
  4. 실행을 선택합니다.

  5. 자동화가 시작됩니다.

  6. 문서는 다음 단계를 수행합니다.

    • PreflightPermissionChecks:

      시작 사용자/역할에 대해 사전 IAM 권한 검사를 수행합니다. 누락된 권한이 있는 경우이 단계에서는 전역 출력 섹션에 누락된 API 작업을 제공합니다.

    • ProceedOnlyIfUserHasPermission:

      실행서에 필요한 모든 작업에 대한 권한이 있는지 여부를 기준으로 분기합니다.

    • AWSBatchJobEvaluation:

      작업이 존재하고 RUNNABLE 상태인지 확인하는 AWS Batch 작업을 기준으로 점검을 수행합니다.

    • ProceedOnlyIfBatchJobExistsAndIsinRunnableState:

      작업이 존재하고 RUNNABLE 상태인지 여부에 따라 분기합니다.

    • BatchComputeEnvironmentEvaluation:

      AWS Batch 컴퓨팅 환경에 대한 검사를 수행합니다.

    • ProceedOnlyIfComputeEnvironmentChecksAreOK:

      컴퓨팅 환경 검사가 성공했는지 여부에 따라 분기합니다.

    • UnderlyingInfraEvaluation:

      기본 Auto Scaling 그룹 또는 스팟 플릿 요청에 대해 점검을 수행합니다.

    • ProceedOnlyIfInstancesNotJoiningEcsCluster:

      Amazon ECS 클러스터에 조인하지 않는 인스턴스가 있는지 여부를 기반으로 분기합니다.

    • EcsAutomationRunner:

      클러스터에 조인하지 않는 인스턴스에 대해 Amazon ECS 자동화를 실행합니다.

    • ExecutionResults:

      이전 단계를 기반으로 출력을 생성합니다.

  7. 완료 후 평가 보고서 HTML 파일의 URI가 제공됩니다.

    실행서의 성공적인 실행에 대한 보고서의 S3 콘솔 링크 및 Amazon S3 URI

    컴퓨팅 환경 설정 및 작업 대기열의 오류를 보여주는 실행 결과 요약입니다.

참조

Systems Manager Automation