View a markdown version of this page

AWSSupport-TroubleshootCloudWatchAlarm - AWS Systems Manager Automation 런북 참조

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWSSupport-TroubleshootCloudWatchAlarm

설명

AWSSupport-TroubleshootCloudWatchAlarm 실행서는 잘못 구성되거나 문제가 있는 Amazon CloudWatch(CloudWatch) 경보 관련 문제를 식별하고 해결하는 데 도움이 됩니다. 이는 AWS APIs 및 알려진 경보 평가 로직을 활용하여 모니터링되는 지표에서 지연되거나 누락된 데이터 포인트를 감지하므로 경보 작업이 누락되거나 지연될 수 있습니다. 이 실행서는 Amazon CloudWatch(CloudWatch) 경보 관련 문제를 조사하고 해결하기 위한 구조화된 접근 방식을 제공합니다.

어떻게 작동하나요?

실행서는 다음 단계를 AWSSupport-TroubleshootCloudWatchAlarm 수행합니다.

  • Amazon CloudWatch(CloudWatch) 경보 세부 정보와 AlarmTriggerTimestamp 파라미터 값을 확인하여 2,592,000초(30일) 내에 있는지 확인합니다.

  • 경보가 지표 또는 지표 수학을 기반으로 하는지 또는 이상 탐지기 경보인지 확인합니다.

  • 경보가 데이터 상태가 부족한지 확인합니다.

  • 경보에 사용된 지표(들)가 ListMetrics 값과 일치하는지 확인합니다.

  • 지정된 타임스탬프에서 지표에 데이터 포인트(들)가 누락되었는지 확인합니다.

  • 지정된 타임스탬프에 대한 최신 기록을 가져옵니다.

  • 지연되거나 누락된 지표(들)로 인해 경보가 트리거되지 않았는지 확인합니다.

  • 경보의 활성화된 작업(들)이 전송되었는지/전송되었는지 확인합니다.

  • 모든 진단 결과를 결합하는 문제 해결 보고서를 생성합니다.

이 자동화 실행(콘솔)

문서 유형

자동화

소유자

Amazon

플랫폼

Linux, macOS, Windows

파라미터

필수 IAM 권한

실행서를 성공적으로 사용하려면 AutomationAssumeRole 파라미터에 다음 작업이 필요합니다.

  • cloudwatch:DescribeAlarms

  • cloudwatch:DescribeAlarmHistory

  • cloudwatch:DescribeAnomalyDetectors

  • cloudwatch:GetMetricData

  • cloudwatch:GetMetricStatistics

  • cloudwatch:ListMetrics

JSON
{ "Version":"2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }

지침

다음 단계에 따라 자동화를 구성합니다.

  1. Systems ManagerAWSSupport-TroubleshootCloudWatchAlarm의 문서로 이동합니다.

  2. Execute automation(자동화 실행)을 선택합니다.

  3. 입력 파라미터에 다음을 입력합니다.

    • AutomationAssumeRole(선택 사항):

      • 유형: String

      • 설명: (선택 사항) 사용자를 대신하여 Systems Manager Automation을 통해 작업을 수행할 수 있도록 허용하는 AWS AWS Identity and Access Management (IAM) 역할의 Amazon 리소스 이름(ARN)입니다. 역할이 지정되지 않은 경우 Systems Manager Automation은이 실행서를 시작하는 사용자의 권한을 사용합니다.

    • CloudWatchMetricAlarmName(필수):

      • 유형: String

      • 설명: (필수) 문제를 해결할 Amazon CloudWatch(CloudWatch) 지표 경보의 이름입니다.

      • 허용된 패턴: ^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$

    • AlarmTriggerTimestamp(필수):

      • 유형: String

      • 설명: (필수) 경보 문제가 발생한 시점의 UTC 타임스탬프입니다. 이 정보는 문제를 해결하고 문제가 발생한 컨텍스트를 이해하는 데 매우 중요합니다. 타임스탬프 값은 오늘부터 지난 30일 이내의 시간이어야 하며 형식이어야 합니다YYYY-MM-DDTHH:mm:ssZ. 예시: 2024-10-29T09:04:00Z

      • 허용된 패턴: ^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$

  4. 실행을 선택합니다.

  5. 자동화가 시작됩니다.

  6. 문서는 다음 단계를 수행합니다.

    • VerifyRunbookInputs

      Amazon CloudWatch(CloudWatch) 경보 세부 정보와 AlarmTriggerTimestamp 파라미터 값을 확인하여 2,592,000초(30일) 내에 있는지 확인합니다.

    • UpdateSSMDocumentInputChecksVariable

      변수를 SSMDocumentInputChecks VerifyRunbookInputs 단계의 SSMDocumentInputChecks 값으로 업데이트합니다.

    • BranchOnAlarmIsVerified

      런북의 입력 확인 AlarmTriggerTimestamp 및에 분기합니다CloudWatchAlarmName.

    • CheckMetricAlarmType

      경보가 지표 또는 지표 수학을 기반으로 하는지 또는 이상 탐지기 경보인지 확인합니다.

    • CheckAlarmInInsufficientDataState

      경보가 데이터 상태가 부족한지 확인합니다.

    • UpdateInsufficientDataChecksVariable

      변수를 InsufficientDataChecks CheckAlarmInInsufficientDataState 단계의 InsufficientDataChecks 값으로 업데이트합니다.

    • BranchOnAlarmHasInsufficientData

      CheckAlarmInInsufficientDataState 단계의 AlarmHasInsufficientData 값을 분기합니다. 기본 단계는 입니다CheckMetricMismatch.

    • CheckMetricMismatch

      경보에 사용된 지표(들)가 ListMetrics 값과 일치하는지 확인합니다.

    • UpdateMetricMismatchChecksVariable

      변수를 MetricMismatchChecks CheckMetricMismatch 단계의 MetricMismatchChecks 값으로 업데이트합니다.

    • BranchOnMetricsMatched

      CheckMetricMismatch 단계의 MetricsMatched 값을 분기합니다. 기본 단계는 입니다CheckMissingDatapoint.

    • CheckMissingDatapoint

      지정된 타임스탬프에서 지표에 데이터 포인트(들)가 누락되었는지 확인합니다.

    • UpdateMetricMissingDatapointsChecksVariable

      변수을 MetricMissingDatapointsChecks CheckMissingDatapoint 단계의 MetricMissingDatapointsChecks 값으로 업데이트합니다.

    • BranchOnMetricMissingDatapoint

      CheckMissingDatapoint 단계의 MetricMissingDatapoint 값을 분기합니다. 기본 단계는 입니다GetAlarmHistoryDetails.

    • GetAlarmHistoryDetails

      지정된 타임스탬프에 대한 최신 기록을 가져옵니다.

    • UpdateAlarmHistoryChecksVariable

      변수을 AlarmHistoryChecks GetAlarmHistoryDetails 단계의 AlarmHistoryChecks 값으로 업데이트합니다.

    • BranchOnAlarmHistoryFound

      GetAlarmHistoryDetails 단계의 AlarmHistoryFound 값을 분기합니다. 기본 단계는 입니다CheckDelayedMetric.

    • CheckDelayedMetric

      지연되거나 누락된 지표(들)로 인해 경보가 트리거되지 않았는지 확인합니다.

    • UpdateDelayedMetricChecksVariable

      변수을 DelayedMetricChecks CheckDelayedMetric 단계의 DelayedMetricChecks 값으로 업데이트합니다.

    • BranchOnMetricDelayedAndDatapointsMeetThreshold

      CheckDelayedMetric 단계의 MetricDelayedDatapointsMeetThreshold 값을 분기합니다. 기본 단계는 입니다GenerateReport.

    • CheckActionDelivered

      경보의 활성화된 작업(들)이 전송되었는지/전송되었는지 확인합니다.

    • UpdateActionDeliveredChecksVariable

      ActionDeliveredChecks CheckActionDelivered 단계의 출력ActionDeliveredChecks으로 변수를 업데이트합니다.

    • GenerateReport

      이전 단계의 출력을 컴파일하고 보고서를 출력합니다.

  7. 실행이 완료되면 출력 섹션에서 실행의 자세한 결과를 검토합니다.

    • GenerateReport.Report

      제공된 Amazon CloudWatch(CloudWatch) 지표 경보에 대한 보고서입니다.

                    ------------------------------------------------------------------------------------------
                    |                     AWS CloudWatch Alarm Troubleshooting Results                       |
                    ------------------------------------------------------------------------------------------
                    |     Alarm Name                        -               Demo-Alarm                       |
                    |     Timestamp                         -               2025-03-04T06:31:00Z             |
                    ------------------------------------------------------------------------------------------
                    |     ✅ No Issue(s) Found                                                               |
                    ------------------------------------------------------------------------------------------
    
    
    
                    ==========================================================================================
                    1. Validating SSM Document input parameters:
                    ==========================================================================================
                    ✅ [PASSED]: Found a metric alarm with name Demo-Alarm
    
    
                    ==========================================================================================
                    2. Checking alarm's data state:
                    ==========================================================================================
                    ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM
    
    
                    ==========================================================================================
                    3. Checking if the alarm experienced metric mismatches:
                    ==========================================================================================
                    ✅ [PASSED]: Metric matches with the configured metric for Alarm.
    
    
                    ==========================================================================================
                    4. Checking if the alarm's metric(s) experienced missing datapoint(s):
                    ==========================================================================================
                    ✅ [PASSED]: Metric has datapoints
    
    
                    ==========================================================================================
                    5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z:
                    ==========================================================================================
                    ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z'
    
    
                    ==========================================================================================
                    6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold:
                    ==========================================================================================
                    ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric
    
    
                    ==========================================================================================
                    7. Checking if the alarm has actions enabled and if action(s) were delivered:
                    ==========================================================================================
                    ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic
    
    
                    ------------------------------------------------------------------------------------------
    
                    ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct.
                

참조

Systems Manager Automation