기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWSSupport-TroubleshootCloudWatchAlarm
설명
AWSSupport-TroubleshootCloudWatchAlarm 실행서는 잘못 구성되거나 문제가 있는 Amazon CloudWatch(CloudWatch) 경보 관련 문제를 식별하고 해결하는 데 도움이 됩니다. 이는 AWS APIs 및 알려진 경보 평가 로직을 활용하여 모니터링되는 지표에서 지연되거나 누락된 데이터 포인트를 감지하므로 경보 작업이 누락되거나 지연될 수 있습니다. 이 실행서는 Amazon CloudWatch(CloudWatch) 경보 관련 문제를 조사하고 해결하기 위한 구조화된 접근 방식을 제공합니다.
어떻게 작동하나요?
실행서는 다음 단계를 AWSSupport-TroubleshootCloudWatchAlarm 수행합니다.
-
Amazon CloudWatch(CloudWatch) 경보 세부 정보와
AlarmTriggerTimestamp파라미터 값을 확인하여 2,592,000초(30일) 내에 있는지 확인합니다. -
경보가 지표 또는 지표 수학을 기반으로 하는지 또는 이상 탐지기 경보인지 확인합니다.
-
경보가 데이터 상태가 부족한지 확인합니다.
-
경보에 사용된 지표(들)가
ListMetrics값과 일치하는지 확인합니다. -
지정된 타임스탬프에서 지표에 데이터 포인트(들)가 누락되었는지 확인합니다.
-
지정된 타임스탬프에 대한 최신 기록을 가져옵니다.
-
지연되거나 누락된 지표(들)로 인해 경보가 트리거되지 않았는지 확인합니다.
-
경보의 활성화된 작업(들)이 전송되었는지/전송되었는지 확인합니다.
-
모든 진단 결과를 결합하는 문제 해결 보고서를 생성합니다.
문서 유형
자동화
소유자
Amazon
플랫폼
Linux, macOS, Windows
파라미터
필수 IAM 권한
실행서를 성공적으로 사용하려면 AutomationAssumeRole 파라미터에 다음 작업이 필요합니다.
-
cloudwatch:DescribeAlarms -
cloudwatch:DescribeAlarmHistory -
cloudwatch:DescribeAnomalyDetectors -
cloudwatch:GetMetricData -
cloudwatch:GetMetricStatistics -
cloudwatch:ListMetrics
지침
다음 단계에 따라 자동화를 구성합니다.
-
Systems Manager
AWSSupport-TroubleshootCloudWatchAlarm의 문서로 이동합니다. -
Execute automation(자동화 실행)을 선택합니다.
-
입력 파라미터에 다음을 입력합니다.
-
AutomationAssumeRole(선택 사항):
-
유형:
String -
설명: (선택 사항) 사용자를 대신하여 Systems Manager Automation을 통해 작업을 수행할 수 있도록 허용하는 AWS AWS Identity and Access Management (IAM) 역할의 Amazon 리소스 이름(ARN)입니다. 역할이 지정되지 않은 경우 Systems Manager Automation은이 실행서를 시작하는 사용자의 권한을 사용합니다.
-
-
CloudWatchMetricAlarmName(필수):
-
유형:
String -
설명: (필수) 문제를 해결할 Amazon CloudWatch(CloudWatch) 지표 경보의 이름입니다.
-
허용된 패턴:
^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$
-
-
AlarmTriggerTimestamp(필수):
-
유형:
String -
설명: (필수) 경보 문제가 발생한 시점의 UTC 타임스탬프입니다. 이 정보는 문제를 해결하고 문제가 발생한 컨텍스트를 이해하는 데 매우 중요합니다. 타임스탬프 값은 오늘부터 지난 30일 이내의 시간이어야 하며 형식이어야 합니다
YYYY-MM-DDTHH:mm:ssZ. 예시:2024-10-29T09:04:00Z -
허용된 패턴:
^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$
-
-
-
실행을 선택합니다.
-
자동화가 시작됩니다.
-
문서는 다음 단계를 수행합니다.
-
VerifyRunbookInputsAmazon CloudWatch(CloudWatch) 경보 세부 정보와
AlarmTriggerTimestamp파라미터 값을 확인하여 2,592,000초(30일) 내에 있는지 확인합니다. -
UpdateSSMDocumentInputChecksVariable변수를
SSMDocumentInputChecksVerifyRunbookInputs단계의SSMDocumentInputChecks값으로 업데이트합니다. -
BranchOnAlarmIsVerified런북의 입력 확인
AlarmTriggerTimestamp및에 분기합니다CloudWatchAlarmName. -
CheckMetricAlarmType경보가 지표 또는 지표 수학을 기반으로 하는지 또는 이상 탐지기 경보인지 확인합니다.
-
CheckAlarmInInsufficientDataState경보가 데이터 상태가 부족한지 확인합니다.
-
UpdateInsufficientDataChecksVariable변수를
InsufficientDataChecksCheckAlarmInInsufficientDataState단계의InsufficientDataChecks값으로 업데이트합니다. -
BranchOnAlarmHasInsufficientDataCheckAlarmInInsufficientDataState단계의AlarmHasInsufficientData값을 분기합니다. 기본 단계는 입니다CheckMetricMismatch. -
CheckMetricMismatch경보에 사용된 지표(들)가
ListMetrics값과 일치하는지 확인합니다. -
UpdateMetricMismatchChecksVariable변수를
MetricMismatchChecksCheckMetricMismatch단계의MetricMismatchChecks값으로 업데이트합니다. -
BranchOnMetricsMatchedCheckMetricMismatch단계의MetricsMatched값을 분기합니다. 기본 단계는 입니다CheckMissingDatapoint. -
CheckMissingDatapoint지정된 타임스탬프에서 지표에 데이터 포인트(들)가 누락되었는지 확인합니다.
-
UpdateMetricMissingDatapointsChecksVariable변수을
MetricMissingDatapointsChecksCheckMissingDatapoint단계의MetricMissingDatapointsChecks값으로 업데이트합니다. -
BranchOnMetricMissingDatapointCheckMissingDatapoint단계의MetricMissingDatapoint값을 분기합니다. 기본 단계는 입니다GetAlarmHistoryDetails. -
GetAlarmHistoryDetails지정된 타임스탬프에 대한 최신 기록을 가져옵니다.
-
UpdateAlarmHistoryChecksVariable변수을
AlarmHistoryChecksGetAlarmHistoryDetails단계의AlarmHistoryChecks값으로 업데이트합니다. -
BranchOnAlarmHistoryFoundGetAlarmHistoryDetails단계의AlarmHistoryFound값을 분기합니다. 기본 단계는 입니다CheckDelayedMetric. -
CheckDelayedMetric지연되거나 누락된 지표(들)로 인해 경보가 트리거되지 않았는지 확인합니다.
-
UpdateDelayedMetricChecksVariable변수을
DelayedMetricChecksCheckDelayedMetric단계의DelayedMetricChecks값으로 업데이트합니다. -
BranchOnMetricDelayedAndDatapointsMeetThresholdCheckDelayedMetric단계의MetricDelayed및DatapointsMeetThreshold값을 분기합니다. 기본 단계는 입니다GenerateReport. -
CheckActionDelivered경보의 활성화된 작업(들)이 전송되었는지/전송되었는지 확인합니다.
-
UpdateActionDeliveredChecksVariableActionDeliveredChecksCheckActionDelivered단계의 출력ActionDeliveredChecks으로 변수를 업데이트합니다. -
GenerateReport이전 단계의 출력을 컴파일하고 보고서를 출력합니다.
-
-
실행이 완료되면 출력 섹션에서 실행의 자세한 결과를 검토합니다.
-
GenerateReport.Report
제공된 Amazon CloudWatch(CloudWatch) 지표 경보에 대한 보고서입니다.
------------------------------------------------------------------------------------------ | AWS CloudWatch Alarm Troubleshooting Results | ------------------------------------------------------------------------------------------ | Alarm Name - Demo-Alarm | | Timestamp - 2025-03-04T06:31:00Z | ------------------------------------------------------------------------------------------ | ✅ No Issue(s) Found | ------------------------------------------------------------------------------------------ ========================================================================================== 1. Validating SSM Document input parameters: ========================================================================================== ✅ [PASSED]: Found a metric alarm with name Demo-Alarm ========================================================================================== 2. Checking alarm's data state: ========================================================================================== ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM ========================================================================================== 3. Checking if the alarm experienced metric mismatches: ========================================================================================== ✅ [PASSED]: Metric matches with the configured metric for Alarm. ========================================================================================== 4. Checking if the alarm's metric(s) experienced missing datapoint(s): ========================================================================================== ✅ [PASSED]: Metric has datapoints ========================================================================================== 5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z: ========================================================================================== ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z' ========================================================================================== 6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold: ========================================================================================== ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric ========================================================================================== 7. Checking if the alarm has actions enabled and if action(s) were delivered: ========================================================================================== ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic ------------------------------------------------------------------------------------------ ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct. -
참조
Systems Manager Automation