View a markdown version of this page

CloudWatch 경보 수집 - AWS 사고 탐지 및 대응 사용 설명서

CloudWatch 경보 수집

AWS 사고 탐지 및 대응은 Amazon CloudWatch 경보를 수집하여 중요한 워크로드에 대한 사전 모니터링을 제공할 수 있습니다. AWS 사고 탐지 및 대응은 모니터링을 위해 Amazon CloudWatch 경보를 수집하여 다음을 수행할 수 있습니다.

  • 경보가 ‘경보’ 상태가 되면 자동으로 감지합니다.

  • 팀을 참여시켜 공동으로 대응하고 인시던트를 해결합니다.

온보딩하는 경보의 효과를 보장하기 위해 AWS 사고 탐지 및 대응은 다음 모범 사례를 권장합니다.

  • 지표 수학 표현식으로 경보를 구성하여 정기적인 유지 관리 또는 배치 작업 실행 기간 동안 경보를 억제함으로써 오탐지 경보 개입을 방지합니다.

  • 예상 데이터 포인트 전송 빈도를 기반으로 경보에 대한 누락 데이터 처리를 설정합니다. 예를 들어 데이터 포인트의 연속 스트림을 생성하는 경보 모니터링 지표는 누락된 데이터를 ‘위반’(잘못됨)으로 처리해야 합니다. 누락된 데이터 포인트는 모니터링되는 기본 리소스에 문제가 있음을 나타낼 수 있기 때문입니다. 반대로 실패 또는 오류가 발생할 때 데이터 포인트만 기록하는 경보 모니터링 지표와 같이 데이터 포인트를 자주 보고하지 않는 경보 모니터링 지표는 누락된 데이터를 ‘위반이 아님’(양호)으로 처리해야 합니다.

  • 워크로드에 심각하고 지속적인 영향이 있을 때 ‘경보’ 상태가 되는 경보를 정의합니다. 예를 들어 비정상 리소스를 처음 감지하는 대신 비정상 리소스를 자동으로 교체하는 데 필요한 예상 시간 이후에 트리거되도록 경보를 구성합니다.

  • 워크로드의 고객 경험을 직접 나타내는 사용자 지정 지표에 대한 경보를 식별하고 생성합니다.

일반적인 AWS 서비스에 권장되는 Amazon CloudWatch 경보 목록은 AWS re:Post의 사고 탐지 및 대응 경보 모범 사례를 참조하세요.