View a markdown version of this page

사고 탐지 및 대응에서 경보 정의 및 구성 - AWS 사고 탐지 및 대응 사용 설명서

사고 탐지 및 대응에서 경보 정의 및 구성

AWS는 사용자와 협력하여 지표 및 경보를 정의하여 애플리케이션 및 기본 AWS 인프라의 성능에 대한 가시성을 제공합니다. 임곗값을 정의하고 구성할 때 경보가 다음 기준을 준수하도록 요청합니다.

  • 경보는 즉각적인 운영자 주의가 필요한 모니터링되는 워크로드(수익 손실 또는 성능이 크게 저하되는 고객 경험 저하)에 심각한 영향을 미치는 경우에만 ‘경보’ 상태로 전환됩니다.

  • 또한 경보는 인시던트 관리 팀을 참여시키는 동시에 또는 참여 전에 워크로드에 대해 지정된 해석기를 참여시켜야 합니다. 인시던트 관리 엔지니어는 완화 프로세스에서 지정된 해석기와 협업해야 하며, 일선 대응 담당자 역할을 하지 않고 에스컬레이션해야 합니다.

  • 경보 임곗값은 경보가 조사를 실행할 때마다 적절한 임곗값 및 기간으로 설정해야 합니다. 경보가 ‘경보’ 상태와 ‘정상’ 상태 사이를 오가는 경우 운영자의 응답과 주의를 끌기에 충분한 영향이 발생합니다.

경보 유형:

  • 비즈니스 영향 수준을 설명하고 간단한 장애 감지를 위해 관련 정보를 전달하는 경보입니다.

  • Amazon CloudWatch 카나리. 자세한 내용은 카나리 및 X-Ray 추적X-Ray를 참조하세요.

  • 집계 경보(종속성 모니터링)

다음 표에는 CloudWatch 모니터링 시스템을 사용하는 경보의 예가 나와 있습니다.

지표 이름/경보 임곗값 경보 ARN 또는 리소스 ID 이 경보가 실행되는 경우 참여하는 경우 이러한 서비스에 대한 Premium Support Case를 자릅니다.

API 오류 /

10개의 데이터 포인트에 대해 오류 수 >= 10

arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors

데이터베이스 관리자(DBA) 팀으로 티켓 잘라내기

Lambda API Gateway

ServiceUnavailable(HTTP 상태 코드 503)

5분 동안 10개의 데이터 포인트(다른 클라이언트)에 대한 오류 수 >=3

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503

서비스 팀으로 티켓 자르기

Lambda API Gateway

ThrottlingException(HTTP 상태 코드 400)

5분 동안 10개의 데이터 포인트(다른 클라이언트)에 대한 오류 수 >=3

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400

서비스 팀으로 티켓 자르기

EC2, Amazon Aurora

자세한 내용은 AWS 사고 탐지 및 대응 모니터링 및 관찰성 섹션을 참조하세요.

자동화 도구를 사용하여 경보를 온보딩하려는 경우 사고 탐지 및 대응 명령줄 인터페이스(CLI)를 사용하면 경보를 배포하고 온보딩할 수 있습니다. 자세한 내용은 AWS 사고 탐지 및 대응 CLI 섹션을 참조하세요.

핵심 결과물:

  • 워크로드에 대한 경보의 정의 및 구성입니다.

  • 온보딩 설문지의 경보 세부 정보 작성.