View a markdown version of this page

사고 탐지 및 대응의 워크로드 온보딩 및 경보 수집 설문지 - AWS 사고 탐지 및 대응 사용 설명서

사고 탐지 및 대응의 워크로드 온보딩 및 경보 수집 설문지

이 페이지에서는 AWS 사고 탐지 및 대응에 워크로드를 온보딩하고 서비스에 수집하도록 경보를 구성할 때 완료해야 하는 설문지를 제공합니다. 워크로드 온보딩 설문은 워크로드, 아키텍처 세부 정보 및 인시던트 대응을 위한 연락처에 대한 일반적인 정보를 다룹니다. 경보 수집 설문지에서는 워크로드에 대한 인시던트 감지 및 대응에서 인시던트 생성을 트리거해야 하는 중요한 경보와 누구에게 연락해야 하는지, 어떤 조치를 취해야 하는지에 대한 런북 정보를 지정합니다. 이러한 설문지를 올바르게 작성하는 것은 AWS 워크로드에 대한 모니터링 및 인시던트 대응 프로세스를 설정하는 주요 단계입니다.

워크로드 온보딩 설문지를 다운로드합니다.

경보 수집 설문지를 다운로드합니다.

워크로드 온보딩 설문지 - 일반 질문

일반 질문
질문 응답의 예
엔터프라이즈 이름

Amazon Inc.

이 워크로드의 이름(약어 포함)

Amazon Retail Operations(ARO)

기본 최종 사용자 및 이 워크로드의 함수입니다.

이 워크로드는 최종 사용자가 다양한 항목을 구매할 수 있는 전자 상거래 애플리케이션입니다. 이 워크로드는 비즈니스의 주요 수익 창출기입니다.

이 워크로드에 적용되는 규정 준수 및/또는 규제 요구 사항과 인시던트 발생 후 AWS에 필요한 모든 조치.

워크로드는 보안 및 기밀을 유지해야 하는 환자 건강 기록을 처리합니다.

워크로드 온보딩 설문지 - 아키텍처 질문

아키텍처 질문
질문 응답의 예

이 워크로드의 일부인 리소스를 정의하는 데 사용되는 AWS 리소스 태그 목록입니다. AWS는 이러한 태그를 사용하여 이 워크로드의 리소스를 식별하여 인시던트 발생 시 지원을 신속하게 처리합니다.

참고

태그는 대/소문자를 구분합니다. 여러 태그를 제공하는 경우 이 워크로드에서 사용하는 모든 리소스에 동일한 태그가 있어야 합니다.

appName: Optimax

환경: 프로덕션

이 워크로드와 해당 워크로드가 속한 AWS 계정 및 리전에서 사용하는 AWS 서비스 목록입니다.

참고

각 서비스에 대해 새 행을 생성합니다.

Route 53: 인터넷 트래픽을 ALB로 라우팅합니다.

계정: 123456789101

리전: US-EAST-1, US-WEST-2

이 워크로드와 해당 워크로드가 속한 AWS 계정 및 리전에서 사용하는 AWS 서비스 목록입니다.

참고

각 서비스에 대해 새 행을 생성합니다.

ALB: 수신 트래픽을 ECS 컨테이너의 대상 그룹으로 라우팅합니다.

계정: 123456789101

리전: 해당 사항 없음

이 워크로드와 해당 워크로드가 속한 AWS 계정 및 리전에서 사용하는 AWS 서비스 목록입니다.

참고

각 서비스에 대해 새 행을 생성합니다.

ECS: 주요 비즈니스 로직 플릿을 위한 컴퓨팅 인프라입니다. 수신 사용자 요청을 처리하고 지속성 계층에 대한 쿼리를 수행할 책임이 있습니다.

계정: 123456789101

리전: US-EAST-1

이 워크로드와 해당 워크로드가 속한 AWS 계정 및 리전에서 사용하는 AWS 서비스 목록입니다.

참고

각 서비스에 대해 새 행을 생성합니다.

RDS: Amazon Aurora 클러스터는 ECS 비즈니스 로직 계층에서 액세스하는 사용자 데이터를 저장합니다.

계정: 123456789101

리전: US-EAST-1

이 워크로드와 해당 워크로드가 속한 AWS 계정 및 리전에서 사용하는 AWS 서비스 목록입니다.

참고

각 서비스에 대해 새 행을 생성합니다.

S3: 웹 사이트 정적 자산을 저장합니다.

계정: 123456789101

리전: 해당 사항 없음

중단이 발생할 경우 이 워크로드에 영향을 미칠 수 있는 온보딩되지 않은 업스트림/다운스트림 구성 요소를 자세히 설명합니다. 인증 마이크로서비스: 사용자가 인증되지 않은 상태 레코드를 로드하지 못하도록 합니다.
이 워크로드에 온프레미스 또는 비AWS 구성 요소가 있나요? 그렇다면 무엇이고 어떤 함수가 수행되나요? AWS의 모든 인터넷 기반 트래픽은 온프레미스 프록시 서비스를 통해 라우팅됩니다.
가용 영역 및 리전 수준에서 수동 또는 자동 장애 조치/재해 복구 계획에 대한 세부 정보를 제공합니다. 예열 대기 방식입니다. 성공률이 지속적으로 저하되는 동안 US-WEST-2로의 자동 장애 조치입니다.

경보 수집 설문지

런북 질문
질문 응답의 예

AWS는 지원 사례를 통해 워크로드 연락처에 참여합니다. 이 워크로드에 대해 경보가 트리거될 때 기본 연락처는 누구인가요?

선호하는 회의 애플리케이션을 지정하면 인시던트 발생 시 AWS가 세부 정보를 요청합니다.

참고

선호하는 회의 애플리케이션이 제공되지 않은 경우 AWS는 인시던트 발생 시 연락하여 조인할 수 있는 Chime 브리지를 제공합니다.

애플리케이션 팀

app@example.com

+61 2 3456 7890

인시던트 발생 시 기본 연락처를 사용할 수 없는 경우 선호하는 커뮤니케이션 순서로 에스컬레이션 연락처와 타임라인을 제공하세요.

1. 10분 후 기본 연락처의 응답이 없는 경우 다음을 수행합니다.

John Smith - 애플리케이션 감독자

john.smith@example.com

+61 2 3456 7890

2. 10분 후 John Smith의 응답이 없는 경우 다음으로 문의하세요.

Jane Smith - 운영 관리자

jane.smith@example.com

+61 2 3456 7890

AWS는 인시던트 전반에 걸쳐 정기적으로 지원 사례를 통해 업데이트를 전달합니다. 이러한 업데이트를 받아야 하는 추가 연락처가 있나요?

john.smith@example.com, jane.smith@example.com

경보 매트릭스

다음 정보를 제공하여 워크로드를 대신하여 인시던트를 생성하기 위해 AWS 사고 탐지 및 대응과 관련된 경보 세트를 식별합니다. AWS 사고 탐지 및 대응의 엔지니어가 경보를 검토하면 추가 온보딩 단계가 제공됩니다.

AWS 사고 탐지 및 대응 중요 경보 기준:

  • AWS 사고 탐지 및 대응 경보는 즉각적인 운영자 주의가 필요한 모니터링되는 워크로드에 상당한 비즈니스 영향(수익 손실/고객 경험 저하)이 있을 때만 ‘경보’ 상태로 전환되어야 합니다.

  • AWS 사고 탐지 및 대응 경보는 동시에 또는 참여 전에 워크로드에 대한 해석기를 참여시켜야 합니다. AWS 인시던트 관리자는 완화 프로세스에서 해석기와 협업하며, 1차 대응 담당자 역할을 하지 않습니다. 대응 담당자는 사용자에게 에스컬레이션합니다.

  • AWS 사고 탐지 및 대응 경보 임곗값은 경보가 조사를 실행할 때마다 적절한 임곗값 및 기간으로 설정해야 합니다. 경보가 ‘경보’ 상태와 ‘정상’ 상태 사이에서 이동하는 경우 운영자의 응답과 주의를 끌기에 충분한 영향이 발생합니다.

기준 위반에 대한 AWS 사고 탐지 및 대응 정책:

이러한 기준은 이벤트가 발생할 때 사례별로만 평가할 수 있습니다. 인시던트 관리 팀은 기술 계정 관리자(TAM)와 협력하여 경보를 조정하고 드물게 고객 경보가 이 기준을 준수하지 않는 것으로 의심되고 인시던트 관리 팀을 정기적으로 참여시키는 경우 모니터링을 비활성화합니다.

중요

런북 업데이트 없이 수신자 추가 및 삭제를 제어할 수 있도록 연락처 주소를 제공할 때 그룹 배포 이메일 주소를 제공합니다.

초기 참여 이메일을 보낸 후 AWS 사고 탐지 및 대응 팀이 전화를 걸도록 하려면 사이트 신뢰성 엔지니어링(SRE) 팀의 연락처 전화번호를 제공합니다.

경보 매트릭스 테이블
지표 이름/ARN/임곗값 설명 참고 요청된 작업

워크로드 볼륨 /

CW 경보 ARN /

5분 이내에 5개의 데이터 포인트에 대해 CallCount < 100000, 누락된 데이터를 누락으로 처리

이 지표는 Application Load Balancer 수준에서 측정된 워크로드로 들어오는 수신 요청 수를 나타냅니다.

이 경보는 수신 요청이 크게 감소하면 업스트림 네트워크 연결 문제 또는 사용자가 워크로드에 액세스할 수 없게 되는 DNS 구현 문제를 나타낼 수 있으므로 중요합니다.

경보가 지난주에 ‘경보’ 상태로 10회 전환되었습니다. 이 경보는 거짓 긍정의 위험이 있습니다. 임곗값 검토가 계획되어 있습니다.

문제가 있나요? 아니요 또는 예(아니요인 경우 비워 둠):이 경보는 특정 배치 작업 실행 중에 자주 뒤집힙니다.

해석기: 사이트 신뢰성 엔지니어

SRE@example.com으로 이메일을 보내 사이트 신뢰성 엔지니어링 팀을 참여시킵니다.

ELB 및 Amazon Route 53 서비스에 대한 AWS Support 사례를 생성합니다.

즉각적인 작업이 필요한 경우: EC2 여유 메모리/디스크 공간을 확인하고 예제 팀에 이메일을 통해 인스턴스를 다시 시작하거나 로그 플러시를 실행합니다(즉각적인 작업이 필요하지 않은 경우 비워 둠).

워크로드 요청 지연 시간 /

CW 경보 ARN /

5분 이내에 5개의 데이터 포인트에 대해 p90 지연 시간 > 100ms, 누락된 데이터를 누락으로 처리

이 지표는 워크로드가 이행할 HTTP 요청의 p90 지연 시간을 나타냅니다.

이 경보는 웹 사이트에 대한 고객 경험의 중요한 척도인 지연 시간을 나타냅니다.

경보가 지난주에 ‘경보’ 상태로 0회 전환되었습니다.

문제가 있나요? 아니요 또는 예(아니요인 경우 비워 둠):이 경보는 특정 배치 작업 실행 중에 자주 뒤집힙니다.

해석기: 사이트 신뢰성 엔지니어

SRE@example.com으로 이메일을 보내 사이트 신뢰성 엔지니어링 팀을 참여시킵니다.

ECW 및 RDS 서비스에 대한 AWS Support 사례를 생성합니다.

즉각적인 작업이 필요한 경우: EC2 여유 메모리/디스크 공간을 확인하고 예제 팀에 이메일을 통해 인스턴스를 다시 시작하거나 로그 플러시를 실행합니다(즉각적인 작업이 필요하지 않은 경우 비워 둠).

워크로드 요청 가용성 /

CW 경보 ARN /

5분 이내에 5개의 데이터 포인트에 대해 가용성 < 95%인 경우 누락된 데이터를 누락으로 처리합니다.

이 지표는 워크로드가 이행할 HTTP 요청의 가용성을 나타냅니다(HTTP 200 수/요청 수).

이 경보는 워크로드의 가용성을 나타냅니다.

경보가 지난주에 ‘경보’ 상태로 0회 전환되었습니다.

문제가 있나요? 아니요 또는 예(아니요인 경우 비워 둠):이 경보는 특정 배치 작업 실행 중에 자주 뒤집힙니다.

해석기: 사이트 신뢰성 엔지니어

SRE@example.com으로 이메일을 보내 사이트 신뢰성 엔지니어링 팀을 참여시킵니다.

ELB 및 Amazon Route 53 서비스에 대한 AWS Support 사례를 생성합니다.

즉각적인 작업이 필요한 경우: EC2 여유 메모리/디스크 공간을 확인하고 예제 팀에 이메일을 통해 인스턴스를 다시 시작하거나 로그 플러시를 실행합니다(즉각적인 작업이 필요하지 않은 경우 비워 둠).

 

New Relic 경보 예제

엔드 투 엔드 통합 테스트 /

CW 경보 ARN /

3분 동안 1분 지표의 실패율 3%, 누락된 데이터를 누락으로 처리

워크로드 식별자: 엔드 투 엔드 테스트 워크플로, AWS 리전: US-EAST-1, AWS 계정 ID: 012345678910

이 지표는 요청이 워크로드의 각 계층을 통과할 수 있는지 테스트합니다. 이 테스트가 실패하면 비즈니스 트랜잭션을 처리하는 데 심각한 실패를 나타냅니다.

이 경보는 워크로드에 대한 비즈니스 트랜잭션을 처리하는 기능을 나타냅니다.

경보가 지난주에 ‘경보’ 상태로 0회 전환되었습니다.

문제가 있나요? 아니요 또는 예(아니요인 경우 비워 둠):이 경보는 특정 배치 작업 실행 중에 자주 뒤집힙니다.

해석기: 사이트 신뢰성 엔지니어

SRE@example.com으로 이메일을 보내 사이트 신뢰성 엔지니어링 팀을 참여시킵니다.

Amazon Elastic Container Service 및 Amazon DynamoDB 서비스에 대한 AWS Support 사례를 생성합니다.

즉각적인 작업이 필요한 경우: EC2 여유 메모리/디스크 공간을 확인하고 예제 팀에 이메일을 통해 인스턴스를 다시 시작하거나 로그 플러시를 실행합니다(즉각적인 작업이 필요하지 않은 경우 비워 둠).