AWS 사고 탐지 및 대응이란 무엇인가요?
AWS 사고 탐지 및 대응은 적격 AWS Enterprise Support 고객에게 선제적 인시던트 참여를 제공하여 장애 발생 가능성을 줄이고 중단 발생 시 중요한 워크로드의 복구를 가속화합니다. 사고 탐지 및 대응을 통해 AWS와 협력하여 온보딩된 각 워크로드에 맞게 사용자 지정된 런북 및 대응 계획을 개발할 수 있습니다.
사고 탐지 및 대응은 다음과 같은 주요 기능을 제공합니다.
향상된 관찰성: AWS 전문가는 워크로드의 애플리케이션 계층과 인프라 계층 간에 지표와 경보를 정의하고 상호 연관시켜 중단을 조기에 탐지하는 데 도움이 되는 지침을 제공합니다.
5분 응답 시간: 인시던트 관리 엔지니어(IME)는 온보딩된 워크로드를 연중무휴 모니터링하여 중요한 인시던트를 탐지합니다. IME는 경보 트리거 후 5분 이내에 또는 사고 탐지 및 대응에 제기한 비즈니스 크리티컬 지원 사례에 대응합니다.
더 빠른 해결: IME는 워크로드용으로 개발된 사전 정의된 사용자 지정 런북을 사용하여 5분 이내에 대응하고, 사용자를 대신하여 지원 사례를 생성하고, 워크로드에서 인시던트를 관리합니다. IME가 인시던트에 대한 단일 스레드 소유권을 제공하고 인시던트가 해결될 때까지 적절한 AWS 전문가와 계속 소통합니다.
장애 가능성 감소: 해결 후 IME는 인시던트 후 검토(요청 시)를 제공합니다. 또한 AWS 전문가는 고객과 협력해 학습한 교훈을 적용하여 인시던트 대응 계획 및 런북을 개선합니다. 워크로드에 대한 지속적인 복원력 추적을 위해 AWS Resilience Hub를 활용할 수도 있습니다.