

# PERF 7  리소스 성능을 모니터링하려면 어떻게 해야 합니까?
<a name="w2aac19c11b9b5"></a>

 시스템 성능은 시간이 지남에 따라 저하될 수 있습니다. 시스템 성능을 모니터링하여 성능 저하 상태를 식별하고 운영 체제 또는 애플리케이션 로드와 같은 내부 또는 외부 요인을 해결합니다. 

**Topics**
+ [PERF07-BP01 성능 관련 지표 기록](perf_monitor_instances_post_launch_record_metrics.md)
+ [PERF07-BP02 이벤트 또는 인시던트 발생 시의 지표 분석](perf_monitor_instances_post_launch_review_metrics.md)
+ [PERF07-BP03 워크로드 성능을 측정하는 핵심 성능 지표(KPI) 설정](perf_monitor_instances_post_launch_establish_kpi.md)
+ [PERF07-BP04 모니터링을 사용하여 경보 기반 알림 생성](perf_monitor_instances_post_launch_generate_alarms.md)
+ [PERF07-BP05 정기적인 간격으로 지표 검토](perf_monitor_instances_post_launch_review_metrics_collected.md)
+ [PERF07-BP06 사전 모니터링 및 경보 생성](perf_monitor_instances_post_launch_proactive.md)

# PERF07-BP01 성능 관련 지표 기록
<a name="perf_monitor_instances_post_launch_record_metrics"></a>

 모니터링 및 관찰 서비스를 사용하여 성능 관련 지표를 기록합니다. 지표의 예로는 레코드 데이터베이스 트랜잭션, 속도가 느린 쿼리, I/O 지연 시간, HTTP 요청 처리량(throughput), 서비스 지연 시간 또는 기타 주요 데이터가 있습니다. 

 워크로드에 중요한 성능 지표를 확인하여 기록합니다. 워크로드의 전반적인 성능이나 효율성에 영향을 미치는 구성 요소를 파악하려면 이 데이터가 필요합니다. 

 고객 경험을 바탕으로 중요한 지표를 식별하십시오. 각 지표에 대해 목표, 측정 방식 및 우선 순위를 정합니다. 이러한 지표를 사용하여 성능 관련 문제를 사전에 해결할 수 있도록 경보와 알림을 작성합니다. 

 **일반적인 안티 패턴:** 
+  운영 체제 수준 지표만 모니터링하여 워크로드에 대한 인사이트를 얻습니다. 
+  피크 워크로드 요구 사항에 따라 컴퓨팅 요구 사항을 설계합니다. 

 **이 모범 사례 정립의 이점:** 성능 및 리소스 사용률을 최적화하려면 주요 성능 지표에 대한 통합된 운영 보기가 필요합니다. 대시보드를 생성하고 데이터에 대한 지표 산술을 수행하여 운영 및 사용률에 대한 인사이트를 도출할 수 있습니다. 

 **이 모범 사례를 정립되지 않을 경우 노출되는 위험의 수준:** 높음 

## 구현 가이드
<a name="implementation-guidance"></a>

 워크로드에 관련된 성능 지표를 식별하고 기록합니다. 이 데이터는 워크로드의 전체 성능 또는 효율성에 영향을 미치는 구성 요소를 식별하는 데 도움이 됩니다. 

 성능 지표 식별: 고객 경험을 바탕으로 가장 중요한 지표를 식별합니다. 각 지표에 대해 목표, 측정 방식 및 우선 순위를 정합니다. 이러한 데이터 포인트를 사용하여 성능 관련 문제를 사전에 해결하기 위한 경보와 알림을 작성합니다. 

## 리소스
<a name="resources"></a>

 **관련 문서:** 
+  [CloudWatch 설명서](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [CloudWatch 에이전트를 사용하여 Amazon EC2 인스턴스 및 온프레미스 서버에서 지표 및 로그 수집](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html?ref=wellarchitected) 
+  [사용자 지정 지표 게시](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html?ref=wellarchitected) 
+  [모니터링, 로깅 및 성능 APN 파트너](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 설명서](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) 

 **관련 동영상:** 
+  [Cut through the chaos: Gain operational visibility and insight(MGT301-R1)](https://www.youtube.com/watch?v=nLYGbotqHd0) 
+  [AWS의 애플리케이션 성능 관리](https://www.youtube.com/watch?v=5T4stR-HFas&ref=wellarchitected) 
+  [모니터링 플랜 세우기](https://www.youtube.com/watch?v=OMmiGETJpfU&ref=wellarchitected) 

 **관련 예시:** 
+  [레벨 100: CloudWatch 대시보드를 통한 모니터링](https://wellarchitectedlabs.com/performance-efficiency/100_labs/100_monitoring_with_cloudwatch_dashboards/) 
+  [레벨 100: CloudWatch 대시보드를 통한 Windows EC2 인스턴스 모니터링](https://wellarchitectedlabs.com/performance-efficiency/100_labs/100_monitoring_windows_ec2_cloudwatch/) 
+  [레벨 100: CloudWatch 대시보드를 통한 Amazon Linux EC2 인스턴스 모니터링](https://wellarchitectedlabs.com/performance-efficiency/100_labs/100_monitoring_linux_ec2_cloudwatch/) 

# PERF07-BP02 이벤트 또는 인시던트 발생 시의 지표 분석
<a name="perf_monitor_instances_post_launch_review_metrics"></a>

 이벤트나 인시던트에 대응하는 과정에서 모니터링 대시보드나 보고서를 사용해 이벤트/인시던트의 영향을 파악하고 진단합니다. 이러한 대시보드나 보고서에서는 예상 성능을 제공하지 못하는 워크로드의 부분을 파악할 수 있습니다. 

 아키텍처에 중요한 사용자 사례를 작성할 때는 중요한 각 사례에 필요한 실행 속도를 지정하는 등의 성능 요구 사항을 포함합니다. 이러한 중요 사례의 경우 스크립트로 작성된 사용자 여정을 추가로 구현하여 해당 사례의 성능이 요구 사항에 부합하는지 확인합니다. 

 **일반적인 안티 패턴:** 
+  성능 이벤트는 한 번 발생하고 마는 문제이며, 이상 징후와 관련된 것일 뿐이라고 가정합니다. 
+  성능 이벤트에 대응할 때 기존 성능 지표만 평가합니다. 

 **이 모범 사례 수립의 이점:** 워크로드가 예상 수준에서 작동하는지 확인하려면 분석에 사용할 추가 지표 데이터를 수집하여 성능 이벤트에 대응해야 합니다. 이 데이터는 성능 이벤트의 영향을 이해하고 워크로드 성능을 개선하기 위한 변경을 제안하는 데 사용됩니다. 

 **이 모범 사례가 수립되지 않을 경우 노출되는 위험의 수준:** 높음 

## 구현 가이드
<a name="implementation-guidance"></a>

 중요한 사용자 사례에 대한 경험 문제를 우선적으로 처리: 아키텍처에 중요한 사용자 사례를 작성할 때는 중요한 각 사례에 필요한 실행 속도를 지정하는 등의 성능 요구 사항을 포함합니다. 이러한 중요 사례의 경우 스크립트로 작성된 사용자 여정을 구현하여 이러한 사례의 성능이 요구 사항에 부합하는지 확인합니다. 

## 리소스
<a name="resources"></a>

 **관련 문서:** 
+  [CloudWatch 설명서](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [모니터링, 로깅 및 성능 APN 파트너](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 설명서](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 

 **관련 동영상:** 
+  [Cut through the chaos: Gain operational visibility and insight(MGT301-R1)](https://www.youtube.com/watch?v=nLYGbotqHd0) 
+  [Amazon CloudWatch RUM을 통한 애플리케이션 최적화](https://www.youtube.com/watch?v=NMaeujY9A9Y) 
+  [Amazon CloudWatch Synthetics 데모](https://www.youtube.com/watch?v=hF3NM9j-u7I) 

 **관련 예시:** 
+  [Amazon CloudWatch Synthetics를 활용한 페이지 로드 시간 측정](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance) 
+  [Amazon CloudWatch RUM 웹 클라이언트](https://github.com/aws-observability/aws-rum-web) 

# PERF07-BP03 워크로드 성능을 측정하는 핵심 성능 지표(KPI) 설정
<a name="perf_monitor_instances_post_launch_establish_kpi"></a>

 워크로드 성능을 양적 및 질적으로 측정하는 KPI를 식별하십시오. KPI는 비즈니스 목표와 관련된 워크로드의 상태를 측정하는 데 도움이 됩니다. KPI를 통해 비즈니스 및 엔지니어링 팀은 목표 측정값을 전략에 맞추고, 이를 조합하여 비즈니스 성과를 도출하는 방법을 파악할 수 있습니다. 비즈니스 목표, 전략 또는 최종 사용자 요구 사항이 변경되면 KPI를 다시 검토해야 합니다.   

 예를 들어, 웹 사이트 워크로드에는 전체 성능을 나타내는 지표로 페이지 로드 시간을 사용할 수 있습니다. 이 지표는 최종 사용자 경험을 측정하는 여러 데이터 포인트 중 하나입니다. 페이지 로드 시간 임계값을 파악하는 것 말고도 성능이 충족되지 않을 경우 예상되는 결과나 비즈니스 위험도 문서화해야 합니다. 페이지 로드 시간이 길면 최종 사용자에게 직접적인 영향을 주고, 사용자 경험 수준이 떨어져 고객이 이탈하는 결과가 발생할 수 있습니다. KPI 임계값을 정의할 때는 업계 벤치마크와 최종 사용자 기대치를 모두 고려해야 합니다. 가령 현재 업계 벤치마크에 따르면 웹 페이지를 2초 안에 로드하면 되지만, 최종 사용자는 웹 페이지가 1초 안에 로드될 것으로 기대한다면 이러한 데이터 포인트를 전부 고려해서 KPI를 설정해야 합니다. KPI의 또 다른 예는 내부 성능 요구 사항을 충족하는 데 초점을 맞출 수 있습니다. 프로덕션 데이터가 생성된 후 1영업일 안에 영업 보고서를 작성할 때 KPI 임계값이 설정될 수 있습니다. 이러한 보고서는 매일의 의사 결정과 비즈니스 성과에 직접적인 영향을 미칠 수 있습니다.  

 **원하는 결과:** 다양한 부서와 이해관계자가 참여하여 KPI를 수립합니다. 팀은 참조용으로 실시간 세분화된 데이터와 기록 데이터를 사용하여 워크로드 KPI를 평가하고, KPI 데이터에 대한 지표 산술을 수행하여 운영 및 활용률 인사이트를 도출하는 대시보드를 만들어야 합니다. 합의된 KPI 및 임계값을 설명하는 KPI를 문서화해야 합니다. 이러한 KPI와 임계값은 모니터링되는 지표에 매핑되어 비즈니스 목표와 전략을 지원합니다. KPI는 성능 요구 사항을 파악하는 데 활용할 수 있으며, 이를 의도적으로 검토하고 모든 팀과 자주 공유해서 정보를 파악해야 합니다. 위험과 절충안을 명확하게 식별하고 KPI 임계값이 충족되지 않으면 비즈니스에 어떤 영향이 있는지 이해해야 합니다. 

 **일반적인 안티 패턴:** 
+  시스템 수준 지표를 모니터링하여 워크로드에 대한 인사이트를 얻고, 해당 지표에 대한 비즈니스 영향을 이해하지 못합니다. 
+  KPI가 이미 표준 지표 데이터로 게시 및 공유되고 있다고 가정합니다. 
+  KPI를 정의하지만, 모든 팀과 공유하지는 않습니다. 
+  정량화되어 측정 가능한 KPI를 정의하지 않습니다. 
+  KPI를 비즈니스 목표나 전략에 맞추지 않습니다. 

 

 **이 모범 사례 정립의 이점:** 워크로드 상태를 나타내는 특정 지표를 식별하면 우선순위에 따라 팀을 조율하고 성공적인 비즈니스 성과를 정의할 수 있습니다. 이러한 지표를 모든 부서와 공유하면 임계값, 기대치 및 비즈니스에 미치는 영향을 파악하고, 이에 따른 조정이 가능해집니다. 

 **이 모범 사례를 정립되지 않을 경우 노출되는 위험의 수준:** 높음 

## 구현 가이드
<a name="implementation-guidance"></a>

 워크로드의 상태에 영향을 받는 모든 부서 및 비즈니스 팀은 KPI를 정의하는 데 기여해야 합니다. 한 사람이 조직의 KPI와 관련된 협업을 주도하고 일정, 문서, 정보를 주관해야 합니다. 이 단일 스레드 소유자는 비즈니스 목표와 전략을 공유하고 각 부서에서 KPI를 생성하는 비즈니스 이해관계자에게 작업을 할당하는 경우가 많습니다. KPI가 정의되면 운영 팀은 주로 다양한 KPI의 성공을 지원하고, 이를 알리는 지표를 정의하는 데 도움을 줍니다. KPI는 워크로드를 지원하는 모든 팀원이 KPI를 알고 있는 경우에만 효과가 있습니다. 

 **구현 단계** 

1.  비즈니스 이해관계자를 식별하고 문서화합니다. 

1.  회사의 목표와 전략을 파악합니다. 

1.  회사의 목표와 전략에 부합하는 일반적인 업계 KPI를 검토합니다. 

1.  워크로드에 대한 최종 사용자의 기대치를 검토합니다. 

1.  회사의 목표와 전략을 지원하는 KPI를 정의하고 문서화합니다. 

1.  KPI를 충족하는 데 도움이 되는 승인 절충 전략을 파악하고 문서화합니다. 

1.  KPI에 정보를 제공할 지표를 식별하고 문서화합니다. 

1.  심각도 또는 경보 수준에 대한 KPI 임계값을 식별하고 문서화합니다. 

1.  KPI가 충족되지 않을 경우의 위험과 영향을 파악하고 문서화합니다. 

1.  KPI당 검토 빈도를 파악합니다. 

1.  워크로드를 지원하는 모든 팀과 KPI 문서를 공유합니다. 

** 구현 지침의 작업 수준:** KPI를 정의하고 공유하는 데는 *낮은 수준의* 작업량이 필요합니다. 이 작업은 일반적으로 몇 주간 비즈니스 이해관계자를 만나 목표, 전략 및 워크로드 지표를 검토하는 방식으로 수행 가능합니다.

## 리소스
<a name="resources"></a>

 **관련 문서:** 
+ [CloudWatch 설명서 ](http://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [모니터링, 로깅 및 성능 APN 파트너](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+ [X-Ray 설명서 ](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Amazon CloudWatch 대시보드 사용](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html?ref=wellarchitected) 
+  [Quick KPI](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html) 

 **관련 동영상:** 
+  [AWS re:Invent 2019: Scaling up to your first 10 million users(ARC211-R)](https://www.youtube.com/watch?v=kKjm4ehYiMs&ref=wellarchitected) 
+  [Cut through the chaos: Gain operational visibility and insight(MGT301-R1)](https://www.youtube.com/watch?v=nLYGbotqHd0&ref=wellarchitected) 
+  [모니터링 플랜 세우기](https://www.youtube.com/watch?v=OMmiGETJpfU&ref=wellarchitected) 

 

 **관련 예시:** 
+  [Quick로 대시보드 생성](https://github.com/aws-samples/amazon-quicksight-sdk-proserve) 

# PERF07-BP04 모니터링을 사용하여 경보 기반 알림 생성
<a name="perf_monitor_instances_post_launch_generate_alarms"></a>

 정의한 성능 관련 KPI를 사용하여 측정값이 예상 경계를 벗어나는 경우 경보를 자동으로 생성하는 모니터링 시스템을 사용합니다. 

 Amazon CloudWatch는 아키텍처의 리소스 전반에서 지표를 수집할 수 있습니다. 또한 사용자 지정 지표를 수집하고 게시하여 비즈니스 또는 파생 지표를 파악할 수도 있습니다. CloudWatch 또는 타사 모니터링 서비스를 사용하여 임계값이 초과되었음을 나타내는 경보를 설정합니다. 이 경보는 지표가 필요한 경계를 벗어났음을 나타냅니다. 

 **일반적인 안티 패턴:** 
+  직원을 통해서만 지표를 살피고 문제가 발생할 경우 대응하도록 합니다. 
+  서버리스 워크플로를 트리거하여 동일한 작업을 수행할 수 있음에도 불구하고 운영 런북만 사용합니다. 

 **이 모범 사례 정립의 이점:** 미리 정의된 임계값 또는 지표에서 이상 동작을 식별하는 기계 학습 알고리즘을 기반으로 경보를 설정하고 작업을 자동화할 수 있습니다. 이 동일한 경보를 사용하여 서버리스 워크플로를 트리거한 다음 워크로드의 성능 특성을 수정할 수 있습니다(예: 컴퓨팅 용량 증가, 데이터베이스 구성 변경). 

 **이 모범 사례를 정립되지 않을 경우 노출되는 위험의 수준:** 보통 

## 구현 가이드
<a name="implementation-guidance"></a>

 지표 모니터링: Amazon CloudWatch는 아키텍처의 리소스 전반에서 지표를 수집할 수 있습니다. 사용자 지정 지표를 수집하고 게시하여 비즈니스 또는 파생 지표를 파악할 수 있습니다. CloudWatch 또는 타사 모니터링 서비스를 사용하여 임계값 위반 시점을 나타내는 경보를 설정합니다. 

## 리소스
<a name="resources"></a>

 **관련 문서:** 
+  [CloudWatch 설명서](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [모니터링, 로깅 및 성능 APN 파트너](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 설명서](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [CloudWatch에서 경보 및 경보 작업 사용](https://docs.aws.amazon.com/sdk-for-go/v1/developer-guide/cw-example-using-alarm-actions.html) 

 **관련 동영상:** 
+  [AWS re:Invent 2019: Scaling up to your first 10 million users(ARC211-R)](https://www.youtube.com/watch?v=kKjm4ehYiMs&ref=wellarchitected) 
+  [Cut through the chaos: Gain operational visibility and insight(MGT301-R1)](https://www.youtube.com/watch?v=nLYGbotqHd0&ref=wellarchitected) 
+  [모니터링 플랜 세우기](https://www.youtube.com/watch?v=OMmiGETJpfU&ref=wellarchitected) 
+  [Amazon CloudWatch Events에서 AWS Lambda 사용](https://www.youtube.com/watch?v=WDBD3JmpLqs) 

 **관련 예시:** 
+  [Cloudwatch Logs 사용자 지정 경보](https://github.com/awslabs/cloudwatch-logs-customize-alarms) 

# PERF07-BP05 정기적인 간격으로 지표 검토
<a name="perf_monitor_instances_post_launch_review_metrics_collected"></a>

 주기적인 유지 관리의 일환으로 또는 이벤트나 인시던트 대응 과정에서 수집된 지표를 검토합니다. 이러한 검토를 수행하면 문제를 해결하는 데 반드시 필요했던 지표와 문제를 확인/해결/방지하는 데 도움이 되었던 지표(추적한 경우)를 추가로 파악할 수 있습니다. 

 인시던트나 이벤트 대응의 일환으로 문제를 해결하는 데 도움이 되었던 지표와, 현재는 추적 중이지 않지만 도움이 되었을 수 있는 지표를 평가합니다. 이 평가 결과를 토대로 하여 수집한 지표의 품질을 개선하면 이후 인시던트를 예방하거나 더 빨리 해결할 수 있습니다. 

 **일반적인 안티 패턴:** 
+  지표가 장기간 경보 상태로 유지되는 것을 허용합니다. 
+  자동화 시스템으로 수행할 수 없는 경보를 생성합니다. 

 **이 모범 사례 수립의 이점:** 수집 중인 지표를 지속적으로 검토하여 문제가 올바르게 식별, 해결 또는 방지되는지 확인합니다. 지표를 장기간 경보 상태로 유지할 경우에도 지표가 부실해질 수 있습니다. 

 **이 모범 사례가 수립되지 않을 경우 노출되는 위험의 수준:** 보통 

## 구현 가이드
<a name="implementation-guidance"></a>

 지속적으로 지표 수집 및 모니터링 과정 개선: 인시던트나 이벤트 대응의 일환으로 문제를 해결하는 데 도움이 되었던 지표와 현재는 추적 중이지 않지만 도움이 되었을 수 있는 지표를 평가합니다. 이 방법을 사용하여 수집한 지표의 품질을 개선하면 사후 인시던트를 예방하거나 더 빨리 해결할 수 있습니다. 

## 리소스
<a name="resources"></a>

 **관련 문서:** 
+  [CloudWatch 설명서](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [CloudWatch 에이전트를 사용하여 Amazon EC2 인스턴스 및 온프레미스 서버에서 지표 및 로그 수집](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html?ref=wellarchitected) 
+  [모니터링, 로깅 및 성능 APN 파트너](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 설명서](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 

 **관련 동영상:** 
+  [Cut through the chaos: Gain operational visibility and insight(MGT301-R1)](https://www.youtube.com/watch?v=nLYGbotqHd0) 
+  [AWS의 애플리케이션 성능 관리](https://www.youtube.com/watch?v=5T4stR-HFas&ref=wellarchitected) 
+  [모니터링 플랜 세우기](https://www.youtube.com/watch?v=OMmiGETJpfU&ref=wellarchitected) 

 **관련 예시:** 
+  [Quick로 대시보드 생성](https://github.com/aws-samples/amazon-quicksight-sdk-proserve) 
+  [레벨 100: CloudWatch 대시보드를 통한 모니터링](https://wellarchitectedlabs.com/performance-efficiency/100_labs/100_monitoring_with_cloudwatch_dashboards/) 

# PERF07-BP06 사전 모니터링 및 경보 생성
<a name="perf_monitor_instances_post_launch_proactive"></a>

 KPI(핵심 성능 지표)를 모니터링 및 경보 시스템과 함께 사용하여 성능 관련 문제를 선제적으로 해결합니다. 경보를 사용하여 가능한 경우 문제를 해결하는 자동화 작업을 트리거합니다. 자동 대응이 불가능한 경우 대응을 수행할 수 있는 담당자에게 경보를 에스컬레이션합니다. 예를 들어 필요한 KPI(핵심 성과 지표) 값을 예측하고 해당 값이 특정 임계값을 초과하는 경우 경보를 생성할 수 있는 시스템이나, KPI가 필요한 값의 범위를 벗어나는 경우 배포를 자동으로 중지하거나 롤백할 수 있는 도구가 있습니다. 

 워크로드가 실행 중일 때 성능을 확인할 수 있는 프로세스를 구현합니다. 워크로드가 최적의 상태로 작동하고 있는지를 확인할 수 있도록 성능 기대치 관련 기준을 설정하고 모니터링 대시보드를 구축합니다. 

 **일반적인 안티 패턴:** 
+  워크로드에 대한 운영 변경을 수행할 수 있는 기능을 운영 직원에게만 허용합니다. 
+  사전 조치 없이 모든 경보를 운영 팀으로 필터링합니다. 

 **이 모범 사례 수립의 이점:** 경보 작업을 사전에 해결하면 지원 직원이 자동으로 실행할 수 없는 항목에 집중할 수 있습니다. 이렇게 하면 운영 직원은 모든 경보를 처리해야 하는 부담 없이 중요한 경보에만 집중할 수 있습니다. 

 **이 모범 사례가 수립되지 않을 경우 노출되는 위험의 수준:** 낮음 

## 구현 가이드
<a name="implementation-guidance"></a>

 운영 중 성능 모니터링: 워크로드가 실행될 때의 성능을 파악할 수 있는 프로세스를 구현합니다. 모니터링 대시보드를 구축하고 성능 기대치에 대한 기준을 설정합니다. 

## 리소스
<a name="resources"></a>

 **관련 문서:** 
+  [CloudWatch 설명서](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [모니터링, 로깅 및 성능 APN 파트너](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 설명서](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [CloudWatch에서 경보 및 경보 작업 사용](https://docs.aws.amazon.com/sdk-for-go/v1/developer-guide/cw-example-using-alarm-actions.html) 

 **관련 동영상:** 
+  [Cut through the chaos: Gain operational visibility and insight(MGT301-R1)](https://www.youtube.com/watch?v=nLYGbotqHd0) 
+  [AWS의 애플리케이션 성능 관리](https://www.youtube.com/watch?v=5T4stR-HFas&ref=wellarchitected) 
+  [모니터링 플랜 세우기](https://www.youtube.com/watch?v=OMmiGETJpfU&ref=wellarchitected) 
+  [Amazon CloudWatch Events에서 AWS Lambda 사용](https://www.youtube.com/watch?v=WDBD3JmpLqs) 

 **관련 예시:** 
+  [Cloudwatch Logs 사용자 지정 경보](https://github.com/awslabs/cloudwatch-logs-customize-alarms) 