

# Jalankan
<a name="a-operate"></a>

**Topics**
+ [

# OPS 8. Bagaimana cara memanfaatkan observabilitas beban kerja di organisasi Anda?
](ops-08.md)
+ [

# OPS 9. Bagaimana cara memahami kondisi operasi Anda?
](ops-09.md)
+ [

# OPS 10. Bagaimana cara mengelola peristiwa operasi dan beban kerja?
](ops-10.md)

# OPS 8. Bagaimana cara memanfaatkan observabilitas beban kerja di organisasi Anda?
<a name="ops-08"></a>

Memastikan kondisi beban kerja yang optimal dengan memanfaatkan observabilitas. Memanfaatkan metrik, log, dan jejak yang relevan untuk mendapatkan pandangan komprehensif tentang kinerja beban kerja Anda dan mengatasi masalah secara efisien.

**Topics**
+ [

# OPS08-BP01 Menganalisis metrik beban kerja
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 Menganalisis log beban kerja
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 Menganalisis jejak beban kerja
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 Membuat dasbor
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Menganalisis metrik beban kerja
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Setelah mengimplementasikan telemetri aplikasi, lakukan analisis terhadap metrik yang dikumpulkan secara rutin. Latensi, permintaan, kesalahan, dan kapasitas (atau kuota) memang memberikan wawasan tentang performa sistem, tetapi memprioritaskan peninjauan terhadap metrik hasil bisnis adalah hal yang sangat penting. Ini akan memastikan Anda mengambil keputusan berbasis data yang selaras dengan tujuan-tujuan bisnis Anda. 

 **Hasil yang diharapkan:** Wawasan akurat tentang performa beban kerja yang mendorong keputusan berdasarkan informasi data, sehingga memastikan keselarasan dengan tujuan bisnis. 

 **Anti-pola umum:** 
+  Menganalisis metrik secara terpisah tanpa mempertimbangkan dampak-dampak yang ditimbulkannya terhadap hasil bisnis. 
+  Ketergantungan berlebihan pada metrik teknis sekaligus mengesampingkan metrik bisnis. 
+  Peninjauan metrik jarang dilakukan, sehingga peluang pengambilan keputusan waktu nyata terlewatkan. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Peningkatan pemahaman tentang korelasi antara performa teknis dan hasil bisnis. 
+  Perbaikan proses pengambilan keputusan yang berlandaskan data waktu nyata. 
+  Melakukan identifikasi dan mitigasi masalah secara proaktif sebelum hasil bisnis terkena dampaknya. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Manfaatkan alat seperti Amazon CloudWatch untuk melakukan analisis metrik. AWS layanan seperti deteksi CloudWatch anomali dan Amazon DevOps Guru dapat digunakan untuk mendeteksi anomali, terutama ketika ambang batas statis tidak diketahui atau ketika pola perilaku lebih cocok untuk deteksi anomali. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Lakukan analisis dan peninjauan:** Tinjau dan tafsirkan metrik beban kerja Anda secara rutin. 

   1.  Memprioritaskan metrik hasil bisnis daripada metrik teknis murni. 

   1.  Memahami arti penting dari lonjakan, penurunan, atau pola dalam data Anda. 

1.  **Manfaatkan Amazon CloudWatch:** Gunakan Amazon CloudWatch untuk tampilan terpusat dan analisis mendalam. 

   1.  Konfigurasikan CloudWatch dasbor untuk memvisualisasikan metrik Anda dan membandingkannya dari waktu ke waktu. 

   1.  Gunakan [persentil CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) untuk mendapatkan pandangan yang jelas tentang distribusi metrik, yang dapat membantu dalam mendefinisikan SLAs dan memahami outlier. 

   1.  Siapkan [deteksi CloudWatch anomali](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) untuk mengidentifikasi pola yang tidak biasa tanpa bergantung pada ambang batas statis. 

   1.  Menerapkan [observabilitas CloudWatch lintas akun](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) untuk memantau dan memecahkan masalah aplikasi yang menjangkau beberapa akun dalam suatu Wilayah. 

   1.  Gunakan [Wawasan CloudWatch Metrik](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) untuk menanyakan dan menganalisis data metrik di seluruh akun dan Wilayah, mengidentifikasi tren dan anomali. 

   1.  Terapkan [CloudWatch Metric Math](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) untuk mengubah, menggabungkan, atau melakukan perhitungan pada metrik Anda untuk wawasan yang lebih dalam. 

1.  **Mempekerjakan Amazon DevOps Guru:** Gabungkan [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) untuk deteksi anomali yang ditingkatkan pembelajaran mesin untuk mengidentifikasi tanda-tanda awal masalah operasional untuk aplikasi tanpa server Anda dan memperbaikinya sebelum berdampak pada pelanggan Anda. 

1.  **Lakukan optimalisasi berdasarkan wawasan:** Ambil keputusan cerdas berdasarkan analisis metrik Anda untuk menyesuaikan dan meningkatkan beban kerja Anda. 

 **Tingkat upaya untuk Rencana Implementasi:** Sedang 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Melaksanakan telemetri aplikasi](ops_observability_application_telemetry.md) 

 **Dokumen terkait:** 
+ [ The Wheel Blog - Menekankan pentingnya peninjauan metrik secara terus-menerus ](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [ Persentil itu penting ](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [Menggunakan AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch observabilitas lintas akun](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [Kueri metrik Anda dengan Wawasan CloudWatch Metrik](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Video terkait:** 
+ [Aktifkan Observabilitas Lintas Akun di Amazon CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Pengantar Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Terus Menganalisis Metrik menggunakan AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Contoh terkait:** 
+ [ Lokakarya Satu Observabilitas ](https://catalog.workshops.aws/observability/en-US/intro)
+ [Mendapatkan wawasan operasi dengan AIOps menggunakan Amazon Guru DevOps](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Menganalisis log beban kerja
<a name="ops_workload_observability_analyze_workload_logs"></a>

 Melakukan analisis log beban kerja secara rutin merupakan hal yang sangatlah penting untuk mendapatkan pemahaman yang lebih mendalam tentang aspek-aspek operasional aplikasi Anda. Dengan memilah-milah, memvisualisasikan, dan menafsirkan data log secara efisien, Anda akan dapat terus mengoptimalkan performa dan keamanan aplikasi. 

 **Hasil yang diinginkan:** Wawasan yang kaya tentang perilaku dan operasi aplikasi yang berasal dari analisis log yang dilakukan secara menyeluruh, sehingga akan memastikan deteksi dan mitigasi masalah yang proaktif. 

 **Anti-pola umum:** 
+  Mengabaikan analisis log sampai ada masalah kritis yang muncul. 
+  Tidak menggunakan rangkaian alat lengkap yang tersedia untuk melakukan analisis log, sehingga ada wawasan kritis yang terlewatkan. 
+  Hanya mengandalkan tinjauan log manual tanpa memanfaatkan kemampuan-kemampuan otomatisasi dan kueri. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Lakukan identifikasi kemacetan operasional, ancaman keamanan, dan masalah-masalah potensial lain secara proaktif. 
+  Pemanfaatan data log yang efisien untuk optimalisasi aplikasi yang berkelanjutan. 
+  Peningkatan pemahaman tentang perilaku aplikasi, sehingga itu akan membantu Anda dalam melakukan upaya debugging dan pemecahan masalah. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) adalah alat yang ampuh untuk analisis log. Fitur terintegrasi seperti Wawasan CloudWatch Log dan Wawasan Kontributor membuat proses memperoleh informasi yang bermakna dari log menjadi intuitif dan efisien. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Siapkan CloudWatch Log**: Konfigurasikan aplikasi dan layanan untuk mengirim CloudWatch log ke Log. 

1.  **Gunakan deteksi anomali log: Manfaatkan deteksi** [anomali CloudWatch Amazon Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) untuk secara otomatis mengidentifikasi dan memperingatkan pola log yang tidak biasa. Alat ini akan membantu Anda secara proaktif mengelola anomali-anomali yang terjadi dalam log Anda dan mendeteksi setiap potensi masalah sejak dini. 

1.  **Siapkan Wawasan CloudWatch Log**: Gunakan [Wawasan CloudWatch Log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) untuk mencari dan menganalisis data log Anda secara interaktif. 

   1.  Buat kueri untuk mengekstrak pola, memvisualisasikan data log, dan memperoleh wawasan yang dapat Anda tindaklanjuti. 

   1.  Gunakan [analisis pola Wawasan CloudWatch Log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) untuk menganalisis dan memvisualisasikan pola log yang sering. Fitur ini akan membantu Anda memahami tren operasional umum dan setiap potensi penyimpangan yang ada dalam data log Anda. 

   1.  Gunakan [perbandingan CloudWatch Log (diff)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) untuk melakukan analisis diferensial antara periode waktu yang berbeda atau di seluruh grup log yang berbeda. Gunakan kemampuan ini untuk mendeteksi perubahan-perubahan yang terjadi dan menilai dampaknya terhadap kinerja atau perilaku sistem Anda. 

1.  **Pantau log secara real-time dengan Live Tail:** Gunakan [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) untuk melihat data log secara real-time. Anda dapat secara aktif memantau aktivitas operasional aplikasi Anda saat sedang berlangsung, yang memberikan visibilitas langsung kepada Anda mengenai kinerja sistem dan potensi masalah. 

1.  **Manfaatkan Wawasan Kontributor: Gunakan Wawasan CloudWatch** [Kontributor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) untuk mengidentifikasi pembicara teratas dalam dimensi kardinalitas tinggi seperti alamat IP atau agen pengguna. 

1.  **Menerapkan filter metrik CloudWatch Log**: Konfigurasikan [filter metrik CloudWatch Log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) untuk mengonversi data log menjadi metrik yang dapat ditindaklanjuti. Ini memungkinkan Anda untuk mengatur alarm atau melakukan analisis pola lebih lanjut. 

1.  **Menerapkan [observabilitas CloudWatch lintas akun](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** Pantau dan pecahkan masalah aplikasi yang menjangkau beberapa akun dalam suatu Wilayah. 

1.  **Lakukan peninjauan dan penyempurnaan secara rutin**: Tinjau strategi analisis log Anda secara berkala untuk menangkap semua informasi yang relevan dan terus mengoptimalkan performa aplikasi. 

 **Tingkat upaya untuk rencana implementasi:** Sedang 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Melaksanakan telemetri aplikasi](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Menganalisis metrik beban kerja](ops_workload_observability_analyze_workload_metrics.md) 

 **Dokumen terkait:** 
+  [Menganalisis Data Log dengan Wawasan CloudWatch Log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Menggunakan CloudWatch Wawasan Kontributor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Membuat dan Mengelola Filter Metrik CloudWatch Log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Video terkait:** 
+  [Menganalisis Data Log dengan Wawasan CloudWatch Log](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Gunakan Wawasan CloudWatch Kontributor untuk Menganalisis Data Kardinalitas Tinggi](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Contoh terkait:** 
+  [CloudWatch Pertanyaan Contoh Log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [Lokakarya Satu Observabilitas](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Menganalisis jejak beban kerja
<a name="ops_workload_observability_analyze_workload_traces"></a>

 Menganalisis data jejak sangatlah penting untuk mencapai pandangan yang komprehensif tentang perjalanan operasional aplikasi. Dengan memvisualisasikan dan memahami interaksi antara berbagai komponen, performa dapat disesuaikan, kemacetan dapat diidentifikasi, dan pengalaman pengguna dapat ditingkatkan. 

 **Hasil yang dinginkan:** Dapatkan visibilitas yang jelas tentang operasi terdistribusi yang dimiliki aplikasi Anda, sehingga memungkinkan penyelesaian masalah yang lebih cepat dan pengalaman pengguna yang disempurnakan. 

 **Anti-pola umum:** 
+  Mengabaikan data jejak, dan hanya mengandalkan log serta metrik. 
+  Tidak melakukan korelasi antara data jejak dengan log terkait. 
+  Mengabaikan metrik-metrik yang berasal dari jejak, seperti latensi dan tingkat kesalahan. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Tingkatkan pemecahan masalah dan kurangi waktu rata-rata ke resolusi ()MTTR. 
+  Mendapatkan wawasan tentang dependensi dan dampaknya. 
+  Identifikasi dan perbaikan masalah performa secara cepat. 
+  Memanfaatkan metrik-metrik yang berasal dari jejak untuk pengambilan keputusan yang tepat berdasarkan informasi. 
+  Pengalaman pengguna yang ditingkatkan melalui interaksi komponen yang dioptimalkan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) menawarkan serangkaian fitur komprehensif untuk melakukan analisis data jejak, yang dapat menyediakan pandangan yang menyeluruh tentang interaksi layanan, memantau aktivitas pengguna, dan mendeteksi masalah-masalah performa. Fitur seperti ServiceLens, X-Ray Insights, X-Ray Analytics, dan Amazon DevOps Guru meningkatkan kedalaman wawasan yang dapat ditindaklanjuti yang berasal dari data jejak. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

 Langkah-langkah berikut menawarkan pendekatan terstruktur untuk menerapkan analisis data jejak secara efektif menggunakan AWS layanan: 

1.  **Integrasikan AWS X-Ray**: Pastikan X-Ray terintegrasi dengan aplikasi Anda untuk menangkap data jejak. 

1.  **Analisis metrik X-Ray**: Selidiki metrik yang berasal dari jejak X-Ray, seperti latensi, tingkat permintaan, tingkat kesalahan, dan distribusi waktu respons, dengan menggunakan [peta layanan](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) untuk memantau kesehatan aplikasi. 

1.  **Gunakan ServiceLens**: Manfaatkan [ServiceLenspeta](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) untuk meningkatkan observabilitas layanan dan aplikasi Anda. Fitur ini memungkinkan Anda untuk menampilkan jejak, metrik, log, alarm, dan informasi kondisi lainnya secara terpadu. 

1.  **Aktifkan Wawasan X-Ray**: 

   1.  Aktifkan [Wawasan X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) untuk deteksi anomali otomatis dalam jejak. 

   1.  Periksa wawasan untuk menentukan pola dan memastikan akar masalah, misalnya peningkatan tingkat kesalahan atau latensi. 

   1.  Pelajari lini waktu wawasan untuk mendapatkan analisis kronologis dari masalah-masalah yang terdeteksi. 

1.  **Gunakan Analitik X-Ray**: [Analitik X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) akan memungkinkan Anda menjelajahi data jejak secara menyeluruh, menentukan pola, dan mengekstrak wawasan. 

1.  **Gunakan grup di X-Ray**: Buat grup di X-Ray untuk memfilter jejak berdasarkan kriteria seperti latensi tinggi, sehingga memungkinkan analisis yang lebih tertarget. 

1.  **Menggabungkan Amazon DevOps Guru**: Libatkan [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) untuk mendapatkan manfaat dari model pembelajaran mesin yang menunjukkan dengan tepat anomali operasional dalam jejak. 

1.  **Gunakan CloudWatch Synthetics**: Gunakan [CloudWatchSynthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) untuk membuat kenari untuk terus memantau titik akhir dan alur kerja Anda. Canary ini dapat terintegrasi dengan X-Ray untuk menyediakan data jejak untuk analisis aplikasi yang sedang diuji secara mendalam. 

1.  **Gunakan Real User Monitoring (RUM)**: Dengan [AWS X-Ray dan CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html), Anda dapat menganalisis dan men-debug jalur permintaan mulai dari pengguna akhir aplikasi Anda melalui layanan AWS terkelola hilir. Ini akan membantu Anda untuk mengidentifikasi tren latensi dan kesalahan yang berdampak pada pengguna akhir Anda. 

1.  **Berkorelasi dengan log**: Korelasikan [data jejak dengan log terkait](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) dalam tampilan jejak X-Ray untuk perspektif mendetail tentang perilaku aplikasi. Ini memungkinkan Anda untuk melihat peristiwa log yang terkait langsung dengan transaksi-transaksi yang dilacak. 

1.  **Menerapkan [observabilitas CloudWatch lintas akun](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** Pantau dan pecahkan masalah aplikasi yang menjangkau beberapa akun dalam suatu Wilayah. 

 **Tingkat upaya untuk rencana implementasi:** Sedang 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS08-BP01 Menganalisis metrik beban kerja](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Menganalisis log beban kerja](ops_workload_observability_analyze_workload_logs.md) 

 **Dokumen terkait:** 
+  [Menggunakan ServiceLens untuk Memantau Kesehatan Aplikasi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Menjelajahi Data Jejak dengan Analitik X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Mendeteksi Anomali di dalam Jejak dengan Wawasan X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Pemantauan Berkelanjutan dengan CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Video terkait:** 
+  [Analisis dan Debug Aplikasi Menggunakan Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Gunakan Wawasan AWS X-Ray](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Contoh terkait:** 
+  [Lokakarya Satu Observabilitas](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Menerapkan X-Ray dengan AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [CloudWatchTemplat Canary Synthetics](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti
<a name="ops_workload_observability_create_alerts"></a>

 Sangat penting untuk mendeteksi dan merespons penyimpangan dalam perilaku aplikasi Anda segera. Lebih penting lagi adalah mengenali ketika hasil yang didasarkan pada indikator kinerja utama (KPI) berisiko atau ketika muncul anomali yang tak terduga. Mendasarkan peringatan pada KPI akan memastikan bahwa sinyal yang Anda terima berkaitan langsung dengan dampak bisnis atau operasional. Pendekatan terhadap peringatan yang dapat ditindaklanjuti ini mempromosikan respons proaktif dan akan membantu Anda untuk mempertahankan performa dan keandalan sistem. 

 **Hasil yang diinginkan:** Menerima peringatan yang tepat waktu, relevan, dan dapat ditindaklanjuti untuk identifikasi dan mitigasi potensi masalah dengan cepat, terutama ketika hasil KPI berisiko. 

 **Anti-pola umum:** 
+  Menyiapkan terlalu banyak peringatan non-kritis, yang mengakibatkan kewalahan. 
+  Tidak memprioritaskan peringatan berdasarkan KPI, sehingga dampak masalah terhadap bisnis menjadi sulit dipahami. 
+  Mengabaikan penanganan akar masalah, yang berimbas pada munculnya peringatan berulang untuk masalah yang sama. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Berkurangnya kewalahan akibat peringatan dengan memusatkan perhatian pada peringatan-peringatan yang dapat ditindaklanjuti dan relevan. 
+  Waktu aktif dan keandalan sistem yang lebih baik melalui deteksi dan mitigasi masalah yang proaktif. 
+  Kolaborasi tim yang disempurnakan dan penyelesaian masalah yang lebih cepat dengan melakukan integrasi alat-alat peringatan dan komunikasi populer. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Untuk membuat sebuah mekanisme peringatan yang efektif, Anda harus menggunakan metrik, log, dan data jejak yang menandai kapan hasil yang didasarkan pada KPI berisiko atau terdapat anomali yang terdeteksi. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Tentukan indikator kinerja utama (KPI)**: Identifikasi KPI yang dimiliki aplikasi Anda. Peringatan harus dikaitkan dengan KPI ini agar mencerminkan dampak bisnis secara akurat. 

1.  **Implementasikan deteksi anomali**: 
   +  **Gunakan deteksi anomali Amazon CloudWatch**: Siapkan [deteksi anomali Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) untuk mendeteksi pola yang tidak biasa secara otomatis, yang membantu Anda hanya menghasilkan peringatan untuk anomali yang asli. 
   +  **Gunakan Wawasan AWS X-Ray**: 

     1.  Siapkan [Wawasan X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) untuk mendeteksi anomali dalam data jejak. 

     1.  Konfigurasikan [notifikasi untuk Wawasan X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) agar Anda mendapat notifikasi tentang masalah yang terdeteksi. 
   +  **Integrasikan dengan Amazon DevOps Guru**: 

     1.  Manfaatkan [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) untuk kemampuan machine learning-nya dalam mendeteksi anomali operasional pada data yang ada. 

     1.  Arahkan ke [pengaturan notifikasi](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) di DevOps Guru untuk menyiapkan peringatan anomali. 

1.  **Implementasikan peringatan yang dapat ditindaklanjuti**: Rancang peringatan yang menyediakan informasi yang memadai untuk tindakan cepat. 

   1.  Pantau [peristiwa AWS Health dengan aturan Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html), atau integrasikan secara terprogram dengan API AWS Health untuk mengotomatiskan tindakan saat Anda menerima peristiwa AWS Health. Ini bisa berupa tindakan-tindakan umum, seperti mengirimkan semua pesan peristiwa siklus hidup yang direncanakan ke antarmuka obrolan, atau tindakan tertentu, seperti inisiasi alur kerja di alat manajemen layanan IT. 

1.  **Kurangi kelelahan karena peringatan**: Minimalkan peringatan non-kritis. Ketika tim kewalahan dengan banyaknya peringatan yang tidak penting, mereka bisa jadi melewatkan masalah-masalah kritis, sehingga mengurangi efektivitas mekanisme peringatan secara keseluruhan. 

1.  **Siapkan alarm komposit**: Gunakan [alarm komposit Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) untuk mengkonsolidasikan beberapa alarm. 

1.  **Integrasikan dengan alat peringatan**: Gabungkan alat seperti [Ops Genie](https://www.atlassian.com/software/opsgenie) dan [PagerDuty](https://www.pagerduty.com/). 

1.  **Gunakan kemampuan Amazon Q Developer dalam aplikasi obrolan**: Integrasikan [Amazon Q Developer dalam aplikasi obrolan](https://aws.amazon.com/chatbot/) untuk menyampaikan peringatan ke Amazon Chime, Microsoft Teams, dan Slack. 

1.  **Peringatan berdasarkan log**: Gunakan [filter metrik log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) di CloudWatch untuk membuat alarm berdasarkan peristiwa log tertentu. 

1.  **Tinjau dan ulangi**: Tinjau ulang dan sempurnakan konfigurasi peringatan secara rutin. 

 **Tingkat upaya untuk rencana implementasi:** Sedang 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Melaksanakan telemetri aplikasi](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Menerapkan telemetri pengalaman pengguna](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Mengimplementasikan telemetri dependensi](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Melaksanakan penelusuran terdistribusi](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Menganalisis metrik beban kerja](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Menganalisis log beban kerja](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Menganalisis jejak beban kerja](ops_workload_observability_analyze_workload_traces.md) 

 **Dokumen terkait:** 
+  [Menggunakan alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Membuat sebuah alarm gabungan](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Membuat sebuah alarm CloudWatch berdasarkan pada deteksi anomali](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [Notifikasi DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [Notifikasi wawasan X-ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Pantau, operasikan, dan pecahkan masalah sumber daya AWS Anda dengan ChatOps interaktif](https://aws.amazon.com/chatbot/) 
+  [Panduan Integrasi Amazon CloudWatch \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integrasikan Opsgenie dengan Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Video terkait:** 
+  [Membuat Alarm Gabungan di Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Ikhtisar Amazon Q Developer dalam aplikasi obrolan](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air dengan Perintah Mutatif di Amazon Q Developer dalam aplikasi obrolan](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Contoh terkait:** 
+  [Alarm, manajemen insiden, dan remediasi di cloud dengan Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Membuat aturan Amazon EventBridge yang mengirimkan notifikasi ke Amazon Q Developer dalam aplikasi obrolan](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [Lokakarya Satu Observabilitas](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Membuat dasbor
<a name="ops_workload_observability_create_dashboards"></a>

 Dasbor adalah tampilan yang berpusat pada manusia tentang data telemetri beban kerja Anda. Meskipun menyediakan antarmuka visual yang vital, dasbor tidak boleh menggantikan mekanisme peringatan, melainkan hanya melengkapinya. Ketika dibuat dengan cermat, dasbor tidak hanya dapat menawarkan wawasan yang disajikan dengan cepat tentang kondisi dan kinerja sistem, tetapi juga dapat menyajikan informasi waktu nyata kepada para pemangku kepentingan tentang hasil bisnis dan dampak dari masalah yang ditimbulkannya. 

 **Hasil yang diinginkan:** 

 Wawasan yang jelas dan dapat ditindaklanjuti tentang kondisi sistem dan bisnis menggunakan representasi visual. 

 **Anti-pola umum:** 
+  Dasbor yang terlalu rumit yang mempunyai terlalu banyak metrik. 
+  Mengandalkan dasbor tanpa peringatan untuk deteksi anomali. 
+  Tidak memperbarui dasbor seiring perkembangan beban kerja. 

 **Manfaat praktik terbaik ini:** 
+  Visibilitas langsung tentang metrik sistem penting dan KPI. 
+  Komunikasi dan pemahaman para pemangku kepentingan yang ditingkatkan. 
+  Wawasan yang disajikan dengan cepat tentang dampak masalah operasional. 

 **Tingkat risiko yang dihadapi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 **Dasbor yang berpusat pada bisnis** 

 Dasbor yang disesuaikan dengan KPI bisnis melibatkan lebih banyak pemangku kepentingan. Meskipun orang-orang ini mungkin tidak tertarik pada metrik sistem, namun mereka tertarik untuk memahami implikasi bisnis dari angka-angka ini. Dasbor yang berpusat pada bisnis memastikan semua metrik teknis dan operasional yang dipantau dan dianalisis selaras dengan tujuan-tujuan bisnis secara keseluruhan. Penyelarasan ini memberikan kejelasan, memastikan semua orang memiliki pemahaman yang sama mengenai hal-hal yang penting dan hal-hal yang tidak penting. Selain itu, dasbor yang menyoroti KPI bisnis cenderung lebih mudah untuk ditindaklanjuti. Para pemangku kepentingan dapat dengan cepat memahami kondisi operasi, area yang perlu diperhatikan, dan dampak yang mungkin ditimbulkan terhadap hasil bisnis. 

 Dengan mempertimbangkan hal ini, saat membuat dasbor Anda, pastikan ada keseimbangan antara metrik-metrik teknis dan KPI bisnis. Keduanya penting, tetapi melayani audiens yang berbeda. Idealnya, Anda harus memiliki dasbor yang memberikan pandangan menyeluruh tentang kondisi dan performa sistem sekaligus menekankan hasil bisnis utama serta implikasinya. 

 Dasbor Amazon CloudWatch adalah halaman beranda yang dapat disesuaikan di konsol CloudWatch yang dapat digunakan untuk memantau sumber daya Anda dalam satu tampilan, bahkan sumber daya yang tersebar di berbagai Wilayah AWS dan akun yang berbeda. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Buat dasbor dasar:** [Buatlah sebuah dasbor baru di CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html), berikan nama yang deskriptif. 

1.  **Gunakan widget Markdown:** Sebelum menggunakan metrik, [gunakan widget Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) untuk menambahkan konteks tekstual di bagian atas dasbor Anda. Widget ini akan menjelaskan cakupan dasbor, tingkat pentingnya metrik yang ditampilkan, dan juga dapat diisi dengan tautan-tautan ke dasbor serta alat-alat pemecahan masalah lainnya. 

1.  **Buat variabel dasbor:** [Gabungkan variabel dasbor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) jika sesuai agar dasbor mempunyai tampilan yang dinamis dan fleksibel. 

1.  **Buat widget metrik:** [Tambahkan widget metrik](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) untuk memberikan visualisasi dari berbagai metrik yang dihasilkan oleh aplikasi Anda, lalu sesuaikan semua widget agar efektif menampilkan kondisi sistem dan hasil bisnis. 

1.  **Kueri Wawasan Log:** Manfaatkan [Wawasan Log CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) untuk mendapatkan metrik yang dapat ditindaklanjuti dari log Anda dan menampilkan wawasan ini di dasbor Anda. 

1.  **Siapkan alarm:** Integrasikan [Alarm CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) ke dasbor Anda untuk melihat sekilas metrik apa pun yang melanggar ambang batas mereka. 

1.  **Gunakan Wawasan Kontributor:** Gabungkan [Wawasan Kontributor CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) untuk menganalisis bidang kardinalitas tinggi dan mendapatkan pemahaman yang lebih jelas tentang kontributor utama sumber daya Anda. 

1.  **Desain widget kustom:** Untuk kebutuhan spesifik yang tidak dipenuhi oleh widget standar, sebaiknya Anda membuat [widget kustom](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Widget kustom ini dapat menarik dari berbagai sumber data atau menyajikan data dengan cara yang unik. 

1.  **Gunakan AWS Health:** AWS Health adalah sumber informasi otoritatif tentang kondisi sumber daya AWS Cloud Anda. Gunakan [Dasbor AWS Health](https://health.aws.amazon.com/health/status) langsung, atau gunakan data AWS Health di dasbor dan alat Anda sendiri sehingga Anda memiliki informasi tepat yang tersedia untuk membuat keputusan yang tepat. 

1.  **Ulangi dan sempurnakan:** Saat aplikasi Anda berkembang, tinjau kembali dasbor Anda secara teratur untuk memastikan relevansinya. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Menganalisis metrik beban kerja](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Menganalisis log beban kerja](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Menganalisis jejak beban kerja](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 

 **Dokumen terkait:** 
+  [Membangun Dasbor untuk Visibilitas Operasional](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Menggunakan Dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Video terkait:** 
+  [Membuat Dasbor CloudWatch Lintas Akun & Lintas Wilayah](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Mendapatkan visibilitas korporasi dengan dasbor operasional AWS Cloud)](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Contoh terkait:** 
+  [Lokakarya Satu Observabilitas](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Pemantauan Aplikasi dengan Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [Dasbor dan Wawasan Intelijen Peristiwa AWS Health](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualisasikan peristiwa AWS Health menggunakan Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 

# OPS 9. Bagaimana cara memahami kondisi operasi Anda?
<a name="ops-09"></a>

 Tetapkan, catat, dan analisis metrik operasi untuk mendapatkan visibilitas peristiwa operasi sehingga Anda dapat mengambil tindakan yang tepat. 

**Topics**
+ [

# OPS09-BP01 Mengukur sasaran operasi dan KPI dengan metrik
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Mengomunikasikan status dan tren untuk memastikan visibilitas beroperasi
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Meninjau metrik-metrik operasi dan memprioritaskan perbaikan
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Mengukur sasaran operasi dan KPI dengan metrik
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Dapatkan sasaran dan KPI yang menentukan keberhasilan operasi dari organisasi Anda dan pastikan metrik-metrik tersebut mencerminkan hal ini. Tetapkan garis acuan sebagai titik referensi dan lakukan evaluasi ulang secara rutin. Kembangkan mekanisme untuk mengumpulkan metrik-metrik tersebut dari tim untuk dievaluasi. Metrik [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) menyediakan metode populer untuk mengukur progres penerapan praktik DevOps dalam pengiriman perangkat lunak. 

 **Hasil yang diinginkan:** 
+ Organisasi menerbitkan dan membagikan sasaran dan KPI untuk tim operasi.
+ Anda menetapkan metrik-metrik yang mencerminkan KPI ini. Di antara contohnya adalah:
  +  Kedalaman antrean tiket atau rata-rata umur tiket 
  +  Jumlah tiket yang dikelompokkan berdasarkan jenis masalah 
  +  Waktu yang dihabiskan untuk mengurusi masalah dengan atau tanpa prosedur operasi standar (SOP) 
  +  Jumlah waktu yang dihabiskan untuk pulih dari push kode yang gagal 
  +  Volume panggilan 

 **Anti-pola umum:** 
+  Tenggat waktu deployment tidak terpenuhi karena developer disibukkan dengan tugas-tugas pemecahan masalah. Tim pengembangan menuntut lebih banyak personel, tetapi tidak dapat mengukur berapa orang yang mereka butuhkan karena waktu yang tersita tidak dapat diukur. 
+  Meja Tingkat 1 disiapkan untuk menangani panggilan pengguna. Seiring waktu, makin banyak beban kerja yang ditambahkan, tetapi tidak ada personel yang dialokasikan ke meja Tingkat 1 tersebut. Kepuasan pelanggan sangat rendah karena waktu panggilan semakin meningkat dan masalah berlarut-larut tanpa penyelesaian, tetapi manajemen tidak melihat indikator permasalahan ini, sehingga tidak ada tindakan yang dilakukan. 
+  Beban kerja yang bermasalah diserahkan kepada tim operasi terpisah untuk dilakukan pemeliharaan. Tidak seperti beban kerja lainnya, beban kerja tersebut tidak dilengkapi dengan dokumentasi dan runbook yang baik. Akibatnya, tim menghabiskan waktu lebih lama untuk memecahkan masalah dan mengurusi kegagalan. Namun demikian, tidak ada metrik yang mendokumentasikan hal ini, sehingga akuntabilitas menjadi sulit. 

 **Manfaat menjalankan praktik terbaik ini:** Ketika pemantauan beban kerja menunjukkan status aplikasi dan layanan kita, tim operasi pemantauan memberi pemilik wawasan tentang perubahan yang terjadi di antara para pemakai beban kerja tersebut, misalnya perubahan-perubahan kebutuhan bisnis. Ukur efektivitas tim-tim tersebut dan evaluasi mereka berdasarkan sasaran bisnis dengan membuat metrik-metrik yang dapat mencerminkan status operasi. Metrik dapat menyoroti masalah dukungan atau mengidentifikasi penyimpangan ketika terjadi pergeseran dari target tingkat layanan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

Jadwalkan waktu dengan para pemimpin bisnis dan pemangku kepentingan untuk menentukan apa sasaran layanan secara keseluruhan. Tentukan tugas apa saja yang seharusnya dijalankan oleh berbagai tim operasi dan tantangan apa yang dapat mereka tangani. Dengan menggunakan hal ini, lakukan curah pendapat tentang indikator kinerja utama (KPI) yang mungkin mencerminkan semua sasaran operasi ini. Indikator tersebut mungkin berupa kepuasan pelanggan, waktu dari konsepsi fitur hingga deployment, waktu penyelesaian masalah rata-rata, atau efisiensi biaya.

 Berpatokan pada KPI, identifikasi metrik dan sumber data yang mungkin paling mencerminkan semua sasaran ini. Kepuasan pelanggan dapat berupa kombinasi dari berbagai metrik seperti waktu tunggu atau respons panggilan, skor kepuasan, dan jenis-jenis masalah yang disampaikan. Waktu deployment mungkin merupakan jumlah waktu yang diperlukan untuk pengujian dan deployment, serta perbaikan pasca-deployment yang perlu ditambahkan. Statistik yang menunjukkan waktu yang dihabiskan untuk berbagai jenis masalah (atau jumlah masalah tersebut) dapat memberikan wawasan tentang bagian-bagian yang memerlukan upaya tertarget. 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+ [ Quick - Menggunakan KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch - Menggunakan Metrik ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Membangun Dasbor ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Cara melacak KPI pengoptimalan biaya Anda dengan Dasbor KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [Panduan DevOps AWS](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Contoh terkait:** 
+ [ Memantau kinerja pengiriman perangkat lunak Anda menggunakan alat pemantauan dan observabilitas bawaan AWS](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [ Menyeimbangkan kecepatan dan stabilitas deployment dengan metrik DORA ](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [ Contoh metrik operasional MLOps dalam industri jasa keuangan ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ Cara melacak KPI optimalisasi biaya Anda dengan Dasbor KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Mengomunikasikan status dan tren untuk memastikan visibilitas beroperasi
<a name="ops_operations_health_communicate_status_trends"></a>

 Anda perlu mengetahui keadaan operasi Anda dan arah trennya untuk mengidentifikasi kapan hasil mungkin berisiko, apakah pekerjaan tambahan dapat didukung, atau mengidentifikasi efek perubahan terhadap tim Anda. Selama peristiwa operasi, halaman status yang dapat dijadikan acuan oleh para pengguna dan tim operasi untuk mendapatkan informasi dapat mengurangi tekanan pada saluran komunikasi dan menyebarkan informasi secara proaktif. 

 **Hasil yang diinginkan:** 
+  Pimpinan operasi memiliki wawasan sekilas untuk melihat volume panggilan seperti apa yang sedang dioperasikan oleh tim mereka dan upaya apa yang mungkin sedang dilakukan, seperti deployment. 
+  Peringatan disebarkan kepada para pemangku kepentingan dan komunitas pengguna ketika terjadi dampak terhadap operasi normal. 
+  Pimpinan dan pemangku kepentingan organisasi dapat memeriksa halaman status sebagai respons terhadap peringatan atau dampak, dan memperoleh informasi seputar peristiwa operasional yang terjadi, seperti titik kontak, informasi tiket, dan perkiraan waktu pemulihan. 
+  Laporan tersedia bagi para pimpinan dan pemangku kepentingan lainnya untuk menunjukkan statistik operasi seperti volume panggilan selama periode waktu tertentu, skor kepuasan pengguna, jumlah tiket tertunda, dan usia mereka. 

 **Anti-pola umum:** 
+  Terdapat beban kerja yang tidak aktif, sehingga sebuah layanan menjadi tidak tersedia. Volume panggilan melonjak karena para pengguna ingin mengetahui apa yang terjadi. Manajer menambah volume tersebut dengan permintaan informasinya tentang siapa yang mengurusi masalah. Berbagai tim operasi melipatgandakan upaya untuk melakukan penyelidikan. 
+  Keinginan untuk kemampuan baru menyebabkan beberapa personel dialihkan ke upaya rekayasa. Tidak ada pengisian ulang (backfill) yang disediakan, dan waktu penyelesaian masalah semakin lama. Informasi ini tidak direkam, dan pimpinan baru menyadari hal ini setelah beberapa minggu dan pengguna menyampaikan ketidakpuasan. 

 **Manfaat menjalankan praktik terbaik ini:** Selama peristiwa operasional yang berdampak pada bisnis, banyak waktu dan tenaga yang bisa terbuang untuk meminta informasi dari berbagai tim yang sedang berusaha memahami situasinya. Dengan membuat halaman status dan dasbor yang disebarluaskan, para pemangku kepentingan dapat dengan cepat memperoleh informasi mengenai hal-hal seperti apakah ada masalah yang sudah terdeteksi, siapa yang memimpin penanganan masalah tersebut, atau kapan operasi diperkirakan akan kembali normal. Dengan begitu, anggota tim terhindar dari membuang-buang waktu untuk mengomunikasikan status kepada orang lain dan lebih bisa berkonsentrasi untuk menangani masalah. 

 Selain itu, dasbor dan laporan dapat memberikan wawasan kepada para pembuat keputusan dan pemangku kepentingan untuk melihat bagaimana tim operasi dapat menanggapi kebutuhan bisnis dan bagaimana sumber daya mereka dialokasikan. Hal ini sangat penting untuk menentukan apakah sumber daya yang memadai tersedia untuk mendukung bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Buatlah dasbor yang menunjukkan metrik-metrik utama saat ini untuk tim operasi Anda, dan buat dasbor tersebut mudah diakses oleh para pemimpin operasi serta manajemen. 

 Buat halaman status yang dapat diperbarui dengan cepat untuk menunjukkan apabila insiden atau peristiwa sedang berlangsung, yang mencantumkan siapa yang bertanggung jawab, dan siapa yang mengoordinasikan respons. Bagikan langkah atau solusi apa pun yang harus dipertimbangkan oleh para pengguna di halaman ini, dan sebarkan luaskan lokasinya. Imbau para pengguna untuk memeriksa lokasi ini terlebih dahulu ketika mereka dihadapkan dengan masalah yang tidak diketahui. 

 Kumpulkan dan sediakan laporan yang menunjukkan kondisi operasi dari waktu ke waktu, dan distribusikan hal ini kepada para pimpinan dan pengambil keputusan untuk menggambarkan pekerjaan operasi beserta tantangan dan kebutuhan. 

 Bagikan kepada tim metrik dan laporan yang paling mencerminkan sasaran dan KPI dan bagian yang paling menerima pengaruhnya dalam mendorong perubahan. Luangkan waktu khusus untuk aktivitas ini untuk meningkatkan pentingnya operasi di dalam tim dan antar-tim. 

 Gunakan [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) bersama dasbor Anda sendiri, atau integrasikan peristiwa AWS Health ke dalamnya, sehingga tim Anda dapat mengorelasikan masalah aplikasi dengan status layanan AWS. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+ [ OPS09-BP01 Mengukur sasaran operasi dan KPI dengan metrik ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Dokumen terkait:** 
+ [ Mengukur Kemajuan ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [ Membangun dasbor untuk visibilitas operasi ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Contoh terkait:** 
+ [ Operasi Data ](https://aws.amazon.com/solutions/app-development/data-operations)
+ [ Cara melacak KPI pengoptimalan biaya Anda dengan Dasbor KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [ Pentingnya Indikator Kinerja Utama (KPI) untuk Migrasi Cloud Skala Besar ](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Meninjau metrik-metrik operasi dan memprioritaskan perbaikan
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Menyisihkan waktu dan sumber daya khusus untuk meninjau keadaan operasi memastikan bahwa pelayanan lini bisnis sehari-hari tetap menjadi prioritas. Kumpulkan para pemimpin operasi dan pemangku kepentingan untuk secara rutin meninjau metrik, menegaskan kembali atau memodifikasi sasaran dan tujuan, dan memprioritaskan perbaikan. 

 **Hasil yang diinginkan:** 
+  Para pemimpin operasi dan staf secara rutin bertemu untuk meninjau metrik selama periode pelaporan tertentu. Tantangan dikomunikasikan, keberhasilan dirayakan, dan pelajaran yang dipetik dibagikan. 
+  Para pemangku kepentingan dan pemimpin bisnis secara rutin diberi pengarahan tentang keadaan operasi dan diminta untuk memberikan masukan mengenai sasaran, KPI, dan inisiatif masa depan. Kompromi antara pemberian layanan, operasi, dan pemeliharaan dibahas dan dimasukkan ke dalam konteks. 

 **Anti-pola umum:** 
+  Sebuah produk baru diluncurkan, tetapi tim operasi Tingkat 1 dan Tingkat 2 tidak mendapatkan pelatihan yang memadai untuk mendukung atau tidak mendapatkan staf tambahan. Metrik-metrik yang menunjukkan penurunan waktu resolusi tiket dan peningkatan volume insiden tidak terlihat oleh para pimpinan. Tindakan diambil beberapa minggu kemudian ketika jumlah langganan mulai turun karena para pengguna yang tidak puas dan beralih ke platform lain. 
+  Proses manual untuk melakukan pemeliharaan pada beban kerja telah berlangsung sejak lama. Meskipun sudah ada keinginan untuk melakukan otomatisasi, prioritas yang diberikan rendah mengingat rendahnya nilai penting sistem. Namun seiring waktu, sistem menjadi semakin penting dan sekarang proses manual ini menyita sebagian besar waktu operasional. Tidak ada sumber daya yang dijadwalkan untuk menyediakan peningkatan peralatan untuk operasi, sehingga menyebabkan kelelahan pada staf saat terjadi peningkatan beban kerja. Para pimpinan menyadari hal ini setelah ada laporan bahwa para staf beralih ke kompetitor. 

 **Manfaat menerapkan praktik terbaik ini:** Beberapa organisasi mengalami kesulitan untuk mengalokasikan waktu dan perhatian yang sama untuk pemberian layanan dan produk atau penawaran baru. Ketika masalah ini terjadi, lini bisnis dapat mengalami hal buruk karena tingkat layanan yang diharapkan perlahan-lahan memburuk. Alasannya adalah karena operasi tidak berubah dan berkembang sesuai dengan perkembangan bisnis, dan bisa segera tertinggal. Tanpa melakukan peninjauan rutin terhadap wawasan yang dikumpulkan oleh operasi, risiko terhadap bisnis mungkin baru terlihat ketika semua sudah terlambat. Dengan pengalokasian waktu untuk meninjau metrik dan prosedur, baik di antara staf operasi maupun dengan pimpinan, peran penting yang dimiliki oleh operasi akan terus dapat dilihat, dan risiko dapat diidentifikasi jauh sebelum mencapai tingkat kritis. Tim operasi mendapatkan wawasan yang lebih baik tentang perubahan dan inisiatif bisnis yang akan datang, sehingga upaya-upaya proaktif dapat dilakukan. Visibilitas para pimpinan ke dalam metrik-metrik operasi menunjukkan peran penting yang dimiliki oleh tim operasional dalam hal kepuasan pelanggan, baik internal maupun eksternal, dan memungkinkan mereka mempertimbangkan pilihan prioritas dengan lebih baik, atau memastikan bahwa operasional memiliki waktu dan sumber daya untuk berubah dan berkembang seiring munculnya inisiatif bisnis dan beban kerja baru. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Luangkan waktu khusus untuk meninjau metrik-metrik operasi antara para pemangku kepentingan dan tim operasional dan meninjau data laporan. Pertimbangkan laporan-laporan berdasarkan tujuan dan sasaran organisasi untuk menentukan apakah semuanya terpenuhi. Identifikasi sumber-sumber ambiguitas yang membuat sasaran menjadi tidak jelas, atau di mana mungkin ada ketidaksesuaian antara apa yang diminta dan apa yang diberikan. 

 Identifikasi di mana waktu, personel, dan alat dapat membantu mencapai hasil operasi yang diharapkan. Tentukan KPI mana yang akan menerima dampaknya dan target kesuksesan apa yang harus dimiliki. Lakukan peninjauan ulang secara rutin untuk memastikan operasi memiliki sumber daya yang memadai untuk mendukung lini bisnis. 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [ Referensi metrik dan dimensi Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick ](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [ Mengumpulkan metrik dan log dari server instans Amazon EC2 dan server on-premise dengan Agen Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [ Menggunakan metrik Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. Bagaimana cara mengelola peristiwa operasi dan beban kerja?
<a name="ops-10"></a>

 Siapkan dan validasikan prosedur untuk merespons peristiwa guna meminimalkan gangguannya pada beban kerja Anda. 

**Topics**
+ [

# OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Menjalankan proses untuk setiap peringatan
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Memprioritaskan peristiwa operasional berdasarkan dampaknya terhadap bisnis
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Tetapkan jalur eskalasi
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Menentukan rencana komunikasi pelanggan untuk peristiwa yang berdampak pada layanan
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Mengomunikasikan status melalui dasbor
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Otomatiskan tanggapan terhadap acara
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah
<a name="ops_event_response_event_incident_problem_process"></a>

Kemampuan untuk mengelola peristiwa, insiden, dan masalah secara efisien adalah kunci untuk menjaga kondisi kesehatan dan kinerja beban kerja. Sangat penting untuk mengenali dan memahami perbedaan antara elemen-elemen ini untuk mengembangkan sebuah strategi respons dan resolusi yang efektif. Dengan membentuk dan mengikuti proses yang ditentukan dengan baik untuk setiap aspek, tim Anda dapat dengan cepat dan efektif menangani setiap tantangan operasional yang muncul.

 **Hasil yang diinginkan:** Organisasi Anda mengelola peristiwa-peristiwa operasional, insiden, dan masalah secara efektif melalui proses yang terdokumentasi dengan baik dan tersimpan secara terpusat. Proses-proses tersebut diperbarui secara konsisten untuk mencerminkan setiap perubahan, merampingkan proses penanganan, dan mempertahankan keandalan layanan serta kinerja beban kerja yang tinggi. 

 **Anti-pola umum:** 
+  Anda merespons peristiwa secara reaktif, bukan proaktif. 
+  Pendekatan-pendekatan yang tidak konsisten diambil untuk berbagai jenis peristiwa atau insiden yang berbeda. 
+ Organisasi Anda tidak menganalisis dan belajar dari insiden-insiden yang terjadi untuk mencegah kejadian di masa mendatang.

 **Manfaat menjalankan praktik terbaik ini:** 
+  Proses respons yang efisien dan terstandardisasi. 
+  Berkurangnya dampak insiden pada layanan dan pelanggan. 
+  Resolusi masalah yang lebih cepat. 
+  Perbaikan berkelanjutan dalam proses operasional. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Menerapkan praktik terbaik ini berarti Anda melacak peristiwa-peristiwa beban kerja. Anda memiliki proses untuk menangani insiden dan masalah. Proses ini didokumentasikan, dibagikan, dan sering diperbarui. Masalah diidentifikasi, diprioritaskan, dan diperbaiki. 

 **Memahami peristiwa, insiden, dan masalah** 
+  **Peristiwa:** Sebuah *peristiwa* adalah sebuah pengamatan atas suatu tindakan, kejadian, atau perubahan status. Peristiwa dapat direncanakan atau tidak direncanakan dan dapat berasal dari dalam atau luar beban kerja. 
+  **Insiden:** *Insiden* adalah peristiwa-peristiwa yang memerlukan respons, seperti gangguan yang tidak terencana atau penurunan kualitas layanan. Insiden-insiden tersebut mewakili gangguan yang membutuhkan perhatian cepat untuk memulihkan operasi beban kerja yang normal. 
+  **Masalah:** *Masalah* adalah penyebab-penyebab yang mendasari satu atau beberapa insiden. Mengidentifikasi dan menyelesaikan masalah mencakup langkah-langkah untuk menyelidiki insiden dengan lebih mendalam untuk mencegah kejadian di masa mendatang. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

 **Peristiwa** 

1.  **Memantau peristiwa:** 
   +  [Menerapkan observabilitas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) dan [memanfaatkan observabilitas beban kerja](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Tindakan pemantauan yang dilakukan oleh pengguna, peran, atau layanan AWS dicatat sebagai peristiwa di dalam [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Respons perubahan operasional di dalam aplikasi Anda dalam waktu nyata dengan [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Lakukan penilaian, pemantauan, dan pencatatan perubahan konfigurasi sumber daya secara berkelanjutan dengan [AWS Config](https://aws.amazon.com/config/). 

1.  **Ciptakan proses:** 
   +  Kembangkan sebuah proses untuk menilai peristiwa mana yang signifikan dan memerlukan pemantauan. Langkah ini melibatkan pengaturan ambang batas dan parameter untuk aktivitas normal dan abnormal. 
   +  Tentukan kriteria eskalasi suatu peristiwa menjadi insiden. Kriteria ini dapat didasarkan pada tingkat keparahan, dampak yang ditimbulkan pada pengguna, atau penyimpangan dari perilaku yang diperkirakan. 
   +  Lakukan peninjauan terhadap proses pemantauan dan respons peristiwa secara rutin. Langkah ini mencakup analisis insiden masa lalu, penyesuaian ambang batas, dan penyempurnaan mekanisme pembuatan peringatan. 

 **Insiden** 

1.  **Merespons insiden:** 
   +  Gunakan wawasan dari alat-alat observabilitas untuk mengidentifikasi dan merespons insiden dengan cepat. 
   +  Implementasikan [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter) untuk mengagregasi, mengatur, dan memprioritaskan item dan insiden operasional. 
   +  Gunakan layanan-layanan seperti [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) dan [AWS X-Ray](https://aws.amazon.com/xray/) untuk analisis dan pemecahan masalah yang lebih dalam. 
   +  Pertimbangkan [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) untuk meningkatkan manajemen insiden, dengan memanfaatkan kemampuan proaktif, pencegahan, dan detektifnya. AMS akan memperluas dukungan operasional dengan layanan-layanan seperti pemantauan, deteksi dan respons insiden, dan manajemen keamanan. 
   +  Pelanggan Dukungan Perusahaan dapat menggunakan [Deteksi dan Respons Insiden AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), yang akan menyediakan pemantauan proaktif terus-menerus dan manajemen insiden untuk beban kerja produksi. 

1.  **Buat proses manajemen insiden:** 
   +  Tetapkan sebuah proses manajemen insiden yang terstruktur, termasuk peran yang jelas, protokol komunikasi, dan langkah-langkah penyelesaian masalah. 
   +  Integrasikan manajemen insiden dengan alat seperti [Amazon Q Developer dalam aplikasi obrolan](https://aws.amazon.com/chatbot/) untuk mendapatkan respons dan koordinasi yang efisien. 
   +  Kategorikan insiden berdasarkan tingkat keparahan, dengan [rencana respons insiden](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) yang telah ditentukan sebelumnya untuk masing-masing kategori. 

1.  **Pelajari dan tingkatkan:** 
   +  Lakukan [analisis pasca-insiden](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) untuk memahami akar penyebab masalah dan efektivitas penyelesaian masalah. 
   +  Lakukan pembaruan dan peningkatan secara berkelanjutan terhadap rencana-rencana respons berdasarkan tinjauan dan praktik yang berkembang. 
   +  Buatlah dokumentasi dari dan bagikan pelajaran yang diperoleh ke seluruh tim untuk meningkatkan ketahanan operasional. 
   +  Pelanggan Dukungan Perusahaan dapat meminta [Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) dari Manajer Akun Teknis mereka. Lokakarya terpandu ini akan menguji rencana respons insiden yang ada sekarang dan akan membantu Anda mengidentifikasi area-area yang perlu ditingkatkan. 

 **Masalah** 

1.  **Identifikasi masalah:** 
   +  Gunakan data dari insiden-insiden sebelumnya untuk mengidentifikasi pola-pola yang berulang yang mungkin menandakan adanya masalah sistemik yang lebih mendalam. 
   +  Manfaatkan alat-alat seperti [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) dan [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) untuk melakukan analisis tren dan mengungkap masalah-masalah mendasar. 
   +  Libatkan tim lintas fungsi, termasuk tim operasional, pengembangan, dan unit bisnis, untuk mendapatkan perspektif yang beragam tentang akar penyebab masalah. 

1.  **Buat proses manajemen masalah:** 
   +  Kembangkan sebuah proses terstruktur untuk manajemen masalah, dengan fokus pada penyelesaian masalah jangka panjang, bukan perbaikan-perbaikan cepat. 
   +  Sertakan teknik-teknik analisis akar masalah (RCA) untuk menyelidiki dan memahami penyebab dasar terjadinya insiden. 
   +  Perbarui kebijakan operasional, prosedur, dan infrastruktur berdasarkan temuan yang didapatkan untuk mencegah terulangnya kejadian. 

1.  **Terus lakukan perbaikan:** 
   +  Pupuk budaya pembelajaran dan perbaikan yang konstan, dengan mendorong tim untuk mengidentifikasi dan mengatasi setiap potensi masalah secara proaktif. 
   +  Tinjau dan revisi proses dan alat manajemen masalah agar selaras dengan lanskap bisnis dan teknologi yang berkembang. 
   +  Bagikan wawasan dan praktik terbaik ke seluruh organisasi untuk membangun sebuah lingkungan operasional yang lebih tangguh dan efisien. 

1.  **Libatkan AWS Dukungan:** 
   +  Gunakan sumber daya AWS dukungan, seperti [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), untuk panduan proaktif dan rekomendasi pengoptimalan. 
   +  Pelanggan Dukungan Perusahaan dapat mengakses program khusus seperti [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) untuk mendapatkan dukungan saat terjadi peristiwa kritis. 

 **Tingkat upaya untuk rencana implementasi:** Sedang 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Melaksanakan telemetri aplikasi](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Menggunakan runbook untuk menjalankan prosedur](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Menggunakan playbook untuk menyelidiki masalah](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Menganalisis metrik beban kerja](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Lakukan analisis pasca-insiden](ops_evolve_ops_perform_rca_process.md) 

 **Dokumen terkait:** 
+  [Panduan Respons Insiden Keamanan AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Deteksi dan Respons Insiden AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [Kerangka Kerja Adopsi Cloud AWS: Perspektif Operasional - Manajemen insiden dan masalah ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Manajemen Insiden di Era DevOps dan SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - Apa itu Manajemen Insiden?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video terkait:** 
+ [ Kiat respons insiden teratas dari AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - Amazon Builders' Library: 25 tahun keunggulan operasional Amazon ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - Deteksi dan Respons Insiden AWS (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [ Memperkenalkan Incident Manager dari AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Contoh terkait:** 
+  [Layanan Proaktif AWS – Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [ Cara Mengotomatiskan Respons Insiden dengan PagerDuty dan Manajer Insiden AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [ Libatkan Perespons Insiden dengan Jadwal Personel Siaga di Manajer Insiden AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [ Tingkatkan Visibilitas dan Kolaborasi selama Penanganan Insiden di Manajer Insiden AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [ Laporan insiden dan permintaan layanan di AMS ](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Layanan terkait:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Menjalankan proses untuk setiap peringatan
<a name="ops_event_response_process_per_alert"></a>

 Menetapkan proses yang jelas dan terdefinisi untuk setiap peringatan di dalam sistem Anda sangat penting untuk manajemen insiden yang efektif dan efisien. Praktik ini memastikan bahwa setiap peringatan menghasilkan respons spesifik yang dapat ditindaklanjuti, sehingga meningkatkan keandalan dan responsivitas operasi Anda. 

 **Hasil yang diinginkan:** Setiap peringatan memulai rencana respons spesifik dan terdefinisi dengan baik. Jika memungkinkan, respons dilakukan secara otomatis, dengan kepemilikan yang jelas dan jalur eskalasi yang sudah ditentukan. Peringatan ditautkan ke basis pengetahuan yang mutakhir sehingga setiap operator dapat memberikan respons secara konsisten dan efektif. Respons diberikan secara cepat dan seragam, sehingga meningkatkan efisiensi dan keandalan operasional. 

 **Anti-pola umum:** 
+  Peringatan tidak memiliki proses respons yang telah ditentukan sebelumnya, sehingga menyebabkan resolusi yang seadanya dan tertunda. 
+  Jumlah peringatan yang terlalu banyak dapat menyebabkan terabaikannya peringatan-peringatan penting. 
+  Peringatan-peringatan ditangani secara tidak konsisten karena tidak adanya kepemilikan dan tanggung jawab yang jelas. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Mengurangi kewalahan akibat peringatan dengan hanya memunculkan peringatan yang dapat ditindaklanjuti. 
+  Penurunan rata-rata waktu resolusi (MTTR) untuk masalah operasional. 
+  Penurunan rata-rata waktu untuk menyelidiki (MTTI), sehingga membantu mengurangi MTTR. 
+  Peningkatan kemampuan untuk menskalakan respons-respons operasional. 
+  Peningkatan konsistensi dan keandalan dalam menangani peristiwa-peristiwa operasional. 

 Misalnya, Anda memiliki proses yang ditentukan untuk peristiwa AWS Health untuk akun-akun penting, termasuk alarm aplikasi, masalah operasional, dan peristiwa siklus hidup terencana (seperti memperbarui versi Amazon EKS sebelum klaster diperbarui secara otomatis), dan Anda memberikan kemampuan bagi tim Anda untuk secara aktif memantau, berkomunikasi, dan merespons peristiwa-peristiwa ini. Tindakan ini membantu Anda mencegah gangguan layanan yang disebabkan oleh perubahan di sisi AWS atau memitigasinya lebih cepat ketika terjadi masalah yang tak terduga. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Untuk membuat sebuah proses untuk setiap peringatan, diperlukan pembuatan rencana respons yang jelas untuk setiap peringatan, otomatisasi respons apabila memungkinkan, dan penyempurnaan proses-proses ini secara berkelanjutan berdasarkan umpan balik operasional dan perubahan persyaratan. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

 Diagram berikut ini menggambarkan alur kerja manajemen insiden di dalam [Manajer Insiden AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Ini dirancang untuk merespons masalah operasional dengan cara menciptakan insiden secara otomatis sebagai respons terhadap peristiwa tertentu dari [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) atau [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Ketika insiden dibuat, baik secara otomatis maupun manual, Manajer Insiden memusatkan manajemen insiden, mengatur informasi sumber daya AWS yang relevan, dan memulai rencana respons yang telah ditentukan sebelumnya. Ini mencakup menjalankan runbook Systems Manager Automation untuk tindakan cepat, serta membuat item kerja operasional induk di OpsCenter untuk melacak tugas dan analisis terkait. Proses yang efisien ini mempercepat dan mengoordinasikan respons insiden di seluruh lingkungan AWS Anda. 

![\[Diagram alur yang menggambarkan cara kerja Manajer Insiden - Amazon Q Developer dalam aplikasi obrolan, rencana eskalasi dan kontak, dan runbook mengalir ke rencana respons, yang mengalir ke insiden dan analisis. Amazon CloudWatch juga mengalir ke paket respons.\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Gunakan alarm komposit:** Buat [alarm komposit](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) di CloudWatch untuk mengelompokkan alarm terkait, mengurangi noise, dan memungkinkan respons yang lebih bermakna. 

1.  **Terus dapatkan informasi dengan [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html).** AWS Health adalah sumber informasi otoritatif tentang kondisi sumber daya AWS Cloud Anda. Gunakan AWS Health untuk memvisualisasikan dan mendapatkan notifikasi tentang peristiwa layanan saat ini dan perubahan yang akan datang, seperti peristiwa siklus hidup yang direncanakan, sehingga Anda dapat mengambil langkah-langkah untuk mengurangi dampaknya. 

   1.  [Buat notifikasi peristiwa AWS Health sesuai keperluan](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) yang dikirim ke saluran email dan obrolan melalui [Notifikasi Pengguna AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) serta integrasikan secara programatis dengan [alat pemantauan dan peringatan Anda melalui Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) atau [API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Rencanakan dan lacak progres pada peristiwa kesehatan yang memerlukan tindakan dengan mengintegrasikan dengan manajemen perubahan atau alat ITSM (seperti [Jira atau](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) yang mungkin sudah Anda gunakan melalui Amazon EventBridge atau API AWS Health. 

   1.  Jika Anda menggunakan AWS Organizations, aktifkan [tampilan organisasi untuk AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) guna menggabungkan peristiwa AWS Health di seluruh akun. 

1.  **Integrasikan alarm Amazon CloudWatch dengan Manajer Insiden:** Konfigurasikan alarm CloudWatch untuk membuat insiden secara otomatis di [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integrasikan Amazon EventBridge dengan Manajer Insiden:** Buat [aturan EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) untuk bereaksi terhadap peristiwa dan membuat insiden menggunakan rencana respons yang ditentukan. 

1.  **Mempersiapkan insiden di Manajer Insiden:** 
   +  Buat [rencana respons](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) terperinci di Manajer Insiden untuk setiap jenis peringatan. 
   +  Buat saluran obrolan melalui [Amazon Q Developer dalam aplikasi obrolan](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) yang terhubung ke rencana respons di Manajer Insiden, sehingga akan memfasilitasi komunikasi waktu nyata selama insiden di seluruh platform seperti Slack, Microsoft Teams, dan Amazon Chime. 
   +  Menggabungkan [runbook Otomatisasi Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) dalam Manajer Insiden untuk mendorong respons otomatis terhadap insiden. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 

 **Dokumen terkait:** 
+ [Kerangka Kerja Adopsi Cloud AWS: Perspektif Operasional - Manajemen insiden dan masalah ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Menggunakan alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Menyiapkan Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Mempersiapkan insiden di Manajer Insiden ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Video terkait:** 
+ [ Kiat respons insiden teratas dari AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Mengelola peristiwa siklus hidup sumber daya dalam skala besar dengan AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Contoh terkait:** 
+ [Lokakarya AWS - Manajer Insiden AWS Systems Manager - Mengotomatiskan respons insiden terhadap peristiwa keamanan ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Memprioritaskan peristiwa operasional berdasarkan dampaknya terhadap bisnis
<a name="ops_event_response_prioritize_events"></a>

 Merespons peristiwa operasional dengan cepat adalah hal yang sangat penting, tetapi tidak semua peristiwa sama. Ketika Anda melakukan prioritas berdasarkan dampak bisnis, Anda juga memprioritaskan penanganan peristiwa yang berpotensi menimbulkan konsekuensi signifikan, seperti keamanan, kerugian finansial, pelanggaran peraturan, atau kerusakan reputasi. 

 **Hasil yang diinginkan:** Respons terhadap peristiwa operasional diprioritaskan berdasarkan dampak yang mungkin ditimbulkannya terhadap operasi dan tujuan bisnis. Hal ini membuat respons menjadi efisien dan efektif. 

 **Anti-pola umum:** 
+  Setiap peristiwa diperlakukan dengan tingkat urgensi yang sama, sehingga menyebabkan kebingungan dan ketertundaan dalam menangani masalah-masalah kritis. 
+  Anda gagal membedakan antara peristiwa berdampak tinggi dan rendah, sehingga menyebabkan kesalahan alokasi sumber daya. 
+  Organisasi Anda tidak memiliki kerangka prioritas yang jelas, sehingga menghasilkan respons-respons yang tidak konsisten terhadap peristiwa-peristiwa operasional. 
+  Peristiwa diprioritaskan berdasarkan urutan pelaporannya, bukan dampaknya terhadap hasil bisnis. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Memastikan fungsi-fungsi bisnis penting mendapatkan perhatian terlebih dahulu, sehingga akan meminimalkan potensi kerugian. 
+  Memperbaiki alokasi sumber daya selama saat terjadi peristiwa secara serentak. 
+  Meningkatkan kemampuan organisasi untuk mempertahankan kepercayaan dan memenuhi persyaratan-persyaratan berdasarkan peraturan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Ketika dihadapkan dengan beberapa peristiwa operasional, sebuah pendekatan prioritas yang terstruktur berdasarkan dampak dan urgensi sangatlah penting. Pendekatan ini akan membantu Anda dalam mengambil keputusan tepat berdasarkan informasi, mengerahkan upaya pada hal-hal yang paling membutuhkan, dan mengurangi risiko terhadap kelangsungan bisnis. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Lakukan penilaian dampak:** Kembangkan sebuah sistem klasifikasi untuk mengevaluasi tingkat keparahan peristiwa dalam hal dampak yang mungkin ditimbulkannya terhadap operasi dan tujuan bisnis. Contoh berikut ini menunjukkan kategori-kategori dampak:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Lakukan penilaian tingkat urgensi:** Tentukan tingkat urgensi dalam hal seberapa cepat suatu peristiwa membutuhkan respons, dengan mempertimbangkan faktor-faktor seperti keamanan, implikasi keuangan, dan perjanjian tingkat layanan (SLA). Contoh berikut ini menunjukkan kategori-kategori urgensi:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Buat matriks prioritas:** 
   +  Gunakan matriks untuk melakukan referensi silang antara dampak dan urgensi, sehingga tingkat prioritas dapat ditetapkan ke berbagai kombinasi. 
   +  Buat agar matriks tersebut mudah diakses dan dipahami oleh semua anggota tim yang bertanggung jawab untuk memberikan respons atas peristiwa-peristiwa operasional. 
   +  Contoh matriks berikut ini menampilkan tingkat keparahan insiden berdasarkan urgensi dan dampak:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Latih dan komunikasikan:** Latih tim-tim respons tentang matriks prioritas dan pentingnya mengikuti matriks tersebut saat terjadi insiden. Komunikasikan proses penyusunan prioritas kepada semua pemangku kepentingan untuk menetapkan harapan-harapan yang jelas. 

1.  **Integrasikan dengan respons insiden:** 
   +  Sertakan matriks prioritas ke dalam rencana dan alat respons insiden Anda. 
   +  Lakukan otomatisasi terhadap klasifikasi dan penyusunan prioritas peristiwa jika memungkinkan untuk mempercepat waktu respons. 
   +  Pelanggan Dukungan Perusahaan dapat memanfaatkan [Deteksi dan Respons Insiden AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), yang menyediakan pemantauan proaktif dalam 24x7 dan manajemen insiden untuk beban kerja produksi. 

1.  **Tinjau dan adaptasi:** Lakukan peninjauan secara rutin terhadap efektivitas proses penyusunan prioritas dan lakukan penyesuaian berdasarkan umpan balik dan perubahan dalam lingkungan bisnis. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS03-BP03 Eskalasi didorong](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Mengukur sasaran operasi dan KPI dengan metrik](ops_operations_health_measure_ops_goals_kpis.md) 

 **Dokumen terkait:** 
+ [ Atlassian - Memahami tingkat keparahan insiden ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ Peta Proses IT - Daftar Periksa Prioritas Insiden ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Tetapkan jalur eskalasi
<a name="ops_event_response_define_escalation_paths"></a>

Tetapkan jalur eskalasi yang jelas di dalam protokol respons insiden Anda untuk memfasilitasi tindakan yang tepat waktu dan efektif. Ini mencakup penentuan perintah untuk eskalasi, memberikan detail proses eskalasi, dan memberikan persetujuan tindakan di awal untuk mempercepat pengambilan keputusan dan mengurangi waktu rata-rata resolusi (MTTR).

 **Hasil yang diinginkan:** Proses terstruktur dan efisien yang meneruskan insiden ke personel yang tepat, sehingga waktu respons dan dampak menjadi minimum. 

 **Anti-pola umum:** 
+ Kurangnya kejelasan tentang prosedur pemulihan menyebabkan muncul respons seadanya selama insiden kritis.
+ Tidak adanya penentuan izin dan kepemilikan yang mengakibatkan ketertundaan ketika diperlukan tindakan mendesak.
+  Para pemangku kepentingan dan pelanggan tidak menerima informasi sesuai dengan harapan. 
+  Keputusan-keputusan penting tertunda. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Respons insiden yang efisien melalui prosedur-prosedur eskalasi yang telah ditentukan sebelumnya. 
+  Mengurangi waktu henti dengan tindakan-tindakan yang telah disetujui sebelumnya dan penanggung jawab yang jelas. 
+  Alokasi sumber daya yang lebih baik dan penyesuaian tingkat dukungan berdasarkan tingkat keparahan insiden. 
+  Komunikasi yang lebih baik dengan para pemangku kepentingan dan pelanggan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Jalur eskalasi yang ditentukan dengan benar sangatlah penting untuk memberikan respons insiden yang cepat. Manajer Insiden AWS Systems Manager mendukung penyusunan rencana eskalasi terstruktur dan jadwal personel siaga, yang memberikan peringatan kepada personel yang tepat sehingga mereka siap bertindak ketika insiden terjadi. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Siapkan perintah eskalasi:** Siapkan [alarm CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) untuk membuat sebuah insiden di [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  ** Siapkan jadwal panggilan:** Buat [jadwal panggilan](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) di Incident Manager yang selaras dengan jalur eskalasi Anda. Bekali personel siaga dengan izin dan alat yang diperlukan untuk bertindak cepat. 

1.  ** Detail prosedur eskalasi: ** 
   +  Tentukan kondisi-kondisi spesifik yang membuat insiden harus dieskalasi. 
   +  Buat [rencana eskalasi](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) di Incident Manager. 
   +  Saluran eskalasi harus terdiri dari suatu kontak atau jadwal personel siaga. 
   +  Tentukan peran dan tanggung jawab tim di setiap tingkat eskalasi. 

1.  **Tindakan mitigasi sebelum persetujuan:** Lakukan kerja sama dengan pengambil keputusan untuk menyetujui tindakan di awal untuk skenario yang diantisipasi. Gunakan [runbook Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) yang terintegrasi dengan Incident Manager untuk mempercepat resolusi insiden. 

1.  **Tentukan kepemilikan:** Identifikasi dengan jelas pemilik internal untuk setiap langkah jalur eskalasi. 

1.  **Sediakan detail eskalasi pihak ketiga:** 
   +  Buatlah dokumentasi perjanjian tingkat layanan (SLA) pihak ketiga, dan selaraskan dengan tujuan-tujuan internal. 
   +  Tetapkan protokol yang jelas untuk komunikasi vendor selama terjadi insiden. 
   +  Integrasikan kontak vendor ke dalam alat-alat manajemen insiden sehingga bisa diakses langsung. 
   +  Lakukan latihan rutin yang menyertakan skenario respons pihak ketiga. 
   +  Jaga agar informasi eskalasi vendor terdokumentasi dengan baik dan mudah diakses. 

1.  **Latih dan latih rencana eskalasi:** Latih tim Anda menjalankan proses eskalasi dan lakukan latihan respons insiden rutin atau hari permainan. Pelanggan Dukungan Perusahaan dapat meminta [Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Lanjutkan untuk perbaikan:** Tinjau efektivitas jalur eskalasi Anda secara rutin. Perbarui proses Anda berdasarkan pelajaran yang dipetik dari insiden yang sudah lewat (post-mortem) dan umpan balik berkelanjutan. 

 **Tingkat upaya untuk rencana implementasi:** Sedang 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Menjalankan proses untuk setiap peringatan](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Lakukan analisis pasca-insiden](ops_evolve_ops_perform_rca_process.md) 

 **Dokumen terkait:** 
+ [Rencana Eskalasi Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [ Bekerja dengan jadwal panggilan di Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [ Membuat dan Mengelola Runbook ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [ Manajemen peningkatan akses sementara dengan AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian - Kebijakan eskalasi untuk manajemen insiden yang efektif ](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Menentukan rencana komunikasi pelanggan untuk peristiwa yang berdampak pada layanan
<a name="ops_event_response_push_notify"></a>

 Komunikasi yang efektif selama peristiwa yang berdampak pada layanan sangat penting untuk menjaga kepercayaan dan transparansi dengan pelanggan. Rencana komunikasi yang terdefinisi dengan baik membantu organisasi Anda berbagi informasi dengan cepat dan jelas, baik secara internal maupun eksternal, selama insiden. 

 **Hasil yang diinginkan:** 
+  Rencana komunikasi yang solid sebagai pedoman yang efektif bagi para pelanggan dan pemangku kepentingan selama peristiwa yang berdampak pada layanan. 
+  Transparansi dalam komunikasi untuk membangun kepercayaan dan mengurangi kecemasan pelanggan. 
+  Meminimalkan dampak peristiwa yang berdampak pada layanan terhadap pengalaman pelanggan dan operasional bisnis. 

 **Anti-pola umum:** 
+  Komunikasi yang tidak memadai atau tertunda menyebabkan kebingungan dan ketidakpuasan pada pelanggan. 
+  Pesan yang terlalu teknis atau tidak jelas akan gagal menyampaikan dampak sebenarnya pada pengguna. 
+  Tidak ada strategi komunikasi yang telah ditentukan sebelumnya, sehingga menghasilkan pesan yang tidak konsisten dan reaktif. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Meningkatkan kepercayaan dan kepuasan pelanggan dengan melakukan komunikasi yang proaktif dan jelas. 
+  Mengurangi beban pada tim dukungan dengan menangani kekhawatiran pelanggan terlebih dahulu. 
+  Meningkatkan kemampuan untuk mengelola dan memulihkan insiden secara efektif. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Pembuatan rencana komunikasi yang komprehensif untuk peristiwa-peristiwa yang berdampak pada layanan melibatkan banyak aspek, mulai dari pemilihan saluran yang tepat hingga penyusunan pesan dan nada pesan. Rencana harus dapat disesuaikan, dapat diskalakan, dan memenuhi skenario pemadaman (outage) yang berbeda-beda. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Menentukan peran dan tanggung jawab:** 
   +  Tugaskan manajer insiden utama untuk mengawasi aktivitas respons insiden. 
   +  Tunjuk seorang manajer komunikasi yang bertanggung jawab untuk mengoordinasikan semua komunikasi eksternal dan internal. 
   +  Libatkan manajer dukungan untuk menyediakan komunikasi yang konsisten melalui tiket dukungan. 

1.  **Identifikasi saluran komunikasi:** Pilih saluran seperti obrolan di tempat kerja, email, SMS, media sosial, pemberitahuan dalam aplikasi, dan halaman status. Saluran-saluran tersebut harus tangguh dan mampu beroperasi secara independen selama terjadi peristiwa yang berdampak pada layanan. 

1.  ** Lakukan komunikasi dengan cepat, jelas, dan rutin kepada pelanggan: ** 
   +  Kembangkan templat-templat untuk berbagai skenario gangguan layanan, dengan menekankan kesederhanaan dan detail-detail penting. Sertakan informasi tentang gangguan layanan, waktu penyelesaian yang diharapkan, dan dampak. 
   +  Gunakan Amazon Pinpoint untuk memberi tahu para pelanggan menggunakan notifikasi push, notifikasi dalam aplikasi, email, pesan teks, pesan suara, dan pesan melalui saluran khusus. 
   +  Gunakan Amazon Simple Notiﬁcation Service (Amazon SNS) untuk memberi tahu pelanggan (subscriber) secara terprogram atau melalui email, notifikasi push seluler, dan pesan teks. 
   +  Komunikasikan status melalui dasbor dengan membagikan dasbor Amazon CloudWatch kepada publik. 
   +  Dorong keterlibatan media sosial: 
     +  Pantau media sosial secara aktif untuk memahami sentimen pelanggan. 
     +  Buat postingan di platform media sosial untuk menyampaikan informasi terbaru kepada publik dan menciptakan keterlibatan komunitas. 
     +  Siapkan templat untuk melakukan komunikasi media sosial yang konsisten dan jelas. 

1.  **Koordinasikan komunikasi internal:** Implementasikan protokol internal menggunakan alat seperti Amazon Q Developer dalam aplikasi obrolan untuk koordinasi dan komunikasi tim. Gunakan dasbor CloudWatch untuk mengkomunikasikan status. 

1.  ** Orkestrasi komunikasi dengan alat dan layanan-layanan khusus: ** 
   +  Gunakan Manajer Insiden AWS Systems Manager dengan Amazon Q Developer dalam aplikasi obrolan untuk menyiapkan saluran-saluran obrolan khusus untuk komunikasi internal waktu nyata dan koordinasi selama insiden. 
   +  Gunakan runbook Manajer Insiden AWS Systems Manager untuk mengotomatiskan notifikasi pelanggan melalui Amazon Pinpoint, Amazon SNS, atau alat-alat pihak ketiga seperti platform media sosial selama terjadi insiden. 
   +  Integrasikan alur kerja persetujuan di dalam runbook untuk meninjau dan mengotorisasi semua komunikasi eksternal secara opsional sebelum dikirim. 

1.  ** Latih dan tingkatkan: ** 
   +  Lakukan pelatihan tentang penggunaan alat dan strategi komunikasi. Berdayakan tim untuk mengambil keputusan secara tepat waktu selama terjadi insiden. 
   +  Uji rencana komunikasi dengan menjalankan latihan rutin atau game day. Gunakan pengujian ini untuk menyempurnakan perpesanan dan mengevaluasi efektivitas saluran. 
   +  Implementasikan mekanisme umpan balik untuk menilai efektivitas komunikasi selama terjadi insiden. Terus kembangkan rencana komunikasi berdasarkan umpan balik dan perubahan kebutuhan. 

 **Tingkat upaya untuk rencana implementasi:** Tinggi 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS07-BP03 Menggunakan runbook untuk menjalankan prosedur](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Mengomunikasikan status melalui dasbor](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Lakukan analisis pasca-insiden](ops_evolve_ops_perform_rca_process.md) 

 **Dokumen terkait:** 
+ [ Atlassian - Praktik terbaik komunikasi insiden ](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian - Cara menulis pembaruan status yang baik ](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty - Panduan Komunikasi Insiden ](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Video terkait:** 
+ [ Atlassian - Buat rencana komunikasi insiden Anda sendiri: Templat insiden ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Contoh terkait:** 
+  [Dasbor AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Mengomunikasikan status melalui dasbor
<a name="ops_event_response_dashboards"></a>

 Gunakan dasbor sebagai alat strategis untuk menyampaikan status operasional waktu nyata dan metrik utama kepada audiens yang berbeda, termasuk tim teknis internal, pimpinan, dan pelanggan. Dasbor ini menawarkan representasi visual tersentralisasi tentang kesehatan sistem dan kinerja bisnis, sehingga meningkatkan transparansi dan efisiensi pengambilan keputusan. 

 **Hasil yang diinginkan:** 
+  Dasbor Anda memberikan gambaran yang komprehensif tentang sistem dan metrik-metrik bisnis yang relevan untuk berbagai pemangku kepentingan. 
+  Para pemangku kepentingan dapat mengakses informasi operasional secara proaktif, sehingga mengurangi kebutuhan permintaan status yang harus sering kali dilakukan. 
+  Pengambilan keputusan waktu nyata disempurnakan selama operasi dan insiden normal. 

 **Anti-pola umum:** 
+ Rekayasawan yang bergabung dengan panggilan manajemen insiden mengharuskan adanya pembaruan status untuk mengejar ketertinggalan.
+ Mengandalkan pelaporan manual untuk manajemen, yang menyebabkan ketertundaan dan potensi ketidakakuratan.
+  Tim operasi sering terganggu dengan permintaan pembaruan status selama terjadi insiden. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Memberdayakan para pemangku kepentingan dengan akses langsung ke informasi penting, sehingga mendorong pengambilan keputusan tepat yang berdasar informasi. 
+  Mengurangi inefisiensi operasional dengan meminimalkan pelaporan manual dan permintaan status yang sering dilakukan. 
+  Meningkatkan transparansi dan kepercayaan melalui visibilitas waktu nyata pada kinerja sistem dan metrik-metrik bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Dasbor menyampaikan status sistem dan metrik-metrik bisnis Anda secara efektif dan dapat disesuaikan dengan kebutuhan kelompok audiens yang berbeda. Alat-alat seperti dasbor Amazon CloudWatch dan Amazon Quick dapat membantu Anda untuk membuat dasbor interaktif waktu nyata untuk pemantauan sistem dan kecerdasan bisnis. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Identifikasi kebutuhan pemangku kepentingan:** Tentukan kebutuhan informasi khusus untuk kelompok audiens yang berbeda-beda, seperti tim teknis, pimpinan, dan pelanggan. 

1.  **Pilih alat yang tepat:** Pilih alat yang sesuai seperti [dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) untuk pemantauan sistem dan [Amazon Quick](https://aws.amazon.com/quicksight/) untuk kecerdasan bisnis interaktif. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) memberikan pengalaman siap pakai di [Dasbor AWS Health](https://health.aws.amazon.com/health/home), atau Anda dapat menggunakan peristiwa Health di Amazon EventBridge atau melalui API AWS Health untuk melengkapi dasbor Anda sendiri. 

1.  **Rancang dasbor yang efektif:** 
   +  Rancang dasbor yang menyajikan metrik dan KPI yang relevan secara jelas, sehingga dasbor menjadi mudah dimengerti dan dapat ditindaklanjuti. 
   +  Gabungkan tampilan tingkat sistem dan tingkat bisnis sesuai kebutuhan. 
   +  Sertakan dasbor tingkat tinggi (untuk gambaran umum) dan dasbor tingkat rendah (untuk analisis mendetail). 
   +  Integrasikan alarm otomatis di dalam dasbor untuk menyoroti masalah-masalah kritis. 
   +  Buatlah anotasi dasbor dengan sasaran dan ambang batas metrik-metrik penting untuk visibilitas langsung. 

1.  **Integrasikan sumber data:** 
   +  Gunakan [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) untuk menggabungkan dan menampilkan metrik dari berbagai layanan AWS dan [metrik kueri dari sumber data lain](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), yang akan membuat tampilan terpadu dari metrik kesehatan dan bisnis sistem Anda. 
   +  Gunakan fitur seperti [Wawasan Log CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) untuk melakukan kueri dan memvisualisasikan data log dari berbagai aplikasi dan layanan. 
   +  Gunakan peristiwa AWS Health untuk terus mendapatkan informasi tentang status operasional dan masalah operasional yang dikonfirmasi dari layanan AWS melalui [API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) atau [peristiwa AWS Health di Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Berikan akses mandiri:** 
   +  Bagikan dasbor CloudWatch dengan para pemangku kepentingan yang relevan untuk memberikan akses informasi mandiri dengan menggunakan [fitur berbagi dasbor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Pastikan dasbor mudah diakses dan menyediakan informasi terkini dalam waktu nyata. 

1.  **Perbarui dan perbaiki secara rutin:** 
   +  Lakukan pembaruan dan penyempurnaan secara terus-menerus pada dasbor agar selaras dengan kebutuhan bisnis yang terus berkembang dan umpan balik yang diberikan para pemangku kepentingan. 
   +  Tinjau dasbor secara rutin agar tetap relevan dan efektif untuk menyampaikan informasi yang diperlukan. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS08-BP05 Membuat dasbor](ops_workload_observability_create_dashboards.md) 

 **Dokumen terkait:** 
+ [ Membangun dasbor untuk visibilitas operasional ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Menggunakan dasbor Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Membuat dasbor fleksibel dengan variabel dasbor ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Berbagi dasbor CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Metrik kueri dari sumber data lain ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Menambahkan widget kustom ke sebuah dasbor CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Contoh terkait:** 
+ [ Lokakarya Satu Observabilitas - Dasbor ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Otomatiskan tanggapan terhadap acara
<a name="ops_event_response_auto_event_response"></a>

 Mengotomatiskan respons peristiwa sangatlah penting untuk penanganan operasional yang cepat, konsisten, dan bebas kesalahan. Ciptakan proses yang efisien dan gunakan alat untuk mengelola dan merespons peristiwa secara otomatis, sehingga meminimalkan intervensi manual dan meningkatkan efektivitas operasional. 

 **Hasil yang diinginkan:** 
+  Mengurangi kesalahan manusia dan waktu resolusi yang lebih cepat melalui otomatisasi. 
+  Penanganan peristiwa operasional yang konsisten dan andal. 
+  Peningkatan efisiensi operasional dan keandalan sistem. 

 **Anti-pola umum:** 
+ Penanganan peristiwa secara manual menyebabkan terjadinya penundaan dan kesalahan.
+ Otomatisasi diabaikan dalam tugas-tugas penting yang repetitif.
+  Tugas manual yang repetitif menyebabkan kewalahan akibat peringatan dan terlewatkannya masalah-masalah kritis. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Respons peristiwa yang lebih cepat, sehingga mengurangi waktu henti sistem. 
+  Operasi yang andal dengan penanganan peristiwa yang otomatis dan konsisten. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Integrasikan otomatisasi untuk menciptakan alur kerja operasional yang efisien dan meminimalkan intervensi manual. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Identifikasi peluang otomatisasi:** Tentukan tugas-tugas repetitif untuk diotomatisasi, seperti remediasi masalah, pengayaan tiket, manajemen kapasitas, penskalaan, deployment, dan pengujian. 

1.  **Identifikasi perintah-perintah otomatisasi:** 
   +  Menilai dan menentukan kondisi atau metrik tertentu yang memulai respons otomatis menggunakan tindakan [ CloudWatch alarm Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Gunakan [Amazon EventBridge](https://aws.amazon.com/eventbridge/) untuk merespons peristiwa dalam AWS layanan, beban kerja khusus, dan aplikasi SaaS. 
   +  [Pertimbangkan peristiwa inisiasi seperti [entri log tertentu](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [ambang metrik kinerja](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html), atau perubahan status sumber daya.](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) AWS 

1.  **Implementasikan otomatisasi berbasis peristiwa:** 
   +  Gunakan runbook AWS Systems Manager Otomasi untuk menyederhanakan tugas pemeliharaan, penerapan, dan remediasi. 
   +  [Membuat insiden di Manajer Insiden](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) secara otomatis mengumpulkan dan menambahkan detail tentang AWS sumber daya yang terlibat ke insiden tersebut. 
   +  Secara proaktif memantau kuota menggunakan [Monitor Kuota untuk AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Secara otomatis menyesuaikan kapasitas dengan [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) untuk menjaga ketersediaan dan kinerja. 
   +  [Otomatiskan jaringan pipa pengembangan dengan Amazon. CodeCatalyst](https://codecatalyst.aws/explore) 
   +  Uji asap atau terus memantau titik akhir dan APIs [menggunakan pemantauan sintetis](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Lakukan mitigasi risiko melalui otomatisasi:** 
   +  Menerapkan [respons keamanan otomatis](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) untuk mengatasi risiko dengan cepat. 
   +  Gunakan [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) untuk mengurangi penyimpangan konfigurasi. 
   +  [Memperbaiki sumber daya yang tidak sesuai dengan. Aturan AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 

 **Tingkat upaya untuk rencana implementasi:** Tinggi 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Menjalankan proses untuk setiap peringatan](ops_event_response_process_per_alert.md) 

 **Dokumen terkait:** 
+  [Menggunakan runbook Systems Manager Automation dengan Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Membuat insiden di Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS kuota layanan](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Pantau penggunaan sumber daya dan kirim notifikasi saat mendekati kuota](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Apa itu Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Menggunakan CloudWatch alarm Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Menggunakan tindakan CloudWatch alarm Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Memediasi Sumber Daya yang Tidak Sesuai dengan Aturan AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Membuat metrik dari peristiwa log dengan menggunakan filter](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Video terkait:** 
+ [Buat Runbook Otomasi dengan AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Cara mengotomatiskan Operasi TI di AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM aturan otomatisasi](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Mulai proyek perangkat lunak Anda dengan cepat dengan CodeCatalyst cetak biru Amazon](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Contoh terkait:** 
+ [Amazon CodeCatalyst Tutorial: Membuat proyek dengan cetak biru aplikasi web tiga tingkat modern](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ Lokakarya Satu Observabilitas ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [ Menanggapi insiden menggunakan Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)