

# OPS10-BP02 Menjalankan proses untuk setiap peringatan
<a name="ops_event_response_process_per_alert"></a>

 Menetapkan proses yang jelas dan terdefinisi untuk setiap peringatan di dalam sistem Anda sangat penting untuk manajemen insiden yang efektif dan efisien. Praktik ini memastikan bahwa setiap peringatan menghasilkan respons spesifik yang dapat ditindaklanjuti, sehingga meningkatkan keandalan dan responsivitas operasi Anda. 

 **Hasil yang diinginkan:** Setiap peringatan memulai rencana respons spesifik dan terdefinisi dengan baik. Jika memungkinkan, respons dilakukan secara otomatis, dengan kepemilikan yang jelas dan jalur eskalasi yang sudah ditentukan. Peringatan ditautkan ke basis pengetahuan yang mutakhir sehingga setiap operator dapat memberikan respons secara konsisten dan efektif. Respons diberikan secara cepat dan seragam, sehingga meningkatkan efisiensi dan keandalan operasional. 

 **Anti-pola umum:** 
+  Peringatan tidak memiliki proses respons yang telah ditentukan sebelumnya, sehingga menyebabkan resolusi yang seadanya dan tertunda. 
+  Jumlah peringatan yang terlalu banyak dapat menyebabkan terabaikannya peringatan-peringatan penting. 
+  Peringatan-peringatan ditangani secara tidak konsisten karena tidak adanya kepemilikan dan tanggung jawab yang jelas. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Mengurangi kewalahan akibat peringatan dengan hanya memunculkan peringatan yang dapat ditindaklanjuti. 
+  Penurunan rata-rata waktu resolusi (MTTR) untuk masalah operasional. 
+  Penurunan rata-rata waktu untuk menyelidiki (MTTI), sehingga membantu mengurangi MTTR. 
+  Peningkatan kemampuan untuk menskalakan respons-respons operasional. 
+  Peningkatan konsistensi dan keandalan dalam menangani peristiwa-peristiwa operasional. 

 Misalnya, Anda memiliki proses yang ditentukan untuk peristiwa AWS Health untuk akun-akun penting, termasuk alarm aplikasi, masalah operasional, dan peristiwa siklus hidup terencana (seperti memperbarui versi Amazon EKS sebelum klaster diperbarui secara otomatis), dan Anda memberikan kemampuan bagi tim Anda untuk secara aktif memantau, berkomunikasi, dan merespons peristiwa-peristiwa ini. Tindakan ini membantu Anda mencegah gangguan layanan yang disebabkan oleh perubahan di sisi AWS atau memitigasinya lebih cepat ketika terjadi masalah yang tak terduga. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Untuk membuat sebuah proses untuk setiap peringatan, diperlukan pembuatan rencana respons yang jelas untuk setiap peringatan, otomatisasi respons apabila memungkinkan, dan penyempurnaan proses-proses ini secara berkelanjutan berdasarkan umpan balik operasional dan perubahan persyaratan. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

 Diagram berikut ini menggambarkan alur kerja manajemen insiden di dalam [Manajer Insiden AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Ini dirancang untuk merespons masalah operasional dengan cara menciptakan insiden secara otomatis sebagai respons terhadap peristiwa tertentu dari [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) atau [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Ketika insiden dibuat, baik secara otomatis maupun manual, Manajer Insiden memusatkan manajemen insiden, mengatur informasi sumber daya AWS yang relevan, dan memulai rencana respons yang telah ditentukan sebelumnya. Ini mencakup menjalankan runbook Systems Manager Automation untuk tindakan cepat, serta membuat item kerja operasional induk di OpsCenter untuk melacak tugas dan analisis terkait. Proses yang efisien ini mempercepat dan mengoordinasikan respons insiden di seluruh lingkungan AWS Anda. 

![\[Diagram alur yang menggambarkan cara kerja Manajer Insiden - Amazon Q Developer dalam aplikasi obrolan, rencana eskalasi dan kontak, dan runbook mengalir ke rencana respons, yang mengalir ke insiden dan analisis. Amazon CloudWatch juga mengalir ke paket respons.\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Gunakan alarm komposit:** Buat [alarm komposit](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) di CloudWatch untuk mengelompokkan alarm terkait, mengurangi noise, dan memungkinkan respons yang lebih bermakna. 

1.  **Terus dapatkan informasi dengan [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html).** AWS Health adalah sumber informasi otoritatif tentang kondisi sumber daya AWS Cloud Anda. Gunakan AWS Health untuk memvisualisasikan dan mendapatkan notifikasi tentang peristiwa layanan saat ini dan perubahan yang akan datang, seperti peristiwa siklus hidup yang direncanakan, sehingga Anda dapat mengambil langkah-langkah untuk mengurangi dampaknya. 

   1.  [Buat notifikasi peristiwa AWS Health sesuai keperluan](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) yang dikirim ke saluran email dan obrolan melalui [Notifikasi Pengguna AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) serta integrasikan secara programatis dengan [alat pemantauan dan peringatan Anda melalui Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) atau [API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Rencanakan dan lacak progres pada peristiwa kesehatan yang memerlukan tindakan dengan mengintegrasikan dengan manajemen perubahan atau alat ITSM (seperti [Jira atau](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) yang mungkin sudah Anda gunakan melalui Amazon EventBridge atau API AWS Health. 

   1.  Jika Anda menggunakan AWS Organizations, aktifkan [tampilan organisasi untuk AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) guna menggabungkan peristiwa AWS Health di seluruh akun. 

1.  **Integrasikan alarm Amazon CloudWatch dengan Manajer Insiden:** Konfigurasikan alarm CloudWatch untuk membuat insiden secara otomatis di [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integrasikan Amazon EventBridge dengan Manajer Insiden:** Buat [aturan EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) untuk bereaksi terhadap peristiwa dan membuat insiden menggunakan rencana respons yang ditentukan. 

1.  **Mempersiapkan insiden di Manajer Insiden:** 
   +  Buat [rencana respons](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) terperinci di Manajer Insiden untuk setiap jenis peringatan. 
   +  Buat saluran obrolan melalui [Amazon Q Developer dalam aplikasi obrolan](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) yang terhubung ke rencana respons di Manajer Insiden, sehingga akan memfasilitasi komunikasi waktu nyata selama insiden di seluruh platform seperti Slack, Microsoft Teams, dan Amazon Chime. 
   +  Menggabungkan [runbook Otomatisasi Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) dalam Manajer Insiden untuk mendorong respons otomatis terhadap insiden. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 

 **Dokumen terkait:** 
+ [Kerangka Kerja Adopsi Cloud AWS: Perspektif Operasional - Manajemen insiden dan masalah ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Menggunakan alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Menyiapkan Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Mempersiapkan insiden di Manajer Insiden ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Video terkait:** 
+ [ Kiat respons insiden teratas dari AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Mengelola peristiwa siklus hidup sumber daya dalam skala besar dengan AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Contoh terkait:** 
+ [Lokakarya AWS - Manajer Insiden AWS Systems Manager - Mengotomatiskan respons insiden terhadap peristiwa keamanan ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)