# OPS 10. Bagaimana cara mengelola peristiwa operasi dan beban kerja?
<a name="ops-10"></a>

 Siapkan dan validasikan prosedur untuk merespons peristiwa guna meminimalkan gangguannya pada beban kerja Anda. 

**Topics**
+ [

# OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Menjalankan proses untuk setiap peringatan
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Memprioritaskan peristiwa operasional berdasarkan dampaknya terhadap bisnis
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Tetapkan jalur eskalasi
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Menentukan rencana komunikasi pelanggan untuk peristiwa yang berdampak pada layanan
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Mengomunikasikan status melalui dasbor
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Otomatiskan tanggapan terhadap acara
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah
<a name="ops_event_response_event_incident_problem_process"></a>

Kemampuan untuk mengelola peristiwa, insiden, dan masalah secara efisien adalah kunci untuk menjaga kondisi kesehatan dan kinerja beban kerja. Sangat penting untuk mengenali dan memahami perbedaan antara elemen-elemen ini untuk mengembangkan sebuah strategi respons dan resolusi yang efektif. Dengan membentuk dan mengikuti proses yang ditentukan dengan baik untuk setiap aspek, tim Anda dapat dengan cepat dan efektif menangani setiap tantangan operasional yang muncul.

 **Hasil yang diinginkan:** Organisasi Anda mengelola peristiwa-peristiwa operasional, insiden, dan masalah secara efektif melalui proses yang terdokumentasi dengan baik dan tersimpan secara terpusat. Proses-proses tersebut diperbarui secara konsisten untuk mencerminkan setiap perubahan, merampingkan proses penanganan, dan mempertahankan keandalan layanan serta kinerja beban kerja yang tinggi. 

 **Anti-pola umum:** 
+  Anda merespons peristiwa secara reaktif, bukan proaktif. 
+  Pendekatan-pendekatan yang tidak konsisten diambil untuk berbagai jenis peristiwa atau insiden yang berbeda. 
+ Organisasi Anda tidak menganalisis dan belajar dari insiden-insiden yang terjadi untuk mencegah kejadian di masa mendatang.

 **Manfaat menjalankan praktik terbaik ini:** 
+  Proses respons yang efisien dan terstandardisasi. 
+  Berkurangnya dampak insiden pada layanan dan pelanggan. 
+  Resolusi masalah yang lebih cepat. 
+  Perbaikan berkelanjutan dalam proses operasional. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Menerapkan praktik terbaik ini berarti Anda melacak peristiwa-peristiwa beban kerja. Anda memiliki proses untuk menangani insiden dan masalah. Proses ini didokumentasikan, dibagikan, dan sering diperbarui. Masalah diidentifikasi, diprioritaskan, dan diperbaiki. 

 **Memahami peristiwa, insiden, dan masalah** 
+  **Peristiwa:** Sebuah *peristiwa* adalah sebuah pengamatan atas suatu tindakan, kejadian, atau perubahan status. Peristiwa dapat direncanakan atau tidak direncanakan dan dapat berasal dari dalam atau luar beban kerja. 
+  **Insiden:** *Insiden* adalah peristiwa-peristiwa yang memerlukan respons, seperti gangguan yang tidak terencana atau penurunan kualitas layanan. Insiden-insiden tersebut mewakili gangguan yang membutuhkan perhatian cepat untuk memulihkan operasi beban kerja yang normal. 
+  **Masalah:** *Masalah* adalah penyebab-penyebab yang mendasari satu atau beberapa insiden. Mengidentifikasi dan menyelesaikan masalah mencakup langkah-langkah untuk menyelidiki insiden dengan lebih mendalam untuk mencegah kejadian di masa mendatang. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

 **Peristiwa** 

1.  **Memantau peristiwa:** 
   +  [Menerapkan observabilitas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) dan [memanfaatkan observabilitas beban kerja](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Tindakan pemantauan yang dilakukan oleh pengguna, peran, atau layanan AWS dicatat sebagai peristiwa di dalam [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Respons perubahan operasional di dalam aplikasi Anda dalam waktu nyata dengan [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Lakukan penilaian, pemantauan, dan pencatatan perubahan konfigurasi sumber daya secara berkelanjutan dengan [AWS Config](https://aws.amazon.com/config/). 

1.  **Ciptakan proses:** 
   +  Kembangkan sebuah proses untuk menilai peristiwa mana yang signifikan dan memerlukan pemantauan. Langkah ini melibatkan pengaturan ambang batas dan parameter untuk aktivitas normal dan abnormal. 
   +  Tentukan kriteria eskalasi suatu peristiwa menjadi insiden. Kriteria ini dapat didasarkan pada tingkat keparahan, dampak yang ditimbulkan pada pengguna, atau penyimpangan dari perilaku yang diperkirakan. 
   +  Lakukan peninjauan terhadap proses pemantauan dan respons peristiwa secara rutin. Langkah ini mencakup analisis insiden masa lalu, penyesuaian ambang batas, dan penyempurnaan mekanisme pembuatan peringatan. 

 **Insiden** 

1.  **Merespons insiden:** 
   +  Gunakan wawasan dari alat-alat observabilitas untuk mengidentifikasi dan merespons insiden dengan cepat. 
   +  Implementasikan [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter) untuk mengagregasi, mengatur, dan memprioritaskan item dan insiden operasional. 
   +  Gunakan layanan-layanan seperti [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) dan [AWS X-Ray](https://aws.amazon.com/xray/) untuk analisis dan pemecahan masalah yang lebih dalam. 
   +  Pertimbangkan [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) untuk meningkatkan manajemen insiden, dengan memanfaatkan kemampuan proaktif, pencegahan, dan detektifnya. AMS akan memperluas dukungan operasional dengan layanan-layanan seperti pemantauan, deteksi dan respons insiden, dan manajemen keamanan. 
   +  Pelanggan Dukungan Perusahaan dapat menggunakan [Deteksi dan Respons Insiden AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), yang akan menyediakan pemantauan proaktif terus-menerus dan manajemen insiden untuk beban kerja produksi. 

1.  **Buat proses manajemen insiden:** 
   +  Tetapkan sebuah proses manajemen insiden yang terstruktur, termasuk peran yang jelas, protokol komunikasi, dan langkah-langkah penyelesaian masalah. 
   +  Integrasikan manajemen insiden dengan alat seperti [Amazon Q Developer dalam aplikasi obrolan](https://aws.amazon.com/chatbot/) untuk mendapatkan respons dan koordinasi yang efisien. 
   +  Kategorikan insiden berdasarkan tingkat keparahan, dengan [rencana respons insiden](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) yang telah ditentukan sebelumnya untuk masing-masing kategori. 

1.  **Pelajari dan tingkatkan:** 
   +  Lakukan [analisis pasca-insiden](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) untuk memahami akar penyebab masalah dan efektivitas penyelesaian masalah. 
   +  Lakukan pembaruan dan peningkatan secara berkelanjutan terhadap rencana-rencana respons berdasarkan tinjauan dan praktik yang berkembang. 
   +  Buatlah dokumentasi dari dan bagikan pelajaran yang diperoleh ke seluruh tim untuk meningkatkan ketahanan operasional. 
   +  Pelanggan Dukungan Perusahaan dapat meminta [Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) dari Manajer Akun Teknis mereka. Lokakarya terpandu ini akan menguji rencana respons insiden yang ada sekarang dan akan membantu Anda mengidentifikasi area-area yang perlu ditingkatkan. 

 **Masalah** 

1.  **Identifikasi masalah:** 
   +  Gunakan data dari insiden-insiden sebelumnya untuk mengidentifikasi pola-pola yang berulang yang mungkin menandakan adanya masalah sistemik yang lebih mendalam. 
   +  Manfaatkan alat-alat seperti [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) dan [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) untuk melakukan analisis tren dan mengungkap masalah-masalah mendasar. 
   +  Libatkan tim lintas fungsi, termasuk tim operasional, pengembangan, dan unit bisnis, untuk mendapatkan perspektif yang beragam tentang akar penyebab masalah. 

1.  **Buat proses manajemen masalah:** 
   +  Kembangkan sebuah proses terstruktur untuk manajemen masalah, dengan fokus pada penyelesaian masalah jangka panjang, bukan perbaikan-perbaikan cepat. 
   +  Sertakan teknik-teknik analisis akar masalah (RCA) untuk menyelidiki dan memahami penyebab dasar terjadinya insiden. 
   +  Perbarui kebijakan operasional, prosedur, dan infrastruktur berdasarkan temuan yang didapatkan untuk mencegah terulangnya kejadian. 

1.  **Terus lakukan perbaikan:** 
   +  Pupuk budaya pembelajaran dan perbaikan yang konstan, dengan mendorong tim untuk mengidentifikasi dan mengatasi setiap potensi masalah secara proaktif. 
   +  Tinjau dan revisi proses dan alat manajemen masalah agar selaras dengan lanskap bisnis dan teknologi yang berkembang. 
   +  Bagikan wawasan dan praktik terbaik ke seluruh organisasi untuk membangun sebuah lingkungan operasional yang lebih tangguh dan efisien. 

1.  **Libatkan AWS Dukungan:** 
   +  Gunakan sumber daya AWS dukungan, seperti [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), untuk panduan proaktif dan rekomendasi pengoptimalan. 
   +  Pelanggan Dukungan Perusahaan dapat mengakses program khusus seperti [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) untuk mendapatkan dukungan saat terjadi peristiwa kritis. 

 **Tingkat upaya untuk rencana implementasi:** Sedang 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Melaksanakan telemetri aplikasi](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Menggunakan runbook untuk menjalankan prosedur](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Menggunakan playbook untuk menyelidiki masalah](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Menganalisis metrik beban kerja](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Lakukan analisis pasca-insiden](ops_evolve_ops_perform_rca_process.md) 

 **Dokumen terkait:** 
+  [Panduan Respons Insiden Keamanan AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Deteksi dan Respons Insiden AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [Kerangka Kerja Adopsi Cloud AWS: Perspektif Operasional - Manajemen insiden dan masalah ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Manajemen Insiden di Era DevOps dan SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - Apa itu Manajemen Insiden?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video terkait:** 
+ [ Kiat respons insiden teratas dari AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - Amazon Builders' Library: 25 tahun keunggulan operasional Amazon ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - Deteksi dan Respons Insiden AWS (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [ Memperkenalkan Incident Manager dari AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Contoh terkait:** 
+  [Layanan Proaktif AWS – Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [ Cara Mengotomatiskan Respons Insiden dengan PagerDuty dan Manajer Insiden AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [ Libatkan Perespons Insiden dengan Jadwal Personel Siaga di Manajer Insiden AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [ Tingkatkan Visibilitas dan Kolaborasi selama Penanganan Insiden di Manajer Insiden AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [ Laporan insiden dan permintaan layanan di AMS ](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Layanan terkait:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Menjalankan proses untuk setiap peringatan
<a name="ops_event_response_process_per_alert"></a>

 Menetapkan proses yang jelas dan terdefinisi untuk setiap peringatan di dalam sistem Anda sangat penting untuk manajemen insiden yang efektif dan efisien. Praktik ini memastikan bahwa setiap peringatan menghasilkan respons spesifik yang dapat ditindaklanjuti, sehingga meningkatkan keandalan dan responsivitas operasi Anda. 

 **Hasil yang diinginkan:** Setiap peringatan memulai rencana respons spesifik dan terdefinisi dengan baik. Jika memungkinkan, respons dilakukan secara otomatis, dengan kepemilikan yang jelas dan jalur eskalasi yang sudah ditentukan. Peringatan ditautkan ke basis pengetahuan yang mutakhir sehingga setiap operator dapat memberikan respons secara konsisten dan efektif. Respons diberikan secara cepat dan seragam, sehingga meningkatkan efisiensi dan keandalan operasional. 

 **Anti-pola umum:** 
+  Peringatan tidak memiliki proses respons yang telah ditentukan sebelumnya, sehingga menyebabkan resolusi yang seadanya dan tertunda. 
+  Jumlah peringatan yang terlalu banyak dapat menyebabkan terabaikannya peringatan-peringatan penting. 
+  Peringatan-peringatan ditangani secara tidak konsisten karena tidak adanya kepemilikan dan tanggung jawab yang jelas. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Mengurangi kewalahan akibat peringatan dengan hanya memunculkan peringatan yang dapat ditindaklanjuti. 
+  Penurunan rata-rata waktu resolusi (MTTR) untuk masalah operasional. 
+  Penurunan rata-rata waktu untuk menyelidiki (MTTI), sehingga membantu mengurangi MTTR. 
+  Peningkatan kemampuan untuk menskalakan respons-respons operasional. 
+  Peningkatan konsistensi dan keandalan dalam menangani peristiwa-peristiwa operasional. 

 Misalnya, Anda memiliki proses yang ditentukan untuk peristiwa AWS Health untuk akun-akun penting, termasuk alarm aplikasi, masalah operasional, dan peristiwa siklus hidup terencana (seperti memperbarui versi Amazon EKS sebelum klaster diperbarui secara otomatis), dan Anda memberikan kemampuan bagi tim Anda untuk secara aktif memantau, berkomunikasi, dan merespons peristiwa-peristiwa ini. Tindakan ini membantu Anda mencegah gangguan layanan yang disebabkan oleh perubahan di sisi AWS atau memitigasinya lebih cepat ketika terjadi masalah yang tak terduga. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Untuk membuat sebuah proses untuk setiap peringatan, diperlukan pembuatan rencana respons yang jelas untuk setiap peringatan, otomatisasi respons apabila memungkinkan, dan penyempurnaan proses-proses ini secara berkelanjutan berdasarkan umpan balik operasional dan perubahan persyaratan. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

 Diagram berikut ini menggambarkan alur kerja manajemen insiden di dalam [Manajer Insiden AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Ini dirancang untuk merespons masalah operasional dengan cara menciptakan insiden secara otomatis sebagai respons terhadap peristiwa tertentu dari [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) atau [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Ketika insiden dibuat, baik secara otomatis maupun manual, Manajer Insiden memusatkan manajemen insiden, mengatur informasi sumber daya AWS yang relevan, dan memulai rencana respons yang telah ditentukan sebelumnya. Ini mencakup menjalankan runbook Systems Manager Automation untuk tindakan cepat, serta membuat item kerja operasional induk di OpsCenter untuk melacak tugas dan analisis terkait. Proses yang efisien ini mempercepat dan mengoordinasikan respons insiden di seluruh lingkungan AWS Anda. 

![\[Diagram alur yang menggambarkan cara kerja Manajer Insiden - Amazon Q Developer dalam aplikasi obrolan, rencana eskalasi dan kontak, dan runbook mengalir ke rencana respons, yang mengalir ke insiden dan analisis. Amazon CloudWatch juga mengalir ke paket respons.\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


1.  **Gunakan alarm komposit:** Buat [alarm komposit](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) di CloudWatch untuk mengelompokkan alarm terkait, mengurangi noise, dan memungkinkan respons yang lebih bermakna. 

1.  **Terus dapatkan informasi dengan [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html).** AWS Health adalah sumber informasi otoritatif tentang kondisi sumber daya AWS Cloud Anda. Gunakan AWS Health untuk memvisualisasikan dan mendapatkan notifikasi tentang peristiwa layanan saat ini dan perubahan yang akan datang, seperti peristiwa siklus hidup yang direncanakan, sehingga Anda dapat mengambil langkah-langkah untuk mengurangi dampaknya. 

   1.  [Buat notifikasi peristiwa AWS Health sesuai keperluan](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) yang dikirim ke saluran email dan obrolan melalui [Notifikasi Pengguna AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) serta integrasikan secara programatis dengan [alat pemantauan dan peringatan Anda melalui Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) atau [API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Rencanakan dan lacak progres pada peristiwa kesehatan yang memerlukan tindakan dengan mengintegrasikan dengan manajemen perubahan atau alat ITSM (seperti [Jira atau](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) yang mungkin sudah Anda gunakan melalui Amazon EventBridge atau API AWS Health. 

   1.  Jika Anda menggunakan AWS Organizations, aktifkan [tampilan organisasi untuk AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) guna menggabungkan peristiwa AWS Health di seluruh akun. 

1.  **Integrasikan alarm Amazon CloudWatch dengan Manajer Insiden:** Konfigurasikan alarm CloudWatch untuk membuat insiden secara otomatis di [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integrasikan Amazon EventBridge dengan Manajer Insiden:** Buat [aturan EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) untuk bereaksi terhadap peristiwa dan membuat insiden menggunakan rencana respons yang ditentukan. 

1.  **Mempersiapkan insiden di Manajer Insiden:** 
   +  Buat [rencana respons](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) terperinci di Manajer Insiden untuk setiap jenis peringatan. 
   +  Buat saluran obrolan melalui [Amazon Q Developer dalam aplikasi obrolan](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) yang terhubung ke rencana respons di Manajer Insiden, sehingga akan memfasilitasi komunikasi waktu nyata selama insiden di seluruh platform seperti Slack, Microsoft Teams, dan Amazon Chime. 
   +  Menggabungkan [runbook Otomatisasi Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) dalam Manajer Insiden untuk mendorong respons otomatis terhadap insiden. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS04-BP01 Identifikasi indikator kinerja utama](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 

 **Dokumen terkait:** 
+ [Kerangka Kerja Adopsi Cloud AWS: Perspektif Operasional - Manajemen insiden dan masalah ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Menggunakan alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Menyiapkan Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Mempersiapkan insiden di Manajer Insiden ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Video terkait:** 
+ [ Kiat respons insiden teratas dari AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Mengelola peristiwa siklus hidup sumber daya dalam skala besar dengan AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Contoh terkait:** 
+ [Lokakarya AWS - Manajer Insiden AWS Systems Manager - Mengotomatiskan respons insiden terhadap peristiwa keamanan ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Memprioritaskan peristiwa operasional berdasarkan dampaknya terhadap bisnis
<a name="ops_event_response_prioritize_events"></a>

 Merespons peristiwa operasional dengan cepat adalah hal yang sangat penting, tetapi tidak semua peristiwa sama. Ketika Anda melakukan prioritas berdasarkan dampak bisnis, Anda juga memprioritaskan penanganan peristiwa yang berpotensi menimbulkan konsekuensi signifikan, seperti keamanan, kerugian finansial, pelanggaran peraturan, atau kerusakan reputasi. 

 **Hasil yang diinginkan:** Respons terhadap peristiwa operasional diprioritaskan berdasarkan dampak yang mungkin ditimbulkannya terhadap operasi dan tujuan bisnis. Hal ini membuat respons menjadi efisien dan efektif. 

 **Anti-pola umum:** 
+  Setiap peristiwa diperlakukan dengan tingkat urgensi yang sama, sehingga menyebabkan kebingungan dan ketertundaan dalam menangani masalah-masalah kritis. 
+  Anda gagal membedakan antara peristiwa berdampak tinggi dan rendah, sehingga menyebabkan kesalahan alokasi sumber daya. 
+  Organisasi Anda tidak memiliki kerangka prioritas yang jelas, sehingga menghasilkan respons-respons yang tidak konsisten terhadap peristiwa-peristiwa operasional. 
+  Peristiwa diprioritaskan berdasarkan urutan pelaporannya, bukan dampaknya terhadap hasil bisnis. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Memastikan fungsi-fungsi bisnis penting mendapatkan perhatian terlebih dahulu, sehingga akan meminimalkan potensi kerugian. 
+  Memperbaiki alokasi sumber daya selama saat terjadi peristiwa secara serentak. 
+  Meningkatkan kemampuan organisasi untuk mempertahankan kepercayaan dan memenuhi persyaratan-persyaratan berdasarkan peraturan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Ketika dihadapkan dengan beberapa peristiwa operasional, sebuah pendekatan prioritas yang terstruktur berdasarkan dampak dan urgensi sangatlah penting. Pendekatan ini akan membantu Anda dalam mengambil keputusan tepat berdasarkan informasi, mengerahkan upaya pada hal-hal yang paling membutuhkan, dan mengurangi risiko terhadap kelangsungan bisnis. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Lakukan penilaian dampak:** Kembangkan sebuah sistem klasifikasi untuk mengevaluasi tingkat keparahan peristiwa dalam hal dampak yang mungkin ditimbulkannya terhadap operasi dan tujuan bisnis. Contoh berikut ini menunjukkan kategori-kategori dampak:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Lakukan penilaian tingkat urgensi:** Tentukan tingkat urgensi dalam hal seberapa cepat suatu peristiwa membutuhkan respons, dengan mempertimbangkan faktor-faktor seperti keamanan, implikasi keuangan, dan perjanjian tingkat layanan (SLA). Contoh berikut ini menunjukkan kategori-kategori urgensi:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Buat matriks prioritas:** 
   +  Gunakan matriks untuk melakukan referensi silang antara dampak dan urgensi, sehingga tingkat prioritas dapat ditetapkan ke berbagai kombinasi. 
   +  Buat agar matriks tersebut mudah diakses dan dipahami oleh semua anggota tim yang bertanggung jawab untuk memberikan respons atas peristiwa-peristiwa operasional. 
   +  Contoh matriks berikut ini menampilkan tingkat keparahan insiden berdasarkan urgensi dan dampak:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Latih dan komunikasikan:** Latih tim-tim respons tentang matriks prioritas dan pentingnya mengikuti matriks tersebut saat terjadi insiden. Komunikasikan proses penyusunan prioritas kepada semua pemangku kepentingan untuk menetapkan harapan-harapan yang jelas. 

1.  **Integrasikan dengan respons insiden:** 
   +  Sertakan matriks prioritas ke dalam rencana dan alat respons insiden Anda. 
   +  Lakukan otomatisasi terhadap klasifikasi dan penyusunan prioritas peristiwa jika memungkinkan untuk mempercepat waktu respons. 
   +  Pelanggan Dukungan Perusahaan dapat memanfaatkan [Deteksi dan Respons Insiden AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), yang menyediakan pemantauan proaktif dalam 24x7 dan manajemen insiden untuk beban kerja produksi. 

1.  **Tinjau dan adaptasi:** Lakukan peninjauan secara rutin terhadap efektivitas proses penyusunan prioritas dan lakukan penyesuaian berdasarkan umpan balik dan perubahan dalam lingkungan bisnis. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS03-BP03 Eskalasi didorong](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Mengukur sasaran operasi dan KPI dengan metrik](ops_operations_health_measure_ops_goals_kpis.md) 

 **Dokumen terkait:** 
+ [ Atlassian - Memahami tingkat keparahan insiden ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ Peta Proses IT - Daftar Periksa Prioritas Insiden ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Tetapkan jalur eskalasi
<a name="ops_event_response_define_escalation_paths"></a>

Tetapkan jalur eskalasi yang jelas di dalam protokol respons insiden Anda untuk memfasilitasi tindakan yang tepat waktu dan efektif. Ini mencakup penentuan perintah untuk eskalasi, memberikan detail proses eskalasi, dan memberikan persetujuan tindakan di awal untuk mempercepat pengambilan keputusan dan mengurangi waktu rata-rata resolusi (MTTR).

 **Hasil yang diinginkan:** Proses terstruktur dan efisien yang meneruskan insiden ke personel yang tepat, sehingga waktu respons dan dampak menjadi minimum. 

 **Anti-pola umum:** 
+ Kurangnya kejelasan tentang prosedur pemulihan menyebabkan muncul respons seadanya selama insiden kritis.
+ Tidak adanya penentuan izin dan kepemilikan yang mengakibatkan ketertundaan ketika diperlukan tindakan mendesak.
+  Para pemangku kepentingan dan pelanggan tidak menerima informasi sesuai dengan harapan. 
+  Keputusan-keputusan penting tertunda. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Respons insiden yang efisien melalui prosedur-prosedur eskalasi yang telah ditentukan sebelumnya. 
+  Mengurangi waktu henti dengan tindakan-tindakan yang telah disetujui sebelumnya dan penanggung jawab yang jelas. 
+  Alokasi sumber daya yang lebih baik dan penyesuaian tingkat dukungan berdasarkan tingkat keparahan insiden. 
+  Komunikasi yang lebih baik dengan para pemangku kepentingan dan pelanggan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Jalur eskalasi yang ditentukan dengan benar sangatlah penting untuk memberikan respons insiden yang cepat. Manajer Insiden AWS Systems Manager mendukung penyusunan rencana eskalasi terstruktur dan jadwal personel siaga, yang memberikan peringatan kepada personel yang tepat sehingga mereka siap bertindak ketika insiden terjadi. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Siapkan perintah eskalasi:** Siapkan [alarm CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) untuk membuat sebuah insiden di [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  ** Siapkan jadwal panggilan:** Buat [jadwal panggilan](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) di Incident Manager yang selaras dengan jalur eskalasi Anda. Bekali personel siaga dengan izin dan alat yang diperlukan untuk bertindak cepat. 

1.  ** Detail prosedur eskalasi: ** 
   +  Tentukan kondisi-kondisi spesifik yang membuat insiden harus dieskalasi. 
   +  Buat [rencana eskalasi](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) di Incident Manager. 
   +  Saluran eskalasi harus terdiri dari suatu kontak atau jadwal personel siaga. 
   +  Tentukan peran dan tanggung jawab tim di setiap tingkat eskalasi. 

1.  **Tindakan mitigasi sebelum persetujuan:** Lakukan kerja sama dengan pengambil keputusan untuk menyetujui tindakan di awal untuk skenario yang diantisipasi. Gunakan [runbook Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) yang terintegrasi dengan Incident Manager untuk mempercepat resolusi insiden. 

1.  **Tentukan kepemilikan:** Identifikasi dengan jelas pemilik internal untuk setiap langkah jalur eskalasi. 

1.  **Sediakan detail eskalasi pihak ketiga:** 
   +  Buatlah dokumentasi perjanjian tingkat layanan (SLA) pihak ketiga, dan selaraskan dengan tujuan-tujuan internal. 
   +  Tetapkan protokol yang jelas untuk komunikasi vendor selama terjadi insiden. 
   +  Integrasikan kontak vendor ke dalam alat-alat manajemen insiden sehingga bisa diakses langsung. 
   +  Lakukan latihan rutin yang menyertakan skenario respons pihak ketiga. 
   +  Jaga agar informasi eskalasi vendor terdokumentasi dengan baik dan mudah diakses. 

1.  **Latih dan latih rencana eskalasi:** Latih tim Anda menjalankan proses eskalasi dan lakukan latihan respons insiden rutin atau hari permainan. Pelanggan Dukungan Perusahaan dapat meminta [Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Lanjutkan untuk perbaikan:** Tinjau efektivitas jalur eskalasi Anda secara rutin. Perbarui proses Anda berdasarkan pelajaran yang dipetik dari insiden yang sudah lewat (post-mortem) dan umpan balik berkelanjutan. 

 **Tingkat upaya untuk rencana implementasi:** Sedang 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Menjalankan proses untuk setiap peringatan](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Lakukan analisis pasca-insiden](ops_evolve_ops_perform_rca_process.md) 

 **Dokumen terkait:** 
+ [Rencana Eskalasi Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [ Bekerja dengan jadwal panggilan di Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [ Membuat dan Mengelola Runbook ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [ Manajemen peningkatan akses sementara dengan AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian - Kebijakan eskalasi untuk manajemen insiden yang efektif ](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Menentukan rencana komunikasi pelanggan untuk peristiwa yang berdampak pada layanan
<a name="ops_event_response_push_notify"></a>

 Komunikasi yang efektif selama peristiwa yang berdampak pada layanan sangat penting untuk menjaga kepercayaan dan transparansi dengan pelanggan. Rencana komunikasi yang terdefinisi dengan baik membantu organisasi Anda berbagi informasi dengan cepat dan jelas, baik secara internal maupun eksternal, selama insiden. 

 **Hasil yang diinginkan:** 
+  Rencana komunikasi yang solid sebagai pedoman yang efektif bagi para pelanggan dan pemangku kepentingan selama peristiwa yang berdampak pada layanan. 
+  Transparansi dalam komunikasi untuk membangun kepercayaan dan mengurangi kecemasan pelanggan. 
+  Meminimalkan dampak peristiwa yang berdampak pada layanan terhadap pengalaman pelanggan dan operasional bisnis. 

 **Anti-pola umum:** 
+  Komunikasi yang tidak memadai atau tertunda menyebabkan kebingungan dan ketidakpuasan pada pelanggan. 
+  Pesan yang terlalu teknis atau tidak jelas akan gagal menyampaikan dampak sebenarnya pada pengguna. 
+  Tidak ada strategi komunikasi yang telah ditentukan sebelumnya, sehingga menghasilkan pesan yang tidak konsisten dan reaktif. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Meningkatkan kepercayaan dan kepuasan pelanggan dengan melakukan komunikasi yang proaktif dan jelas. 
+  Mengurangi beban pada tim dukungan dengan menangani kekhawatiran pelanggan terlebih dahulu. 
+  Meningkatkan kemampuan untuk mengelola dan memulihkan insiden secara efektif. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Pembuatan rencana komunikasi yang komprehensif untuk peristiwa-peristiwa yang berdampak pada layanan melibatkan banyak aspek, mulai dari pemilihan saluran yang tepat hingga penyusunan pesan dan nada pesan. Rencana harus dapat disesuaikan, dapat diskalakan, dan memenuhi skenario pemadaman (outage) yang berbeda-beda. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Menentukan peran dan tanggung jawab:** 
   +  Tugaskan manajer insiden utama untuk mengawasi aktivitas respons insiden. 
   +  Tunjuk seorang manajer komunikasi yang bertanggung jawab untuk mengoordinasikan semua komunikasi eksternal dan internal. 
   +  Libatkan manajer dukungan untuk menyediakan komunikasi yang konsisten melalui tiket dukungan. 

1.  **Identifikasi saluran komunikasi:** Pilih saluran seperti obrolan di tempat kerja, email, SMS, media sosial, pemberitahuan dalam aplikasi, dan halaman status. Saluran-saluran tersebut harus tangguh dan mampu beroperasi secara independen selama terjadi peristiwa yang berdampak pada layanan. 

1.  ** Lakukan komunikasi dengan cepat, jelas, dan rutin kepada pelanggan: ** 
   +  Kembangkan templat-templat untuk berbagai skenario gangguan layanan, dengan menekankan kesederhanaan dan detail-detail penting. Sertakan informasi tentang gangguan layanan, waktu penyelesaian yang diharapkan, dan dampak. 
   +  Gunakan Amazon Pinpoint untuk memberi tahu para pelanggan menggunakan notifikasi push, notifikasi dalam aplikasi, email, pesan teks, pesan suara, dan pesan melalui saluran khusus. 
   +  Gunakan Amazon Simple Notiﬁcation Service (Amazon SNS) untuk memberi tahu pelanggan (subscriber) secara terprogram atau melalui email, notifikasi push seluler, dan pesan teks. 
   +  Komunikasikan status melalui dasbor dengan membagikan dasbor Amazon CloudWatch kepada publik. 
   +  Dorong keterlibatan media sosial: 
     +  Pantau media sosial secara aktif untuk memahami sentimen pelanggan. 
     +  Buat postingan di platform media sosial untuk menyampaikan informasi terbaru kepada publik dan menciptakan keterlibatan komunitas. 
     +  Siapkan templat untuk melakukan komunikasi media sosial yang konsisten dan jelas. 

1.  **Koordinasikan komunikasi internal:** Implementasikan protokol internal menggunakan alat seperti Amazon Q Developer dalam aplikasi obrolan untuk koordinasi dan komunikasi tim. Gunakan dasbor CloudWatch untuk mengkomunikasikan status. 

1.  ** Orkestrasi komunikasi dengan alat dan layanan-layanan khusus: ** 
   +  Gunakan Manajer Insiden AWS Systems Manager dengan Amazon Q Developer dalam aplikasi obrolan untuk menyiapkan saluran-saluran obrolan khusus untuk komunikasi internal waktu nyata dan koordinasi selama insiden. 
   +  Gunakan runbook Manajer Insiden AWS Systems Manager untuk mengotomatiskan notifikasi pelanggan melalui Amazon Pinpoint, Amazon SNS, atau alat-alat pihak ketiga seperti platform media sosial selama terjadi insiden. 
   +  Integrasikan alur kerja persetujuan di dalam runbook untuk meninjau dan mengotorisasi semua komunikasi eksternal secara opsional sebelum dikirim. 

1.  ** Latih dan tingkatkan: ** 
   +  Lakukan pelatihan tentang penggunaan alat dan strategi komunikasi. Berdayakan tim untuk mengambil keputusan secara tepat waktu selama terjadi insiden. 
   +  Uji rencana komunikasi dengan menjalankan latihan rutin atau game day. Gunakan pengujian ini untuk menyempurnakan perpesanan dan mengevaluasi efektivitas saluran. 
   +  Implementasikan mekanisme umpan balik untuk menilai efektivitas komunikasi selama terjadi insiden. Terus kembangkan rencana komunikasi berdasarkan umpan balik dan perubahan kebutuhan. 

 **Tingkat upaya untuk rencana implementasi:** Tinggi 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS07-BP03 Menggunakan runbook untuk menjalankan prosedur](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Mengomunikasikan status melalui dasbor](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Lakukan analisis pasca-insiden](ops_evolve_ops_perform_rca_process.md) 

 **Dokumen terkait:** 
+ [ Atlassian - Praktik terbaik komunikasi insiden ](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian - Cara menulis pembaruan status yang baik ](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty - Panduan Komunikasi Insiden ](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Video terkait:** 
+ [ Atlassian - Buat rencana komunikasi insiden Anda sendiri: Templat insiden ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Contoh terkait:** 
+  [Dasbor AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Mengomunikasikan status melalui dasbor
<a name="ops_event_response_dashboards"></a>

 Gunakan dasbor sebagai alat strategis untuk menyampaikan status operasional waktu nyata dan metrik utama kepada audiens yang berbeda, termasuk tim teknis internal, pimpinan, dan pelanggan. Dasbor ini menawarkan representasi visual tersentralisasi tentang kesehatan sistem dan kinerja bisnis, sehingga meningkatkan transparansi dan efisiensi pengambilan keputusan. 

 **Hasil yang diinginkan:** 
+  Dasbor Anda memberikan gambaran yang komprehensif tentang sistem dan metrik-metrik bisnis yang relevan untuk berbagai pemangku kepentingan. 
+  Para pemangku kepentingan dapat mengakses informasi operasional secara proaktif, sehingga mengurangi kebutuhan permintaan status yang harus sering kali dilakukan. 
+  Pengambilan keputusan waktu nyata disempurnakan selama operasi dan insiden normal. 

 **Anti-pola umum:** 
+ Rekayasawan yang bergabung dengan panggilan manajemen insiden mengharuskan adanya pembaruan status untuk mengejar ketertinggalan.
+ Mengandalkan pelaporan manual untuk manajemen, yang menyebabkan ketertundaan dan potensi ketidakakuratan.
+  Tim operasi sering terganggu dengan permintaan pembaruan status selama terjadi insiden. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Memberdayakan para pemangku kepentingan dengan akses langsung ke informasi penting, sehingga mendorong pengambilan keputusan tepat yang berdasar informasi. 
+  Mengurangi inefisiensi operasional dengan meminimalkan pelaporan manual dan permintaan status yang sering dilakukan. 
+  Meningkatkan transparansi dan kepercayaan melalui visibilitas waktu nyata pada kinerja sistem dan metrik-metrik bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Dasbor menyampaikan status sistem dan metrik-metrik bisnis Anda secara efektif dan dapat disesuaikan dengan kebutuhan kelompok audiens yang berbeda. Alat-alat seperti dasbor Amazon CloudWatch dan Amazon Quick dapat membantu Anda untuk membuat dasbor interaktif waktu nyata untuk pemantauan sistem dan kecerdasan bisnis. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Identifikasi kebutuhan pemangku kepentingan:** Tentukan kebutuhan informasi khusus untuk kelompok audiens yang berbeda-beda, seperti tim teknis, pimpinan, dan pelanggan. 

1.  **Pilih alat yang tepat:** Pilih alat yang sesuai seperti [dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) untuk pemantauan sistem dan [Amazon Quick](https://aws.amazon.com/quicksight/) untuk kecerdasan bisnis interaktif. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) memberikan pengalaman siap pakai di [Dasbor AWS Health](https://health.aws.amazon.com/health/home), atau Anda dapat menggunakan peristiwa Health di Amazon EventBridge atau melalui API AWS Health untuk melengkapi dasbor Anda sendiri. 

1.  **Rancang dasbor yang efektif:** 
   +  Rancang dasbor yang menyajikan metrik dan KPI yang relevan secara jelas, sehingga dasbor menjadi mudah dimengerti dan dapat ditindaklanjuti. 
   +  Gabungkan tampilan tingkat sistem dan tingkat bisnis sesuai kebutuhan. 
   +  Sertakan dasbor tingkat tinggi (untuk gambaran umum) dan dasbor tingkat rendah (untuk analisis mendetail). 
   +  Integrasikan alarm otomatis di dalam dasbor untuk menyoroti masalah-masalah kritis. 
   +  Buatlah anotasi dasbor dengan sasaran dan ambang batas metrik-metrik penting untuk visibilitas langsung. 

1.  **Integrasikan sumber data:** 
   +  Gunakan [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) untuk menggabungkan dan menampilkan metrik dari berbagai layanan AWS dan [metrik kueri dari sumber data lain](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), yang akan membuat tampilan terpadu dari metrik kesehatan dan bisnis sistem Anda. 
   +  Gunakan fitur seperti [Wawasan Log CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) untuk melakukan kueri dan memvisualisasikan data log dari berbagai aplikasi dan layanan. 
   +  Gunakan peristiwa AWS Health untuk terus mendapatkan informasi tentang status operasional dan masalah operasional yang dikonfirmasi dari layanan AWS melalui [API AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) atau [peristiwa AWS Health di Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Berikan akses mandiri:** 
   +  Bagikan dasbor CloudWatch dengan para pemangku kepentingan yang relevan untuk memberikan akses informasi mandiri dengan menggunakan [fitur berbagi dasbor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Pastikan dasbor mudah diakses dan menyediakan informasi terkini dalam waktu nyata. 

1.  **Perbarui dan perbaiki secara rutin:** 
   +  Lakukan pembaruan dan penyempurnaan secara terus-menerus pada dasbor agar selaras dengan kebutuhan bisnis yang terus berkembang dan umpan balik yang diberikan para pemangku kepentingan. 
   +  Tinjau dasbor secara rutin agar tetap relevan dan efektif untuk menyampaikan informasi yang diperlukan. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS08-BP05 Membuat dasbor](ops_workload_observability_create_dashboards.md) 

 **Dokumen terkait:** 
+ [ Membangun dasbor untuk visibilitas operasional ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Menggunakan dasbor Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Membuat dasbor fleksibel dengan variabel dasbor ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Berbagi dasbor CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Metrik kueri dari sumber data lain ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Menambahkan widget kustom ke sebuah dasbor CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Contoh terkait:** 
+ [ Lokakarya Satu Observabilitas - Dasbor ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Otomatiskan tanggapan terhadap acara
<a name="ops_event_response_auto_event_response"></a>

 Mengotomatiskan respons peristiwa sangatlah penting untuk penanganan operasional yang cepat, konsisten, dan bebas kesalahan. Ciptakan proses yang efisien dan gunakan alat untuk mengelola dan merespons peristiwa secara otomatis, sehingga meminimalkan intervensi manual dan meningkatkan efektivitas operasional. 

 **Hasil yang diinginkan:** 
+  Mengurangi kesalahan manusia dan waktu resolusi yang lebih cepat melalui otomatisasi. 
+  Penanganan peristiwa operasional yang konsisten dan andal. 
+  Peningkatan efisiensi operasional dan keandalan sistem. 

 **Anti-pola umum:** 
+ Penanganan peristiwa secara manual menyebabkan terjadinya penundaan dan kesalahan.
+ Otomatisasi diabaikan dalam tugas-tugas penting yang repetitif.
+  Tugas manual yang repetitif menyebabkan kewalahan akibat peringatan dan terlewatkannya masalah-masalah kritis. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Respons peristiwa yang lebih cepat, sehingga mengurangi waktu henti sistem. 
+  Operasi yang andal dengan penanganan peristiwa yang otomatis dan konsisten. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Integrasikan otomatisasi untuk menciptakan alur kerja operasional yang efisien dan meminimalkan intervensi manual. 

### Langkah-langkah implementasi
<a name="implementation-steps"></a>

1.  **Identifikasi peluang otomatisasi:** Tentukan tugas-tugas repetitif untuk diotomatisasi, seperti remediasi masalah, pengayaan tiket, manajemen kapasitas, penskalaan, deployment, dan pengujian. 

1.  **Identifikasi perintah-perintah otomatisasi:** 
   +  Menilai dan menentukan kondisi atau metrik tertentu yang memulai respons otomatis menggunakan tindakan [ CloudWatch alarm Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Gunakan [Amazon EventBridge](https://aws.amazon.com/eventbridge/) untuk merespons peristiwa dalam AWS layanan, beban kerja khusus, dan aplikasi SaaS. 
   +  [Pertimbangkan peristiwa inisiasi seperti [entri log tertentu](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [ambang metrik kinerja](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html), atau perubahan status sumber daya.](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) AWS 

1.  **Implementasikan otomatisasi berbasis peristiwa:** 
   +  Gunakan runbook AWS Systems Manager Otomasi untuk menyederhanakan tugas pemeliharaan, penerapan, dan remediasi. 
   +  [Membuat insiden di Manajer Insiden](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) secara otomatis mengumpulkan dan menambahkan detail tentang AWS sumber daya yang terlibat ke insiden tersebut. 
   +  Secara proaktif memantau kuota menggunakan [Monitor Kuota untuk AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Secara otomatis menyesuaikan kapasitas dengan [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) untuk menjaga ketersediaan dan kinerja. 
   +  [Otomatiskan jaringan pipa pengembangan dengan Amazon. CodeCatalyst](https://codecatalyst.aws/explore) 
   +  Uji asap atau terus memantau titik akhir dan APIs [menggunakan pemantauan sintetis](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Lakukan mitigasi risiko melalui otomatisasi:** 
   +  Menerapkan [respons keamanan otomatis](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) untuk mengatasi risiko dengan cepat. 
   +  Gunakan [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) untuk mengurangi penyimpangan konfigurasi. 
   +  [Memperbaiki sumber daya yang tidak sesuai dengan. Aturan AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 

 **Tingkat upaya untuk rencana implementasi:** Tinggi 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+  [OPS08-BP04 Membuat peringatan yang dapat ditindaklanjuti](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Menjalankan proses untuk setiap peringatan](ops_event_response_process_per_alert.md) 

 **Dokumen terkait:** 
+  [Menggunakan runbook Systems Manager Automation dengan Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Membuat insiden di Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS kuota layanan](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Pantau penggunaan sumber daya dan kirim notifikasi saat mendekati kuota](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Apa itu Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Menggunakan CloudWatch alarm Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Menggunakan tindakan CloudWatch alarm Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Memediasi Sumber Daya yang Tidak Sesuai dengan Aturan AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Membuat metrik dari peristiwa log dengan menggunakan filter](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Video terkait:** 
+ [Buat Runbook Otomasi dengan AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Cara mengotomatiskan Operasi TI di AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM aturan otomatisasi](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Mulai proyek perangkat lunak Anda dengan cepat dengan CodeCatalyst cetak biru Amazon](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Contoh terkait:** 
+ [Amazon CodeCatalyst Tutorial: Membuat proyek dengan cetak biru aplikasi web tiga tingkat modern](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ Lokakarya Satu Observabilitas ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [ Menanggapi insiden menggunakan Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)