# OPS 10 Bagaimana cara mengelola peristiwa operasi dan beban kerja?
<a name="w2aac19b5b9b9"></a>

 Siapkan dan validasikan prosedur untuk merespons peristiwa guna meminimalkan gangguannya pada beban kerja Anda. 

**Topics**
+ [OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Menjalankan proses untuk setiap peringatan](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Memprioritaskan kejadian operasional berdasarkan dampaknya terhadap bisnis](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Tetapkan jalur eskalasi](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Mengaktifkan notifikasi push](ops_event_response_push_notify.md)
+ [OPS10-BP06 Mengomunikasikan status melalui dasbor](ops_event_response_dashboards.md)
+ [OPS10-BP07 Otomatiskan respons terhadap peristiwa](ops_event_response_auto_event_response.md)

# OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah
<a name="ops_event_response_event_incident_problem_process"></a>

Organisasi Anda memiliki proses untuk menangani peristiwa, insiden, dan masalah. *Peristiwa* adalah hal-hal yang terjadi dalam beban kerja Anda, tetapi mungkin tidak memerlukan intervensi. *Insiden* adalah peristiwa yang memerlukan intervensi. *Masalah* adalah peristiwa berulang yang memerlukan intervensi atau tidak dapat diselesaikan. Anda memerlukan proses untuk mengurangi dampak peristiwa ini pada bisnis Anda dan memastikan bahwa Anda merespons dengan tepat.

Ketika insiden dan masalah terjadi pada beban kerja Anda, Anda memerlukan proses untuk menanganinya. Bagaimana Anda akan mengomunikasikan status peristiwa dengan pemangku kepentingan? Siapa yang mengawasi pelaksanaan respons? Apa alat yang Anda gunakan untuk memitigasi peristiwa? Ini adalah contoh dari beberapa pertanyaan yang perlu Anda jawab untuk memiliki proses respons yang solid. 

Proses harus didokumentasikan di lokasi sentral dan tersedia bagi siapa saja yang terlibat dalam beban kerja Anda. Jika Anda tidak memiliki wiki atau penyimpanan dokumen sentral, repositori kontrol versi dapat digunakan. Anda akan terus memperbarui rencana ini seiring berkembangnya proses Anda. 

Masalah merupakan kandidat untuk otomatisasi. Peristiwa ini mengambil waktu Anda yang seharusnya dihabiskan untuk berinovasi. Mulailah dengan membangun proses berulang untuk memitigasi masalah. Seiring waktu, fokuslah untuk mengotomatiskan mitigasi atau memperbaiki masalah mendasar. Tindakan ini akan membebaskan waktu yang kemudian dapat dihabiskan untuk melakukan peningkatan dalam beban kerja Anda. 

**Hasil yang diinginkan:** Organisasi Anda memiliki proses untuk menangani peristiwa, insiden, dan masalah. Proses ini didokumentasikan dan disimpan di lokasi sentral. Dokumentasinya akan diperbarui seiring proses ini berubah. 

**Antipola umum:** 
+  Sebuah insiden terjadi pada akhir pekan dan teknisi yang berjaga tidak tahu harus melakukan tindakan apa. 
+  Seorang pelanggan mengirimi Anda email bahwa aplikasi Anda tidak beroperasi. Anda melakukan booting ulang server untuk memperbaikinya. Hal ini sering terjadi. 
+  Ada insiden yang mengharuskan banyak tim bekerja secara independen untuk mencoba menyelesaikannya. 
+  Deployment terjadi dalam beban kerja Anda tanpa didokumentasikan. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Anda memiliki jejak audit peristiwa dalam beban kerja Anda. 
+  Waktu Anda untuk pulih dari insiden berkurang. 
+  Anggota tim dapat menyelesaikan insiden dan masalah secara konsisten. 
+  Ada upaya yang lebih terkonsolidasi ketika menyelidiki sebuah insiden. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

Menerapkan praktik terbaik ini berarti Anda melacak peristiwa beban kerja. Anda memiliki proses untuk menangani insiden dan masalah. Proses ini didokumentasikan, dibagikan, dan sering diperbarui. Masalah diidentifikasi, diprioritaskan, dan diperbaiki. 

 **Contoh pelanggan** 

AnyCompany Retail mengkhususkan sebuah bagian dari wiki internal mereka untuk proses penanganan manajemen peristiwa, insiden, dan masalah. Semua peristiwa dikirim ke [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). Masalah diidentifikasi sebagai OpsItems di [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) dan diprioritaskan untuk diperbaiki, sehingga mengurangi tenaga kerja yang tidak terdiferensiasi. Seiring proses ini berubah, dokumentasinya diperbarui di wiki internal mereka. Mereka menggunakan [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) untuk mengelola insiden dan mengoordinasikan upaya mitigasi. 

## Langkah implementasi
<a name="implementation-steps"></a>

1.  Peristiwa 
   +  Lacak peristiwa yang terjadi dalam beban kerja Anda, meskipun tidak diperlukan intervensi manusia. 
   +  Bekerja sama dengan pemangku kepentingan beban kerja untuk mengembangkan daftar peristiwa yang harus dilacak. Beberapa contohnya adalah deployment yang diselesaikan atau patching yang berhasil. 
   +  Anda dapat menggunakan layanan seperti [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) atau [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) untuk menghasilkan peristiwa kustom untuk pelacakan. 

1.  Insiden 
   +  Mulailah dengan mendefinisikan rencana komunikasi untuk insiden. Pemangku kepentingan mana yang harus diinformasikan? Bagaimana Anda akan terus menginformasikan mereka? Siapa yang mengawasi upaya koordinasi? Kami merekomendasikan untuk membuat saluran obrolan internal untuk komunikasi dan koordinasi. 
   +  Tentukan jalur eskalasi untuk tim yang mendukung beban kerja Anda, terutama jika tim ini tidak memiliki rotasi jaga. Berdasarkan tingkat dukungan Anda, Anda juga dapat mengajukan kasus ke Dukungan. 
   +  Buat buku playbook untuk menyelidiki insiden. Playbook Ini harus berisi rencana komunikasi dan langkah penyelidikan yang mendetail. Sertakan tindakan memeriksa [Dasbor AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) dalam penyelidikan Anda. 
   +  Dokumentasikan rencana respons insiden Anda. Komunikasikan rencana manajemen insiden agar pelanggan internal dan eksternal memahami aturan pelibatan dan apa yang diharapkan dari mereka. Latih anggota tim Anda tentang cara menggunakannya. 
   +  Pelanggan dapat menggunakan [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) untuk mengatur dan mengelola rencana respons insiden mereka. 
   +  Pelanggan Enterprise Support dapat meminta [Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) dari Manajer Akun Teknis mereka. Lokakarya berpemandu ini akan menguji rencana respons insiden yang ada dan membantu Anda mengidentifikasi area yang perlu ditingkatkan. 

1.  Masalah 
   +  Masalah harus diidentifikasi dan dilacak dalam sistem ITSM Anda. 
   +  Identifikasi semua masalah yang diketahui dan prioritaskan berdasarkan tingkat upaya perbaikan dan dampak pada beban kerja.   
![\[Matriks prioritas tindakan untuk memprioritaskan masalah.\]](http://docs.aws.amazon.com/id_id/wellarchitected/2022-03-31/framework/images/impact-effort-chart.png)
   +  Selesaikan masalah yang berdampak tinggi dan memerlukan tingkat upaya yang rendah terlebih dahulu. Setelah masalah tersebut diselesaikan, lanjutkan ke masalah yang termasuk dalam kuadran upaya rendah berdampak rendah. 
   +  Anda dapat menggunakan [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) untuk mengidentifikasi masalah ini, menyediakan runbook yang sesuai, dan melacaknya. 

**Tingkat upaya untuk rencana implementasi:** Sedang. Anda memerlukan proses dan alat untuk menerapkan praktik terbaik ini. Dokumentasikan proses Anda dan sediakan dokumentasi ini untuk siapa saja yang terkait dengan beban kerja. Perbarui dokumentasi ini secara rutin. Anda memiliki proses untuk mengelola dan memitigasi atau memperbaiki masalah. 

## Sumber daya
<a name="resources"></a>

 **Praktik terbaik terkait:** 
+  [OPS07-BP03 Menggunakan runbook untuk menjalankan prosedur](ops_ready_to_support_use_runbooks.md): Masalah yang diketahui memerlukan runbook terkait agar upaya mitigasinya konsisten.
+  [OPS07-BP04 Menggunakan buku panduan untuk menyelidiki masalah](ops_ready_to_support_use_playbooks.md): Insiden harus diselidiki menggunakan playbook. 
+  [OPS11-BP02 Menjalankan analisis setelah insiden](ops_evolve_ops_perform_rca_process.md): Selalu lakukan pemeriksaan pascainsiden setelah Anda pulih dari suatu insiden. 

 **Dokumen terkait:** 
+  [Atlassian - Manajemen insiden di era DevOps](https://www.atlassian.com/incident-management/devops) 
+  [Panduan Respons Insiden Keamanan AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Manajemen Insiden di Era DevOps dan SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - Apa itu Manajemen Insiden?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video terkait:** 
+  [AWS re:Invent 2020: Manajemen insiden di organisasi terdistribusi](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Membangun aplikasi generasi baru dengan arsitektur berbasis peristiwa](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Mendukung Anda \$1 Latihan Diskusi Menjelajahi Manajemen Insiden](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [Manajer Insiden AWS Systems Manager - Lokakarya Virtual AWS](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next bersama Incident Manager \$1 Acara AWS](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Contoh terkait:** 
+  [Lokakarya Alat Manajemen dan Tata Kelola AWS - OpsCenter](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [Layanan Proaktif AWS – Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Membangun aplikasi berbasis peristiwa dengan Amazon EventBridge](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Membangun arsitektur berbasis peristiwa di AWS](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Layanan terkait:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [Dasbor AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Menjalankan proses untuk setiap peringatan
<a name="ops_event_response_process_per_alert"></a>

 Tetapkan respons (runbook atau buku pedoman) dengan baik, dengan pemilik yang teridentifikasi secara khusus, untuk peristiwa apa pun yang diatur peringatannya. Ini memastikan respons yang efektif dan cepat terhadap peristiwa operasi dan mencegah peristiwa yang dapat ditindaklanjuti dihalangi oleh notifikasi yang kurang bernilai. 

 **Antipola umum:** 
+  Sistem pemantauan memberikan aliran koneksi yang disetujui bersama dengan pesan lainnya. Volume pesan sangat besar sehingga Anda melewatkan pesan kesalahan berkala yang perlu diintervensi. 
+  Anda menerima peringatan bahwa situs web terhenti. Tidak ada proses yang ditentukan jika hal seperti ini terjadi. Anda dipaksa untuk melakukan tindakan ad hoc untuk mendiagnosis dan menyelesaikan masalah. Mengembangkan proses ini seiring berjalannya waktu akan memperpanjang waktu pemulihan. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan memperingatkan hanya ketika tindakan diperlukan, Anda mencegah peringatan bernilai rendah menutupi peringatan bernilai tinggi. Dengan memiliki proses untuk setiap peringatan yang dapat ditindaklanjuti, Anda mengaktifkan respons yang konsisten dan cepat terhadap peristiwa di lingkungan Anda. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Proses per peringatan: Peristiwa apa pun yang Anda aktifkan peringatannya harus memiliki respons (runbook atau buku pedoman) yang jelas dengan pemilik yang teridentifikasi secara khusus (misalnya, individu, tim, atau peran) yang bertanggung jawab atas penyelesaian yang berhasil. Kinerja respons dapat diotomatiskan atau dilakukan oleh tim lain tetapi pemiliknya bertanggung jawab untuk memastikan proses memberikan hasil yang diharapkan. Dengan memiliki proses ini, Anda memastikan respons yang efektif dan cepat terhadap peristiwa operasi dan mencegah peristiwa yang dapat ditindaklanjuti dihalangi oleh notifikasi yang kurang bernilai. Misalnya, penskalaan otomatis dapat diterapkan untuk menskalakan front end web, tetapi tim operasi mungkin bertanggung jawab untuk memastikan bahwa aturan dan batas penskalaan otomatis sesuai untuk kebutuhan beban kerja. 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Fitur Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video terkait:** 
+  [Build a Monitoring Plan](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Memprioritaskan kejadian operasional berdasarkan dampaknya terhadap bisnis
<a name="ops_event_response_prioritize_events"></a>

 Ketika ada beberapa kejadian yang memerlukan intervensi, pastikan untuk mengatasi kejadian yang paling signifikan terhadap bisnis terlebih dahulu. Dampak dapat termasuk kematian atau cedera fisik, kerugian finansial, atau rusaknya reputasi dan kepercayaan. 

 **Antipola umum:** 
+  Anda menerima permintaan dukungan untuk menambahkan konfigurasi printer bagi pengguna. Saat sedang menangani masalah tersebut, Anda menerima permintaan dukungan yang menyatakan bahwa situs retail terhenti. Setelah menyelesaikan konfigurasi pencetak untuk pengguna, Anda mulai menangani masalah yang dialami situs web. 
+  Anda menerima pemberitahuan bahwa sistem pembayaran dan situs web retail Anda terhenti. Anda tidak tahu mana masalah yang harus diprioritaskan. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan memprioritaskan insiden yang dampaknya paling besar terhadap bisnis, Anda dapat menetapkan manajemen untuk dampak tersebut. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Prioritaskan peristiwa operasional berdasarkan dampaknya terhadap bisnis: Ketika ada beberapa kejadian yang memerlukan intervensi, atasi kejadian yang paling signifikan terhadap bisnis terlebih dahulu. Dampak dapat termasuk kematian atau cedera fisik, kerugian finansial, atau rusaknya reputasi atau kepercayaan. 

# OPS10-BP04 Tetapkan jalur eskalasi
<a name="ops_event_response_define_escalation_paths"></a>

 Tetapkan jalur eskalasi di runbook dan playbook Anda, termasuk apa yang memicu eskalasi, dan prosedur untuk eskalasi. Secara spesifik identifikasi pemilik untuk setiap tindakan guna memastikan respons yang efektif dan tepat waktu terhadap peristiwa operasi. 

 Identifikasi ketika keputusan manusia diperlukan sebelum tindakan diambil. Bekerja samalah dengan pengambil keputusan untuk mengambil keputusan tersebut lebih awal, dan untuk mendapatkan terlebih dulu persetujuan atas tindakan, sehingga MTTR tidak menjadi lebih lama karena menunggu respons. 

 **Antipola umum:** 
+  Situs retail Anda tidak berfungsi. Anda tidak memahami runbook untuk memulihkan situs itu. Anda mulai menelepon kolega dengan harapan seseorang akan dapat membantu Anda. 
+  Anda menerima kasus permintaan dukungan untuk aplikasi yang tidak dapat dijangkau. Anda tidak memiliki izin untuk administrasi sistem. Anda tidak tahu siapa yang memilikinya. Anda berusaha menghubungi pemilik sistem yang membuka kasus tersebut dan tidak mendapatkan respons. Anda tidak memiliki kontak untuk sistem dan kolega Anda tidak tahu. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan menetapkan eskalasi, pemicu untuk eskalasi, dan prosedur untuk eskalasi, Anda memungkinkan penambahan sumber daya secara sistematis ke insiden dengan tingkat yang sesuai untuk dampaknya. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Tetapkan jalur eskalasi: Tetapkan jalur eskalasi di runbook dan playbook Anda, termasuk apa yang memicu eskalasi, dan prosedur untuk eskalasi. Contohnya, eskalasi masalah dari rekayasawan dukungan ke rekayasawan dukungan senior ketika runbook tidak dapat menyelesaikan masalah, atau ketika jangka waktu yang ditetapkan sebelumnya telah lewat. Contoh lain dari jalur eskalasi yang benar adalah dari rekayasawan dukungan senior ke tim pengembangan untuk beban kerja ketika playbook tidak dapat mengidentifikasi jalur ke perbaikan, atau ketika jangka waktu yang ditetapkan sebelumnya telah lewat. Secara spesifik identifikasi pemilik untuk setiap tindakan guna memastikan respons yang efektif dan tepat waktu terhadap peristiwa operasi. Eskalasi dapat mencakup pihak ketiga. Contohnya, penyedia konektivitas jaringan atau vendor perangkat lunak. Eskalasi dapat mencakup pengambil keputusan resmi yang diidentifikasi untuk sistem yang terkena dampak. 

# OPS10-BP05 Mengaktifkan notifikasi push
<a name="ops_event_response_push_notify"></a>

 Berkomunikasilah secara langsung dengan pengguna Anda (misalnya melalui email atau SMS) ketika layanan yang mereka gunakan terganggu, serta ketika layanan kembali ke kondisi operasi normal, agar pengguna dapat mengambil tindakan yang tepat. 

 **Antipola umum:** 
+  Aplikasi Anda mengalami insiden penolakan layanan terdistribusi dan tidak memberikan respons selama berhari-hari. Tidak ada pesan kesalahan. Anda belum mengirimkan email notifikasi. Anda belum mengirimkan pesan teks notifikasi. Anda belum menyampaikan informasi di media sosial. Pelanggan Anda kesal dan mencari vendor lain yang dapat mendukung mereka. 
+  Pada hari Senin, aplikasi Anda mengalami masalah setelah patch tertentu dan tidak aktif selama beberapa jam. Pada hari Selasa, aplikasi Anda mengalami masalah setelah deployment kode dan tidak dapat diandalkan selama beberapa jam. Pada hari Rabu, aplikasi Anda mengalami masalah setelah deployment kode untuk memitigasi kerentanan keamanan terkait patch yang gagal dan aplikasi tidak tersedia selama beberapa jam. Pada hari Kamis, pelanggan Anda yang kesal mulai mencari vendor lain yang dapat mendukung mereka. 
+  Aplikasi Anda tidak akan tersedia pada akhir pekan ini untuk menjalani pemeliharaan. Anda tidak memberi tahu pelanggan Anda. Beberapa pelanggan telah menjadwalkan aktivitas yang melibatkan penggunaan aplikasi Anda. Mereka sangat kesal setelah mengetahui bahwa aplikasi Anda tidak tersedia. 

 **Manfaat menjalankan praktik terbaik ini:** Saat Anda menetapkan notifikasi, pemicu notifikasi, dan prosedur notifikasi, pelanggan Anda dapat menerima informasi dan memberikan respons saat mereka merasakan dampak dari masalah beban kerja Anda. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Aktifkan notifikasi push: Berkomunikasilah secara langsung dengan pengguna Anda (misalnya melalui email atau SMS) ketika layanan yang mereka gunakan terganggu, serta ketika layanan kembali ke kondisi operasi normal, agar pengguna dapat mengambil tindakan yang tepat. 
  +  [Fitur Amazon SES](https://aws.amazon.com/ses/details/) 
  +  [Apa Itu Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 
  +  [Atur notifikasi Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Fitur Amazon SES](https://aws.amazon.com/ses/details/) 
+  [Atur notifikasi Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 
+  [Apa Itu Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 

# OPS10-BP06 Mengomunikasikan status melalui dasbor
<a name="ops_event_response_dashboards"></a>

 Menyediakan dasbor yang disesuaikan untuk audiens target mereka (misalnya, tim teknis internal, pimpinan, dan pelanggan) guna mengomunikasikan status operasi bisnis saat ini dan memberikan metrik kepentingan. 

 Anda dapat membuat dasbor menggunakan [Dasbor Amazon CloudWatch](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) dengan halaman beranda yang dapat disesuaikan di konsol CloudWatch. Dengan layanan kecerdasan bisnis seperti [Quick](https://aws.amazon.com/quicksight/) Anda dapat membuat dan memublikasikan dasbor interaktif yang menampilkan kondisi operasional dan beban kerja Anda (misalnya, tingkat pesanan, pengguna terhubung, dan waktu transaksi). Buat Dasbor yang memberikan tampilan tingkat bisnis dan sistem mengenai metrik Anda. 

 **Antipola umum:** 
+  Atas permintaan, Anda menjalankan laporan tentang pemanfaatan aplikasi Anda saat ini untuk manajemen. 
+  Selama insiden, Anda dihubungi setiap dua puluh menit oleh pemilik sistem yang ingin mengetahui apakah insiden sudah teratasi. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan membuat dasbor, Anda mengaktifkan akses layanan mandiri untuk pelanggan Anda agar mereka mengetahui jika mereka harus melakukan suatu tindakan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Komunikasikan status melalui dasbor: Sediakan dasbor yang disesuaikan untuk audiens target mereka (misalnya, tim teknis internal, pimpinan, dan pelanggan) guna mengomunikasikan status operasi bisnis saat ini dan menyediakan metrik kepentingan. Menyediakan opsi layanan mandiri untuk informasi status dapat mengurangi disrupsi permintaan penanganan status dari tim operator lapangan. Contohnya termasuk dasbor Amazon CloudWatch dan Dasbor AWS Health. 
  +  [Dasbor CloudWatch membuat dan menggunakan tampilan metrik yang disesuaikan](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Dasbor CloudWatch membuat dan menggunakan tampilan metrik yang disesuaikan](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Otomatiskan respons terhadap peristiwa
<a name="ops_event_response_auto_event_response"></a>

 Otomatiskan respons terhadap peristiwa untuk mengurangi kesalahan yang disebabkan oleh proses manual, dan untuk memastikan respons yang konsisten dan tepat waktu. 

 Ada sejumlah cara untuk mengotomatiskan tindakan runbook dan playbook di AWS. Untuk merespons peristiwa dari perubahan keadaan di sumber daya AWS Anda, atau dari peristiwa kustom Anda sendiri, Anda harus membuat [aturan CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) untuk memicu respons melalui target CloudWatch (contohnya, fungsi Lambda, topik Amazon Simple Notification Service (Amazon SNS), tugas Amazon ECS, dan Otomatisasi AWS Systems Manager). 

 Untuk merespons metrik yang melampaui ambang batas untuk sumber daya (contohnya, waktu tunggu), Anda harus membuat [alarm CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) untuk melakukan satu atau lebih tindakan menggunakan tindakan CloudWatch Events, tindakan Auto Scaling, atau untuk mengirimkan notifikasi ke topik Amazon SNS. Jika Anda harus melakukan tindakan kustom untuk merespons alarm, panggil Lambda melalui notifikasi Amazon SNS. Gunakan Amazon SNS untuk mempublikasikan notifikasi peristiwa dan pesan eskalasi agar orang selalu tahu. 

 AWS juga mendukung sistem pihak ketiga melalui API dan SDK layanan AWS. Ada sejumlah alat pemantauan yang disediakan oleh Partner AWS dan pihak ketiga yang memungkinkan pemantauan, notifikasi, dan respons. Beberapa alat ini antara lain New Relic, Splunk, Loggly, SumoLogic, dan Datadog. 

 Anda harus selalu menyediakan prosedur manual yang sangat penting untuk digunakan ketika prosedur otomatis gagal 

 **Antipola umum:** 
+  Developer memeriksa kodenya. Peristiwa ini bisa saja digunakan untuk mulai membangun kemudian melakukan pengujian tetapi tidak ada yang terjadi. 
+  Aplikasi Anda mencatat kesalahan spesifik sebelum berhenti berfungsi. Prosedur untuk memulai ulang aplikasi dipahami dengan baik dan dapat diberi skrip. Anda dapat menggunakan log event untuk memanggil skrip dan memulai ulang aplikasi. Tetapi, ketika kesalahan terjadi pada hari Minggu jam 3 pagi, Anda dibangunkan karena Anda adalah sumber daya yang siap dipanggil untuk memperbaiki sistem tersebut. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan menggunakan respons otomatis terhadap peristiwa, Anda mengurangi waktu untuk merespons dan membatasi timbulnya kesalahan akibat aktivitas manual. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Rendah 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Otomatiskan respons terhadap peristiwa: Otomatiskan respons terhadap peristiwa untuk mengurangi kesalahan yang disebabkan oleh proses manual, dan untuk memastikan respons yang konsisten dan tepat waktu. 
  +  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Membuat aturan CloudWatch Events yang memicu peristiwa](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Membuat aturan CloudWatch Events yang memicu AWS panggilan API menggunakan AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Contoh peristiwa CloudWatch Events dari layanan yang didukung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon CloudWatch Fitur](https://aws.amazon.com/cloudwatch/features/) 
+  [Contoh peristiwa CloudWatch Events dari layanan yang didukung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Membuat aturan CloudWatch Events yang memicu AWS panggilan API menggunakan AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Membuat aturan CloudWatch Events yang memicu peristiwa](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video terkait:** 
+  [Buat Rencana Pemantauan](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Contoh terkait:**