

# Operasi
<a name="a-operate"></a>

**Topics**
+ [OPS 8 Bagaimana cara memahami kondisi beban kerja Anda?](w2aac19b5b9b5.md)
+ [OPS 9 Bagaimana cara memahami kondisi operasi Anda?](w2aac19b5b9b7.md)
+ [OPS 10 Bagaimana cara mengelola peristiwa operasi dan beban kerja?](w2aac19b5b9b9.md)

# OPS 8 Bagaimana cara memahami kondisi beban kerja Anda?
<a name="w2aac19b5b9b5"></a>

 Tetapkan, catat, dan analisis metrik beban kerja untuk mendapatkan visibilitas peristiwa beban kerja sehingga Anda dapat mengambil tindakan yang tepat. 

**Topics**
+ [OPS08-BP01 Identifikasi indikator performa utama](ops_workload_health_define_workload_kpis.md)
+ [OPS08-BP02 Menentukan metrik beban kerja](ops_workload_health_design_workload_metrics.md)
+ [OPS08-BP03 Mengumpulkan dan menganalisis metrik beban kerja](ops_workload_health_collect_analyze_workload_metrics.md)
+ [OPS08-BP04 Membuat dasar acuan metrik beban kerja](ops_workload_health_workload_metric_baselines.md)
+ [OPS08-BP05 Mempelajari pola aktivitas yang diharapkan untuk beban kerja](ops_workload_health_learn_workload_usage_patterns.md)
+ [OPS08-BP06 Memberikan pemberitahuan saat hasil beban kerja terpapar risiko](ops_workload_health_workload_outcome_alerts.md)
+ [OPS08-BP07 Memberikan peringatan saat anomali beban kerja terdeteksi](ops_workload_health_workload_anomaly_alerts.md)
+ [OPS08-BP08 Memvalidasi capaian hasil dan efektivitas KPI serta metrik](ops_workload_health_biz_level_view_workload.md)

# OPS08-BP01 Identifikasi indikator performa utama
<a name="ops_workload_health_define_workload_kpis"></a>

 Identifikasi indikator performa utama (KPI) berdasarkan hasil bisnis yang diinginkan (misalnya, tingkat pemesanan, tingkat retensi pelanggan, dan laba dibandingkan pengeluaran operasi) dan hasil pelanggan (misalnya, kepuasan pelanggan). Evaluasi KPI untuk menentukan kesuksesan beban kerja. 

 **Antipola umum:** 
+  Pimpinan bisnis bertanya kepada Anda seberapa keberhasilan beban kerja dalam memenuhi kebutuhan bisnis tetapi tidak memiliki kerangka acuan untuk menentukan keberhasilan. 
+  Anda tidak dapat menentukan apakah aplikasi komersial umum yang Anda operasikan untuk organisasi Anda menghemat biaya. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan mengidentifikasi indikator performa utama Anda dapat mencapai hasil bisnis sebagai pengujian kondisi dan kesuksesan beban kerja Anda. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Identifikasi indikator performa utama: Identifikasi indikator performa utama (KPI) berdasarkan hasil bisnis dan hasil pelanggan. Evaluasi KPI untuk menentukan kesuksesan beban kerja. 

# OPS08-BP02 Menentukan metrik beban kerja
<a name="ops_workload_health_design_workload_metrics"></a>

 Tentukan metrik beban kerja untuk mengukur pencapaian KPI (misalnya, keranjang belanja yang ditinggalkan, pesanan yang ditempatkan, biaya, harga, dan pengeluaran beban kerja yang dialokasikan). Tentukan metrik beban kerja untuk mengukur kondisi beban kerja (misalnya, waktu respons antar muka, rasio kesalahan, permintaan yang dibuat, permintaan yang diselesaikan, serta pemanfaatan). Evaluasi metrik untuk menentukan apakah beban kerja mencapai hasil yang diinginkan, dan untuk memahami kondisi beban kerja. 

 Anda harus mengirim data log ke layanan seperti CloudWatch Logs, dan membuat metrik dari observasi konten log yang diperlukan. 

 CloudWatch memiliki fitur khusus seperti [Wawasan Amazon CloudWatch untuk Server SQL dan .NET](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/appinsights-what-is.html) dan [Wawasan Kontainer](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) yang dapat membantu Anda melalui identifikasi dan pengaturan metrik kunci, log, dan alarm di seluruh sumber daya aplikasi tertentu yang didukung dan tumpukan teknologi. 

 **Antipola umum:** 
+  Anda memiliki metrik standar yang telah ditentukan, tidak terkait dengan KPI mana pun atau dikhususkan untuk beban kerja tertentu. 
+  Terjadi kesalahan dalam penghitungan metrik Anda yang akan membuat hasil tidak valid. 
+  Anda tidak memiliki metrik yang ditentukan untuk beban kerja Anda. 
+  Anda hanya mengukur ketersediaan. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan menentukan dan mengevaluasi metrik beban kerja, Anda dapat menentukan kondisi beban kerja Anda dan mengukur pencapaian hasil bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Tentukan metrik beban kerja: Tentukan metrik beban kerja untuk mengukur pencapaian KPI. Tentukan metrik beban kerja untuk mengukur kondisi beban kerja dan masing-masing komponennya. Evaluasi metrik untuk menentukan apakah beban kerja mencapai hasil yang diinginkan, dan untuk memahami kondisi beban kerja. 
  +  [Publikasikan metrik kustom](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Mencari dan memfilter data log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Referensi dimensi dan metrik Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Referensi dimensi dan metrik Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Publikasikan metrik kustom](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Mencari dan memfilter data log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

# OPS08-BP03 Mengumpulkan dan menganalisis metrik beban kerja
<a name="ops_workload_health_collect_analyze_workload_metrics"></a>

 Melakukan tinjauan metrik proaktif rutin untuk mengidentifikasi tren dan menentukan di mana respons yang tepat perlu diberikan. 

 Anda harus mengagregasi data log dari aplikasi, komponen beban kerja, layanan, dan panggilan API Anda ke layanan seperti CloudWatch Logs. Hasilkan metrik dari pengamatan konten log yang diperlukan untuk memungkinkan wawasan tentang kinerja aktivitas operasi. 

 Di AWS, Anda dapat menganalisis metrik beban kerja dan mengidentifikasi masalah operasional menggunakan kemampuan machine learning yang dimiliki [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html). AWS DevOps Guru menyediakan notifikasi masalah operasional dengan saran [tertarget dan proaktif](https://docs.aws.amazon.com/devops-guru/latest/userguide/view-insights.html) untuk mengatasi masalah dan memelihara kondisi aplikasi 

 Di Model Tanggung Jawab Bersama AWS, bagian pemantauan dikirimkan kepada Anda melalui [Dasbor AWS Health](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/). Dasbor ini menyediakan pemberitahuan dan panduan perbaikan ketika AWS mengalami peristiwa yang mungkin memengaruhi Anda. Pelanggan dengan langganan Dukungan Bisnis dan Korporat juga mendapatkan akses ke [API AWS Health](https://docs.aws.amazon.com/health/latest/ug/getting-started-api.html), yang memungkinkan integrasi ke sistem manajemen mereka. 

 Di AWS, Anda dapat [mengekspor data log Anda ke Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) atau [mengirimkan log langsung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) ke [Amazon S3](https://aws.amazon.com/s3/) untuk penyimpanan jangka panjang. Menggunakan [AWS Glue](https://aws.amazon.com/glue/), Anda dapat menemukan dan mempersiapkan data log Anda di Amazon S3 untuk analitik, dengan menyimpan metadata terkait di [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), melalui integrasi native-nya dengan AWS Glue, kemudian dapat digunakan untuk menganalisis data log Anda, yang mengkuerinya menggunakan SQL standar. Menggunakan alat kecerdasan bisnis seperti [Quick](https://aws.amazon.com/quicksight/) Anda dapat memvisualisasi, menjelajahi, dan menganalisis data Anda. 

 Solusi [alternatifnya](https://aws.amazon.com/solutions/centralized-logging/?did=sl_card&trk=sl_card) adalah menggunakan [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) dan [OpenSearch Dashboards](https://aws.amazon.com/elasticsearch-service/the-elk-stack/kibana/) untuk mengumpulkan, menganalisis, dan menampilkan log di AWS di beberapa akun dan Wilayah AWS. 

 **Antipola umum:** 
+  Anda diminta oleh tim desain jaringan untuk menunjukkan tingkat pemanfaatan bandwidth jaringan saat ini. Anda menyediakan metrik saat ini, dengan pemanfaatan jaringan sebesar 35%. Mereka mengurangi kapasitas sirkuit sebagai langkah penghematan biaya yang menyebabkan masalah konektivitas yang meluas karena pengukuran titik waktu Anda tidak mencerminkan tren dalam tingkat pemanfaatan. 
+  Router Anda mengalami kegagalan. Router Anda mencatatkan log kesalahan memori nonkritis dengan frekuensi yang terus membesar hingga gagal sepenuhnya. Anda tidak mendeteksi tren ini sehingga Anda tidak mengganti memori yang bermasalah sebelum router menyebabkan gangguan layanan. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan mengumpulkan dan menganalisis metrik beban kerja Anda, Anda mendapatkan pemahaman tentang kondisi beban kerja dan dapat memperoleh wawasan tentang tren-tren yang mungkin memberikan dampak pada beban kerja atau pencapaian hasil bisnis Anda. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Kumpulkan dan analisis metrik beban kerja: Lakukan tinjauan metrik proaktif rutin untuk mengidentifikasi tren dan menentukan di mana respons yang tepat perlu diberikan. 
  +  [Menggunakan metrik Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Kumpulkan metrik dan log dari instans Amazon EC2 dan server on-premise dengan Agen CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Amazon OpenSearch Service](https://aws.amazon.com/elasticsearch-service/) 
+  [Dasbor AWS Health](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Kumpulkan metrik dan log dari instans Amazon EC2 dan server on-premise dengan Agen CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Menggunakan metrik Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS08-BP04 Membuat dasar acuan metrik beban kerja
<a name="ops_workload_health_workload_metric_baselines"></a>

 Buat dasar acuan untuk metrik guna menyediakan nilai yang diharapkan sebagai dasar perbandingan dan identifikasi komponen dengan kinerja yang terlalu rendah atau terlalu tinggi. Identifikasi ambang batas untuk perbaikan, investigasi, dan intervensi. 

 **Antipola umum:** 
+  Sebuah server berjalan dengan pemanfaatan CPU sebesar 95%, dan Anda ditanya apakah hal tersebut bagus atau buruk. Pemanfaatan CPU di server tersebut belum memiliki dasar acuan sehingga Anda tidak tahu apakah angka tersebut bagus atau buruk. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan menetapkan nilai metrik dasar acuan, Anda mampu mengevaluasi nilai metrik saat ini, serta tren metrik, untuk menentukan apakah tindakan diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Buat dasar acuan untuk metrik beban kerja: Buat dasar acuan untuk metrik beban kerja guna menyediakan nilai yang diharapkan sebagai dasar perbandingan. 
  +  [Membuat Alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Membuat Alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 

# OPS08-BP05 Mempelajari pola aktivitas yang diharapkan untuk beban kerja
<a name="ops_workload_health_learn_workload_usage_patterns"></a>

 Buat pola aktivitas beban kerja untuk mengidentifikasi aktivitas anomali, sehingga Anda dapat memberikan respons yang sesuai jika diperlukan. 

 CloudWatch melalui [fitur Deteksi Anomali CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) menerapkan algoritma machine learning dan statistik untuk membuat rentang nilai ekspektasi sesuai dengan perilaku metrik normal. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) dapat digunakan untuk mengidentifikasi perilaku anomali melalui korelasi peristiwa, analisis log, dan penerapan machine learning, untuk menganalisis telemetri beban kerja Anda. Saat terdeteksi perilaku yang tidak diharapkan, akan tersedia [peristiwa dan metrik terkait](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) serta saran untuk mengatasi perilaku tersebut. 

 **Antipola umum:** 
+  Anda sedang meninjau log pemanfaatan jaringan dan mendapati pemanfaatan jaringan yang meningkat antara pukul 11.30 dan 13.30, kemudian kembali terjadi pada pukul 16.30 hingga 18.00. Anda tidak tahu apakah kejadian ini harus dianggap normal atau tidak. 
+  Server web Anda melakukan boot ulang setiap pukul 03.00 dini hari. Anda tidak tahu apakah kejadian ini harus dianggap normal atau tidak. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan mempelajari pola perilaku, Anda dapat mengenali perilaku yang tidak diharapkan dan melakukan tindakan yang diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Pelajari pola aktivitas yang diharapkan untuk beban kerja: Tetapkan pola aktivitas beban kerja untuk menentukan perilaku yang menyimpang dari nilai ekspektasi agar Anda dapat memberikan respons yang sesuai jika diperlukan. 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [fitur Deteksi Anomali CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 

# OPS08-BP06 Memberikan pemberitahuan saat hasil beban kerja terpapar risiko
<a name="ops_workload_health_workload_outcome_alerts"></a>

 Berikan pemberitahuan saat terdapat risiko pada hasil beban kerja sehingga Anda dapat merespons dengan tepat jika perlu. 

 Idealnya, sebelumnya Anda telah mengidentifikasi ambang batas metrik yang dapat diberitahukan atau peristiwa yang dapat digunakan untuk memicu respons otomatis. 

 Di AWS, Anda dapat menggunakan [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) untuk membuat skrip canary guna memantau titik akhir dan API Anda dengan melakukan tindakan yang sama seperti pelanggan Anda. Telemetri yang dihasilkan dan [wawasan yang didapatkan](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_Details.html) dapat membantu Anda mengidentifikasi masalah sebelum pelanggan merasakan dampaknya. 

 Anda juga dapat menggunakan [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) untuk mencari dan menganalisis data log secara interaktif dengan menggunakan bahasa kueri yang dibuat khusus. CloudWatch Logs Insights secara otomatis [menemukan bidang dalam log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData-discoverable-fields.html) dari layanan AWS, dan log event kustom dalam format JSON. Ini menskalakan dengan volume log dan kompleksitas kueri dan memberi jawaban dalam hitungan detik, sehingga membantu Anda mencari faktor penyebab insiden. 

 **Antipola umum:** 
+  Anda tidak memiliki konektivitas jaringan. Tidak ada yang menyadarinya. Tidak ada orang yang mencoba mengidentifikasi alasannya maupun melakukan tindakan untuk memulihkan konektivitas. 
+  Setelah sebuah patch, instans persisten Anda tidak tersedia, sehingga pengguna menjadi terganggu. Pengguna Anda mengajukan kasus dukungan. Tidak ada yang menerima notifikasi. Tidak ada yang melakukan tindakan. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan mengidentifikasi bahwa terdapat risiko pada hasil bisnis dan memberitahukan tindakan yang perlu diambil, Anda memiliki peluang untuk mencegah atau memitigasi dampak insiden. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Beritahukan saat terdapat risiko pada hasil beban kerja: Berikan pemberitahuan saat terdapat risiko pada hasil beban kerja sehingga Anda dapat merespons dengan tepat jika diperlukan. 
  +  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Membuat Alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Memanggil fungsi Lambda menggunakan notifikasi Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Membuat Alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Memanggil fungsi Lambda menggunakan notifikasi Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP07 Memberikan peringatan saat anomali beban kerja terdeteksi
<a name="ops_workload_health_workload_anomaly_alerts"></a>

 Aktifkan peringatan saat anomali beban kerja terdeteksi, agar Anda dapat memberikan respons yang sesuai jika diperlukan. 

 Analisis metrik beban kerja Anda dalam jangka waktu tertentu dapat membentuk pola perilaku yang dapat Anda ukur dengan memadai untuk menetapkan peristiwa atau memberikan alarm respons. 

 Setelah dilatih, fitur [fitur Deteksi Anomali CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) dapat digunakan untuk [memberikan alarm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) terhadap anomali terdeteksi, atau menyediakan nilai ekspektasi overlay ke dalam sebuah [grafik](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) data metrik untuk perbandingan berkelanjutan. 

 **Antipola umum:** 
+  Penjualan situs web retail Anda mengalami peningkatan signifikan secara tiba-tiba. Tidak ada yang menyadarinya. Tidak ada yang mencoba untuk mengidentifikasi penyebab lonjakan ini. Tidak ada yang melakukan tindakan untuk memastikan kualitas pengalaman pelanggan dengan beban tambahan tersebut. 
+  Dengan mengikuti penerapan patch, server tetap Anda akan sering melakukan boot ulang, hal ini dapat mengganggu pengguna. Server Anda biasanya melakukan boot ulang hingga tiga kali, tetapi tidak lebih dari itu. Tidak ada yang menyadarinya. Tidak ada yang mencoba mengidentifikasi apa yang terjadi. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan memahami pola perilaku beban kerja, Anda dapat mengidentifikasi perilaku menyimpang dan melakukan tindakan yang diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Rendah 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Aktifkan peringatan saat anomali beban kerja terdeteksi: Berikan peringatan saat anomali beban kerja terdeteksi sehingga Anda dapat memberikan respons yang sesuai jika diperlukan. 
  +  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Membuat Alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Memanggil fungsi Lambda menggunakan notifikasi Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Membuat Alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [fitur Deteksi Anomali CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Memanggil fungsi Lambda menggunakan notifikasi Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP08 Memvalidasi capaian hasil dan efektivitas KPI serta metrik
<a name="ops_workload_health_biz_level_view_workload"></a>

 Buat tampilan tingkat bisnis mengenai operasi beban kerja Anda untuk membantu menentukan apakah Anda telah mencapai pemenuhan, serta mengidentifikasi area yang memerlukan pengembangan untuk mencapai tujuan bisnis. Validasikan efektivitas KPI dan metrik, serta lakukan revisi jika diperlukan. 

 AWS juga mendukung alat kecerdasan bisnis dan sistem analisis log pihak ketiga melalui layanan API dan SDK AWS (misalnya, Grafana, Kibana, dan Logstash). 

 **Antipola umum:** 
+  Waktu respons halaman belum pernah dianggap berkontribusi pada kepuasan pelanggan. Anda belum pernah membuat metrik atau ambang batas untuk waktu respons halaman. Pelanggan Anda mengeluhkan kelambatan. 
+  Anda belum mencapai target waktu respons minimum Anda. Dalam upaya untuk meningkatkan waktu respons, Anda telah menaikkan skala server aplikasi Anda. Anda telah melampaui target waktu respons dengan margin yang signifikan dan mengeluarkan biaya untuk kapasitas tak terpakai yang signifikan. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan meninjau dan merevisi KPI serta metrik, Anda memahami bagaimana beban kerja Anda mendukung pencapaian hasil bisnis Anda, serta dapat mengidentifikasi bagian yang memerlukan pengembangan untuk mencapai tujuan bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Rendah 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Validasikan pencapaian hasil dan efektivitas KPI serta metrik: Buat tampilan tingkat bisnis mengenai operasi beban kerja Anda untuk membantu menentukan apakah Anda telah mencapai pemenuhan, serta mengidentifikasi area yang memerlukan pengembangan untuk mencapai tujuan bisnis. Validasikan efektivitas KPI dan metrik, serta lakukan revisi jika diperlukan. 
  +  [Menggunakan dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Apa itu analitik log?](https://aws.amazon.com/log-analytics/) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Menggunakan dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Apa itu analitik log?](https://aws.amazon.com/log-analytics/) 

# OPS 9 Bagaimana cara memahami kondisi operasi Anda?
<a name="w2aac19b5b9b7"></a>

 Tetapkan, catat, dan analisis metrik operasi untuk mendapatkan visibilitas peristiwa operasi sehingga Anda dapat mengambil tindakan yang tepat. 

**Topics**
+ [OPS09-BP01 Mengidentifikasi indikator kinerja utama](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Tetapkan metrik operasi](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Mengumpulkan dan menganalisis metrik operasi](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Membuat dasar acuan metrik operasi](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Mempelajari pola aktivitas yang diharapkan untuk operasi](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Memperingatkan saat terdapat risiko pada hasil operasi](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Membuat pemberitahuan saat anomali operasi terdeteksi](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Memvalidasi capaian hasil dan efektivitas KPI serta metrik](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Mengidentifikasi indikator kinerja utama
<a name="ops_operations_health_define_ops_kpis"></a>

 Identifikasikan indikator kinerja utama (KPI) berdasarkan hasil bisnis yang diinginkan (misalnya fitur baru yang diberikan) dan hasil pelanggan (misalnya kasus dukungan pelanggan). Evaluasikan KPI untuk menentukan kesuksesan operasi. 

 **Antipola umum:** 
+  Pimpinan bisnis bertanya kepada Anda tentang seberapa sukses operasi berjalan dalam mencapai tujuan bisnis, tetapi tidak memiliki kerangka acuan untuk menentukan kesuksesan. 
+  Anda tidak dapat menentukan apakah jendela pemeliharaan berdampak pada hasil bisnis. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan mengidentifikasi indikator kinerja utama, Anda dapat mencapai hasil bisnis sebagai pengujian kondisi dan kesuksesan operasi. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Identifikasikan indikator kinerja utama: Identifikasikan indikator kinerja utama (KPI) berdasarkan hasil bisnis dan hasil pelanggan. Evaluasikan KPI untuk menentukan kesuksesan operasi. 

# OPS09-BP02 Tetapkan metrik operasi
<a name="ops_operations_health_design_ops_metrics"></a>

 Tetapkan metrik operasi untuk mengukur pencapaian KPI (misalnya, deployment yang sukses, dan deployment yang gagal). Tetapkan metrik operasi untuk mengukur kondisi aktivitas operasi (misalnya, waktu rata-rata untuk mendeteksi insiden (MTTD), dan waktu rata-rata untuk pemulihan (MTTR) dari insiden). Evaluasi metrik untuk menentukan apakah operasi mencapai hasil yang diinginkan, dan untuk memahami kondisi aktivitas operasi Anda. 

 **Antipola umum:** 
+  Metrik operasi Anda didasarkan atas apa yang wajar menurut tim. 
+  Terjadi kesalahan dalam penghitungan metrik yang akan mengakibatkan hasil yang tidak benar. 
+  Anda tidak memiliki metrik yang ditentukan untuk aktivitas operasi Anda. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan menetapkan dan mengevaluasi metrik operasi, Anda dapat menentukan kondisi aktivitas operasi Anda dan mengukur pencapaian hasil bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Tetapkan metrik operasi: Tetapkan metrik operasi untuk mengukur pencapaian KPI. Tetapkan metrik operasi untuk mengukur kondisi operasi dan aktivitasnya. Evaluasi metrik untuk menentukan apakah operasi mencapai hasil yang diinginkan, dan untuk memahami kondisi operasi. 
  +  [Publikasikan metrik kustom](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Mencari dan menyaring data log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [AWS Jawaban: Pencatatan Terpusat](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Deteksi dan Reaksi Terhadap Perubahan Dalam Alur dengan Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Publikasikan metrik kustom](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Mencari dan menyaring data log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Video terkait:** 
+  Buat Rencana Pemantauan 

# OPS09-BP03 Mengumpulkan dan menganalisis metrik operasi
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Lakukan tinjauan metrik proaktif rutin untuk mengidentifikasi tren dan menentukan di mana respons yang tepat perlu diberikan. 

 Anda harus mengagregasi data log dari pelaksanaan aktivitas operasi dan panggilan API operasi Anda, ke dalam layanan seperti CloudWatch Logs. Hasilkan metrik dari pengamatan konten log yang diperlukan untuk memperoleh wawasan tentang kinerja aktivitas operasi. 

 Di AWS, Anda dapat [mengekspor data log Anda ke Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) atau [mengirimkan log langsung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) ke [Amazon S3](https://aws.amazon.com/s3/) untuk penyimpanan jangka panjang. Menggunakan [AWS Glue](https://aws.amazon.com/glue/), Anda dapat menemukan dan mempersiapkan data log Anda di Amazon S3 untuk analitik, dengan menyimpan metadata terkait di [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), melalui integrasi native-nya dengan AWS Glue, kemudian dapat digunakan untuk menganalisis data log Anda, yang mengkuerinya menggunakan SQL standar. Menggunakan alat kecerdasan bisnis seperti [Quick](https://aws.amazon.com/quicksight/) Anda dapat memvisualisasi, menjelajahi, dan menganalisis data Anda. 

 **Antipola umum:** 
+  Pengiriman fitur baru yang konsisten dianggap sebagai penanda kinerja utama. Anda tidak memiliki metode untuk mengukur seberapa sering deployment terjadi. 
+  Anda mencatatkan log deployment, deployment yang dibatalkan, patch, dan patch yang dibatalkan untuk melacak aktivitas operasi Anda, tetapi tidak ada orang yang meninjau metriknya. 
+  Anda memiliki tujuan waktu pemulihan untuk memulihkan basis data yang hilang dalam waktu lima belas menit yang ditetapkan ketika sistem diterapkan dan tidak memiliki pengguna. Sekarang Anda memiliki sepuluh ribu pengguna dan telah beroperasi selama dua tahun. Pemulihan terbaru memerlukan waktu lebih dari dua jam. Hal ini tidak dicatat dan tidak ada yang menyadarinya. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan mengumpulkan dan menganalisis metrik operasi Anda, Anda mendapatkan pemahaman tentang kondisi operasi dan dapat memperoleh wawasan tentang tren-tren yang mungkin memberikan dampak pada operasi atau pencapaian hasil bisnis Anda. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Kumpulkan dan analisis metrik operasi: Lakukan tinjauan metrik proaktif rutin untuk mengidentifikasi tren dan menentukan di mana respons yang tepat perlu diberikan. 
  +  [Menggunakan metrik Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Kumpulkan metrik dan log dari instans Amazon EC2 dan server on-premise dengan Agen CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Kumpulkan metrik dan log dari instans Amazon EC2 dan server on-premise dengan Agen CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Menggunakan metrik Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Membuat dasar acuan metrik operasi
<a name="ops_operations_health_ops_metric_baselines"></a>

 Buat dasar acuan untuk metrik guna menyediakan nilai yang diharapkan sebagai dasar perbandingan dan identifikasi aktivitas operasi dengan kinerja yang terlalu rendah atau terlalu tinggi. 

 **Antipola umum:** 
+  Anda ditanyai tentang perkiraan waktu deployment. Anda belum mengukur berapa waktu yang diperlukan untuk deployment dan tidak dapat menentukan perkiraan waktu. 
+  Anda ditanyai tentang berapa lama waktu yang diperlukan untuk pulih dari suatu masalah pada server aplikasi. Anda tidak memiliki informasi tentang waktu pemulihan dari kontak pelanggan pertama. Anda tidak memiliki informasi tentang waktu pemulihan dari identifikasi pertama sebuah masalah melalui pemantauan. 
+  Anda ditanyai tentang jumlah personel dukungan yang diperlukan pada akhir pekan. Anda tidak tahu jumlah kasus dukungan yang umum terjadi pada akhir pekan dan tidak dapat memberikan perkiraan. 
+  Anda memiliki tujuan waktu pemulihan untuk memulihkan basis data yang hilang dalam waktu lima belas menit yang ditetapkan ketika sistem di-deploy dan tidak memiliki pengguna. Sekarang Anda memiliki sepuluh ribu pengguna dan telah beroperasi selama dua tahun. Anda tidak memiliki informasi tentang perubahan waktu pemulihan untuk basis data Anda. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan menetapkan nilai metrik dasar acuan, Anda mampu mengevaluasi nilai metrik saat ini, serta tren metrik, untuk menentukan apakah tindakan diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Pelajari pola aktivitas yang diharapkan untuk operasi: Tetapkan pola aktivitas operasi untuk mengidentifikasi perilaku yang menyimpang dari nilai yang diharapkan agar Anda dapat memberikan respons yang sesuai jika diperlukan. 

# OPS09-BP05 Mempelajari pola aktivitas yang diharapkan untuk operasi
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Buat pola aktivitas operasi untuk mengidentifikasi aktivitas anomali agar Anda dapat memberikan respons yang sesuai jika diperlukan. 

 **Antipola umum:** 
+  Tingkat kegagalan deployment Anda akhir-akhir ini meningkat secara signifikan. Anda menangani setiap kegagalan tersebut secara independen. Anda tidak menyadari bahwa kegagalan tersebut berkaitan dengan deployment yang dilakukan oleh karyawan baru yang belum memahami sistem manajemen deployment dengan baik. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan mempelajari pola perilaku, Anda dapat mengenali perilaku yang tidak diharapkan dan melakukan tindakan yang diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Pelajari pola aktivitas yang diharapkan untuk operasi: Tetapkan pola aktivitas operasi untuk mengidentifikasi perilaku yang menyimpang dari nilai yang diharapkan agar Anda dapat memberikan respons yang sesuai jika diperlukan. 

# OPS09-BP06 Memperingatkan saat terdapat risiko pada hasil operasi
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Setiap kali hasil operasi terpapar risiko, sebuah peringatan harus dimunculkan dan ditindaklanjuti. Hasil operasi adalah aktivitas apa pun yang mendukung beban kerja dalam produksi. Ini mencakup semua hal mulai dari deployment versi baru aplikasi hingga pemulihan dari pemadaman. Hasil operasi harus diperlakukan sama pentingnya dengan hasil bisnis. 

Tim perangkat lunak harus mengidentifikasi metrik dan aktivitas operasi utama serta membuat peringatan untuk keduanya. Peringatan harus tepat waktu dan dapat ditindaklanjuti. Jika peringatan dimunculkan, referensi ke runbook atau playbook terkait harus disertakan. Peringatan tanpa tindakan terkait dapat memicu penumpukan peringatan.

 **Hasil yang diinginkan:** Saat aktivitas operasi terpapar risiko, peringatan dikirim untuk mendorong tindakan. Peringatan berisi konteks penyebab peringatan dimunculkan serta mengarah ke playbook untuk menyelidiki atau runbook untuk memitigasi. Jika memungkinkan, runbook diotomatiskan dan pemberitahuan dikirim. 

 **Antipola umum:** 
+ Anda sedang menyelidiki insiden dan kasus dukungan sedang diajukan. Kasus dukungan tersebut melanggar perjanjian tingkat layanan (SLA) tapi tidak ada peringatan yang dimunculkan. 
+ Deployment ke produksi yang dijadwalkan untuk tengah malam tertunda dikarenakan perubahan kode pada menit terakhir. Tidak ada peringatan yang dimunculkan dan deployment pun tertunda.
+ Terjadi penghentian produksi tapi tidak ada peringatan yang dikirim.
+  Waktu deployment Anda terus berjalan di luar perkiraan. Tidak ada tindakan yang diambil untuk menyelidikinya. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Pemberian peringatan ketika hasil operasi terpapar risiko meningkatkan kemampuan Anda untuk mendukung beban kerja Anda dengan mengantisipasi masalah. 
+  Hasil bisnis meningkat dikarenakan hasil operasi yang sehat. 
+  Deteksi dan perbaikan masalah operasi mengalami perbaikan. 
+  Kesehatan operasional secara keseluruhan mengalami peningkatan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Hasil operasi harus ditetapkan sebelum Anda dapat memperingatkannya. Mulailah dengan menetapkan aktivitas operasi apa yang paling penting bagi organisasi Anda. Apakah yang terpenting adalah deployment ke produksi dalam waktu kurang dari dua jam atau merespons kasus dukungan dalam waktu yang ditentukan? Organisasi Anda harus menetapkan aktivitas operasi utama serta bagaimana aktivitas tersebut diukur agar dapat dipantau, ditingkatkan, dan diperingatkan. Anda memerlukan lokasi sentral di mana telemetri beban kerja dan operasi disimpan dan dianalisis. Mekanisme yang sama harus bisa memunculkan peringatan ketika hasil operasi terpapar risiko. 

 **Contoh pelanggan** 

 Alarm CloudWatch dipicu selama deployment rutin di AnyCompany Retail. Waktu jeda untuk deployment dilanggar. Amazon EventBridge membuat OpsItem di AWS Systems Manager OpsCenter. Tim Operasi Cloud menggunakan playbook untuk menyelidiki masalah dan mengidentifikasi bahwa perubahan skema memerlukan waktu yang lebih lama dari yang diharapkan. Mereka memperingatkan pengembang yang berjaga dan melanjutkan pemantauan deployment. Setelah deployment selesai, tim Operasi Cloud menyelesaikan OpsItem. Tim akan menganalisis insiden selama postmortem. 

## Langkah implementasi
<a name="implementation-steps"></a>

1. Jika Anda belum mengidentifikasi KPI, metrik, dan aktivitas operasi, upayakan implementasi praktik terbaik sebelum pertanyaan ini (OPS09-BP01 sampai OPS09-BP05). 
   +  Pelanggan Dukungan dengan [Enterprise Support](https://aws.amazon.com/premiumsupport/plans/enterprise/) dapat mengajukan permintaan [Lokakarya KPI Operasi](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) dari Manajer Akun Teknis mereka. Lokakarya terkolaborasi ini membantu Anda menetapkan KPI dan metrik operasi selaras dengan tujuan bisnis, yang disediakan tanpa biaya tambahan. Hubungi Manajer Akun Teknis Anda untuk mengetahui lebih lanjut. 

1.  Setelah Anda membangun aktivitas, KPI, dan metrik operasi, konfigurasikan peringatan di platform observabilitas. Peringatan harus memiliki tindakan yang berkaitan, seperti playbook atau runbook. Peringatan tanpa tindakan harus dihindari. 

1.  Seiring waktu, Anda harus mengevaluasi metrik, KPI, dan aktivitas operasi Anda untuk mengidentifikasi area perbaikan. Serap umpan balik di runbook dan playbook dari operator untuk mengidentifikasi area perbaikan dalam merespons peringatan. 

1.  Peringatan harus disertai mekanisme untuk menandainya sebagai positif-palsu. Hal ini harus mengarah pada peninjauan ambang batas metrik. 

 **Tingkat upaya untuk rencana implementasi:** Sedang. Terdapat beberapa praktik terbaik yang harus diterapkan sebelum menerapkan praktik terbaik ini. Setelah aktivitas operasi diidentifikasi dan KPI operasi dibentuk, peringatan harus dibuat. 

## Sumber daya
<a name="resources"></a>

 **Praktik Terbaik Terkait:** 
+  [OPS02-BP03 Aktivitas operasi memiliki pemilik teridentifikasi yang bertanggung jawab atas kinerjanya](ops_ops_model_def_activity_owners.md): Setiap aktivitas dan hasil operasi harus memiliki pemilik yang teridentifikasi yang bertanggung jawab. Pemilik inilah yang harus diperingatkan ketika hasil terpapar risiko. 
+  [OPS03-BP02 Anggota tim diberdayakan untuk bertindak ketika terdapat risiko pada hasil](ops_org_culture_team_emp_take_action.md): Saat peringatan dimunculkan, tim Anda harus memiliki upaya untuk bertindak guna menyelesaikan masalah. 
+  [OPS09-BP01 Mengidentifikasi indikator kinerja utama](ops_operations_health_define_ops_kpis.md): Memperingatkan hasil operasi dimulai dengan mengidentifikasi KPI operasi. 
+  [OPS09-BP02 Tetapkan metrik operasi](ops_operations_health_design_ops_metrics.md): Tetapkan praktik terbaik ini sebelum Anda mulai membuat peringatan. 
+  [OPS09-BP03 Mengumpulkan dan menganalisis metrik operasi](ops_operations_health_collect_analyze_ops_metrics.md): Metrik operasi yang dikumpulkan secara terpusat diperlukan untuk membangun peringatan. 
+  [OPS09-BP04 Membuat dasar acuan metrik operasi](ops_operations_health_ops_metric_baselines.md): Dasar acuan metrik operasi menyediakan kemampuan untuk menyetel peringatan dan menghindari penumpukan peringatan. 
+  [OPS09-BP05 Mempelajari pola aktivitas yang diharapkan untuk operasi](ops_operations_health_learn_ops_usage_patterns.md): Anda dapat meningkatkan akurasi peringatan Anda dengan memahami pola aktivitas untuk peristiwa operasi. 
+  [OPS09-BP08 Memvalidasi capaian hasil dan efektivitas KPI serta metrik](ops_operations_health_biz_level_view_ops.md): Evaluasi pencapaian hasil operasi untuk memastikan bahwa KPI dan metrik Anda valid. 
+  [OPS10-BP02 Menjalankan proses untuk setiap peringatan](ops_event_response_process_per_alert.md): Setiap peringatan harus memiliki runbook atau playbook yang terkait dan menyediakan konteks untuk pihak yang diperingatkan. 
+  [OPS11-BP02 Menjalankan analisis setelah insiden](ops_evolve_ops_perform_rca_process.md): Lakukan analisis pascainsiden setelah peringatan untuk mengidentifikasi area perbaikan. 

 **Dokumen terkait:** 
+  [Arsitektur Referensi Pipeline Deployment AWS: Arsitektur Pipeline Aplikasi](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Mulai Menggunakan Metrik Agile/DevOps](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Video terkait:** 
+  [Lakukan Agregrasi dan Atasi Masalah Operasional Menggunakan AWS Systems Manager OpsCenter](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrasikan AWS Systems Manager OpsCenter dengan Alarm Amazon CloudWatch](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrasikan Sumber Data Anda ke dalam AWS Systems Manager OpsCenter Menggunakan Amazon EventBridge](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Contoh terkait:** 
+  [Otomatiskan tindakan penyelesaian untuk pemberitahuan Amazon EC2 dan selainnya menggunakan Otomatisasi Manajer Sistem Amazon EC2 dan AWS Health](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [Lokakarya Alat Manajemen dan Tata Kelola AWS - Operasi 2022](https://mng.workshop.aws/operations-2022.html) 
+  [Menyerap, menganalisis, dan memvisualisasikan metrik dengan Dasbor Pemantauan DevOps di AWS](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Layanan terkait:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Layanan Proaktif Dukungan - Lokakarya KPI Operasi](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Membuat pemberitahuan saat anomali operasi terdeteksi
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Berikan pemberitahuan saat anomali operasi terdeteksi sehingga Anda dapat merespons dengan tepat jika perlu. 

 Analisis Anda terhadap metrik operasi dalam jangka waktu tertentu mungkin telah membentuk pola perilaku yang dapat Anda hitung secara memadai untuk menetapkan peristiwa atau memberikan alarm respons. 

 Setelah dilatih, fitur [fitur Deteksi Anomali CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) dapat digunakan untuk memunculkan [alarm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) tentang anomali yang terdeteksi atau dapat menyediakan nilai yang diperkirakan ke sebuah [grafik](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) data metrik untuk perbandingan berkelanjutan. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) dapat digunakan untuk mengidentifikasi perilaku anomali melalui korelasi peristiwa, analisis log, dan penerapan machine learning, untuk menganalisis telemetri beban kerja Anda. Dengan [yang](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) didapatkan disajikan dengan data dan saran yang relevan. 

 **Antipola umum:** 
+  Anda sedang menerapkan patch ke armada instans Anda. Sebelumnya Anda telah berhasil menguji patch di lingkungan pengujian. Namun, patch tersebut gagal untuk banyak instans di armada Anda. Anda tidak melakukan apa pun. 
+  Anda mencatat terdapat deployment mulai Jumat sore. Organisasi Anda telah menetapkan jadwal pemeliharaan setiap Selasa dan Kamis. Anda tidak melakukan apa pun. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan memahami pola perilaku operasi, Anda dapat mengidentifikasi perilaku menyimpang dan melakukan tindakan yang diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Rendah 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Buat pemberitahuan saat anomali operasi terdeteksi: Berikan pemberitahuan saat anomali operasi terdeteksi sehingga Anda dapat merespons dengan tepat jika perlu. 
  +  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Membuat alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Memanggil fungsi Lambda menggunakan notifikasi Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [fitur Deteksi Anomali CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Membuat alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Deteksi dan Berikan Reaksi Terhadap Perubahan Status Pipeline dengan Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Memanggil fungsi Lambda menggunakan notifikasi Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Memvalidasi capaian hasil dan efektivitas KPI serta metrik
<a name="ops_operations_health_biz_level_view_ops"></a>

 Buat tampilan tingkat bisnis mengenai aktivitas operasi Anda untuk membantu menentukan apakah Anda sudah memenuhi kebutuhan dan untuk mengidentifikasi area yang memerlukan perbaikan untuk mencapai tujuan bisnis. Validasikan efektivitas KPI dan metrik, serta lakukan revisi jika diperlukan. 

 AWS juga mendukung alat kecerdasan bisnis dan sistem analisis log pihak ketiga melalui layanan API dan SDK AWS (misalnya, Grafana, Kibana, dan Logstash). 

 **Antipola umum:** 
+  Frekuensi deployment Anda telah meningkat seiring bertambahnya jumlah tim pengembangan. Perkiraan jumlah deployment yang Anda tetapkan adalah satu kali per minggu. Anda telah rutin melakukan deployment harian. Ketika terdapat masalah dalam sistem deployment Anda, dan deployment tidak mungkin berjalan, hal ini tidak terdeteksi selama berhari-hari. 
+  Bisnis Anda sebelumnya menyediakan dukungan hanya selama jam-jam kerja inti dari Senin sampai Jumat. Anda menetapkan target waktu respons hari kerja berikutnya untuk insiden. Baru-baru ini Anda mulai menawarkan cakupan dukungan setiap hari dan setiap saat dengan target waktu respons dua jam. Staf lembut Anda kewalahan dan pelanggan Anda kecewa. Terdapat indikasi adanya masalah terkait waktu respons insiden karena Anda melapor berdasarkan target hari kerja berikutnya. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan meninjau dan merevisi KPI serta metrik, Anda memahami bagaimana beban kerja mendukung pencapaian hasil bisnis Anda dan dapat mengidentifikasi bagian yang memerlukan perbaikan untuk mencapai tujuan bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Rendah 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Validasikan pencapaian hasil dan efektivitas KPI serta metrik: Buat tampilan tingkat bisnis mengenai aktivitas operasi Anda untuk membantu menentukan apakah Anda telah memenuhi kebutuhan dan untuk mengidentifikasi area yang memerlukan perbaikan untuk mencapai tujuan bisnis. Validasikan efektivitas KPI dan metrik, serta lakukan revisi jika diperlukan. 
  +  [Menggunakan dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Apa itu analitik log?](https://aws.amazon.com/log-analytics/) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Menggunakan dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Apa itu analitik log?](https://aws.amazon.com/log-analytics/) 

# OPS 10 Bagaimana cara mengelola peristiwa operasi dan beban kerja?
<a name="w2aac19b5b9b9"></a>

 Siapkan dan validasikan prosedur untuk merespons peristiwa guna meminimalkan gangguannya pada beban kerja Anda. 

**Topics**
+ [OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Menjalankan proses untuk setiap peringatan](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Memprioritaskan kejadian operasional berdasarkan dampaknya terhadap bisnis](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Tetapkan jalur eskalasi](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Mengaktifkan notifikasi push](ops_event_response_push_notify.md)
+ [OPS10-BP06 Mengomunikasikan status melalui dasbor](ops_event_response_dashboards.md)
+ [OPS10-BP07 Otomatiskan respons terhadap peristiwa](ops_event_response_auto_event_response.md)

# OPS10-BP01 Menggunakan proses untuk manajemen peristiwa, insiden, dan masalah
<a name="ops_event_response_event_incident_problem_process"></a>

Organisasi Anda memiliki proses untuk menangani peristiwa, insiden, dan masalah. *Peristiwa* adalah hal-hal yang terjadi dalam beban kerja Anda, tetapi mungkin tidak memerlukan intervensi. *Insiden* adalah peristiwa yang memerlukan intervensi. *Masalah* adalah peristiwa berulang yang memerlukan intervensi atau tidak dapat diselesaikan. Anda memerlukan proses untuk mengurangi dampak peristiwa ini pada bisnis Anda dan memastikan bahwa Anda merespons dengan tepat.

Ketika insiden dan masalah terjadi pada beban kerja Anda, Anda memerlukan proses untuk menanganinya. Bagaimana Anda akan mengomunikasikan status peristiwa dengan pemangku kepentingan? Siapa yang mengawasi pelaksanaan respons? Apa alat yang Anda gunakan untuk memitigasi peristiwa? Ini adalah contoh dari beberapa pertanyaan yang perlu Anda jawab untuk memiliki proses respons yang solid. 

Proses harus didokumentasikan di lokasi sentral dan tersedia bagi siapa saja yang terlibat dalam beban kerja Anda. Jika Anda tidak memiliki wiki atau penyimpanan dokumen sentral, repositori kontrol versi dapat digunakan. Anda akan terus memperbarui rencana ini seiring berkembangnya proses Anda. 

Masalah merupakan kandidat untuk otomatisasi. Peristiwa ini mengambil waktu Anda yang seharusnya dihabiskan untuk berinovasi. Mulailah dengan membangun proses berulang untuk memitigasi masalah. Seiring waktu, fokuslah untuk mengotomatiskan mitigasi atau memperbaiki masalah mendasar. Tindakan ini akan membebaskan waktu yang kemudian dapat dihabiskan untuk melakukan peningkatan dalam beban kerja Anda. 

**Hasil yang diinginkan:** Organisasi Anda memiliki proses untuk menangani peristiwa, insiden, dan masalah. Proses ini didokumentasikan dan disimpan di lokasi sentral. Dokumentasinya akan diperbarui seiring proses ini berubah. 

**Antipola umum:** 
+  Sebuah insiden terjadi pada akhir pekan dan teknisi yang berjaga tidak tahu harus melakukan tindakan apa. 
+  Seorang pelanggan mengirimi Anda email bahwa aplikasi Anda tidak beroperasi. Anda melakukan booting ulang server untuk memperbaikinya. Hal ini sering terjadi. 
+  Ada insiden yang mengharuskan banyak tim bekerja secara independen untuk mencoba menyelesaikannya. 
+  Deployment terjadi dalam beban kerja Anda tanpa didokumentasikan. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Anda memiliki jejak audit peristiwa dalam beban kerja Anda. 
+  Waktu Anda untuk pulih dari insiden berkurang. 
+  Anggota tim dapat menyelesaikan insiden dan masalah secara konsisten. 
+  Ada upaya yang lebih terkonsolidasi ketika menyelidiki sebuah insiden. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>

Menerapkan praktik terbaik ini berarti Anda melacak peristiwa beban kerja. Anda memiliki proses untuk menangani insiden dan masalah. Proses ini didokumentasikan, dibagikan, dan sering diperbarui. Masalah diidentifikasi, diprioritaskan, dan diperbaiki. 

 **Contoh pelanggan** 

AnyCompany Retail mengkhususkan sebuah bagian dari wiki internal mereka untuk proses penanganan manajemen peristiwa, insiden, dan masalah. Semua peristiwa dikirim ke [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html). Masalah diidentifikasi sebagai OpsItems di [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) dan diprioritaskan untuk diperbaiki, sehingga mengurangi tenaga kerja yang tidak terdiferensiasi. Seiring proses ini berubah, dokumentasinya diperbarui di wiki internal mereka. Mereka menggunakan [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) untuk mengelola insiden dan mengoordinasikan upaya mitigasi. 

## Langkah implementasi
<a name="implementation-steps"></a>

1.  Peristiwa 
   +  Lacak peristiwa yang terjadi dalam beban kerja Anda, meskipun tidak diperlukan intervensi manusia. 
   +  Bekerja sama dengan pemangku kepentingan beban kerja untuk mengembangkan daftar peristiwa yang harus dilacak. Beberapa contohnya adalah deployment yang diselesaikan atau patching yang berhasil. 
   +  Anda dapat menggunakan layanan seperti [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) atau [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) untuk menghasilkan peristiwa kustom untuk pelacakan. 

1.  Insiden 
   +  Mulailah dengan mendefinisikan rencana komunikasi untuk insiden. Pemangku kepentingan mana yang harus diinformasikan? Bagaimana Anda akan terus menginformasikan mereka? Siapa yang mengawasi upaya koordinasi? Kami merekomendasikan untuk membuat saluran obrolan internal untuk komunikasi dan koordinasi. 
   +  Tentukan jalur eskalasi untuk tim yang mendukung beban kerja Anda, terutama jika tim ini tidak memiliki rotasi jaga. Berdasarkan tingkat dukungan Anda, Anda juga dapat mengajukan kasus ke Dukungan. 
   +  Buat buku playbook untuk menyelidiki insiden. Playbook Ini harus berisi rencana komunikasi dan langkah penyelidikan yang mendetail. Sertakan tindakan memeriksa [Dasbor AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) dalam penyelidikan Anda. 
   +  Dokumentasikan rencana respons insiden Anda. Komunikasikan rencana manajemen insiden agar pelanggan internal dan eksternal memahami aturan pelibatan dan apa yang diharapkan dari mereka. Latih anggota tim Anda tentang cara menggunakannya. 
   +  Pelanggan dapat menggunakan [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) untuk mengatur dan mengelola rencana respons insiden mereka. 
   +  Pelanggan Enterprise Support dapat meminta [Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) dari Manajer Akun Teknis mereka. Lokakarya berpemandu ini akan menguji rencana respons insiden yang ada dan membantu Anda mengidentifikasi area yang perlu ditingkatkan. 

1.  Masalah 
   +  Masalah harus diidentifikasi dan dilacak dalam sistem ITSM Anda. 
   +  Identifikasi semua masalah yang diketahui dan prioritaskan berdasarkan tingkat upaya perbaikan dan dampak pada beban kerja.   
![\[Matriks prioritas tindakan untuk memprioritaskan masalah.\]](http://docs.aws.amazon.com/id_id/wellarchitected/2022-03-31/framework/images/impact-effort-chart.png)
   +  Selesaikan masalah yang berdampak tinggi dan memerlukan tingkat upaya yang rendah terlebih dahulu. Setelah masalah tersebut diselesaikan, lanjutkan ke masalah yang termasuk dalam kuadran upaya rendah berdampak rendah. 
   +  Anda dapat menggunakan [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) untuk mengidentifikasi masalah ini, menyediakan runbook yang sesuai, dan melacaknya. 

**Tingkat upaya untuk rencana implementasi:** Sedang. Anda memerlukan proses dan alat untuk menerapkan praktik terbaik ini. Dokumentasikan proses Anda dan sediakan dokumentasi ini untuk siapa saja yang terkait dengan beban kerja. Perbarui dokumentasi ini secara rutin. Anda memiliki proses untuk mengelola dan memitigasi atau memperbaiki masalah. 

## Sumber daya
<a name="resources"></a>

 **Praktik terbaik terkait:** 
+  [OPS07-BP03 Menggunakan runbook untuk menjalankan prosedur](ops_ready_to_support_use_runbooks.md): Masalah yang diketahui memerlukan runbook terkait agar upaya mitigasinya konsisten.
+  [OPS07-BP04 Menggunakan buku panduan untuk menyelidiki masalah](ops_ready_to_support_use_playbooks.md): Insiden harus diselidiki menggunakan playbook. 
+  [OPS11-BP02 Menjalankan analisis setelah insiden](ops_evolve_ops_perform_rca_process.md): Selalu lakukan pemeriksaan pascainsiden setelah Anda pulih dari suatu insiden. 

 **Dokumen terkait:** 
+  [Atlassian - Manajemen insiden di era DevOps](https://www.atlassian.com/incident-management/devops) 
+  [Panduan Respons Insiden Keamanan AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Manajemen Insiden di Era DevOps dan SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - Apa itu Manajemen Insiden?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Video terkait:** 
+  [AWS re:Invent 2020: Manajemen insiden di organisasi terdistribusi](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Membangun aplikasi generasi baru dengan arsitektur berbasis peristiwa](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Mendukung Anda \$1 Latihan Diskusi Menjelajahi Manajemen Insiden](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [Manajer Insiden AWS Systems Manager - Lokakarya Virtual AWS](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next bersama Incident Manager \$1 Acara AWS](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Contoh terkait:** 
+  [Lokakarya Alat Manajemen dan Tata Kelola AWS - OpsCenter](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [Layanan Proaktif AWS – Lokakarya Manajemen Insiden](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Membangun aplikasi berbasis peristiwa dengan Amazon EventBridge](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Membangun arsitektur berbasis peristiwa di AWS](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Layanan terkait:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [Dasbor AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Manajer Insiden AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Menjalankan proses untuk setiap peringatan
<a name="ops_event_response_process_per_alert"></a>

 Tetapkan respons (runbook atau buku pedoman) dengan baik, dengan pemilik yang teridentifikasi secara khusus, untuk peristiwa apa pun yang diatur peringatannya. Ini memastikan respons yang efektif dan cepat terhadap peristiwa operasi dan mencegah peristiwa yang dapat ditindaklanjuti dihalangi oleh notifikasi yang kurang bernilai. 

 **Antipola umum:** 
+  Sistem pemantauan memberikan aliran koneksi yang disetujui bersama dengan pesan lainnya. Volume pesan sangat besar sehingga Anda melewatkan pesan kesalahan berkala yang perlu diintervensi. 
+  Anda menerima peringatan bahwa situs web terhenti. Tidak ada proses yang ditentukan jika hal seperti ini terjadi. Anda dipaksa untuk melakukan tindakan ad hoc untuk mendiagnosis dan menyelesaikan masalah. Mengembangkan proses ini seiring berjalannya waktu akan memperpanjang waktu pemulihan. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan memperingatkan hanya ketika tindakan diperlukan, Anda mencegah peringatan bernilai rendah menutupi peringatan bernilai tinggi. Dengan memiliki proses untuk setiap peringatan yang dapat ditindaklanjuti, Anda mengaktifkan respons yang konsisten dan cepat terhadap peristiwa di lingkungan Anda. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Proses per peringatan: Peristiwa apa pun yang Anda aktifkan peringatannya harus memiliki respons (runbook atau buku pedoman) yang jelas dengan pemilik yang teridentifikasi secara khusus (misalnya, individu, tim, atau peran) yang bertanggung jawab atas penyelesaian yang berhasil. Kinerja respons dapat diotomatiskan atau dilakukan oleh tim lain tetapi pemiliknya bertanggung jawab untuk memastikan proses memberikan hasil yang diharapkan. Dengan memiliki proses ini, Anda memastikan respons yang efektif dan cepat terhadap peristiwa operasi dan mencegah peristiwa yang dapat ditindaklanjuti dihalangi oleh notifikasi yang kurang bernilai. Misalnya, penskalaan otomatis dapat diterapkan untuk menskalakan front end web, tetapi tim operasi mungkin bertanggung jawab untuk memastikan bahwa aturan dan batas penskalaan otomatis sesuai untuk kebutuhan beban kerja. 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Fitur Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) 
+  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video terkait:** 
+  [Build a Monitoring Plan](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Memprioritaskan kejadian operasional berdasarkan dampaknya terhadap bisnis
<a name="ops_event_response_prioritize_events"></a>

 Ketika ada beberapa kejadian yang memerlukan intervensi, pastikan untuk mengatasi kejadian yang paling signifikan terhadap bisnis terlebih dahulu. Dampak dapat termasuk kematian atau cedera fisik, kerugian finansial, atau rusaknya reputasi dan kepercayaan. 

 **Antipola umum:** 
+  Anda menerima permintaan dukungan untuk menambahkan konfigurasi printer bagi pengguna. Saat sedang menangani masalah tersebut, Anda menerima permintaan dukungan yang menyatakan bahwa situs retail terhenti. Setelah menyelesaikan konfigurasi pencetak untuk pengguna, Anda mulai menangani masalah yang dialami situs web. 
+  Anda menerima pemberitahuan bahwa sistem pembayaran dan situs web retail Anda terhenti. Anda tidak tahu mana masalah yang harus diprioritaskan. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan memprioritaskan insiden yang dampaknya paling besar terhadap bisnis, Anda dapat menetapkan manajemen untuk dampak tersebut. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Prioritaskan peristiwa operasional berdasarkan dampaknya terhadap bisnis: Ketika ada beberapa kejadian yang memerlukan intervensi, atasi kejadian yang paling signifikan terhadap bisnis terlebih dahulu. Dampak dapat termasuk kematian atau cedera fisik, kerugian finansial, atau rusaknya reputasi atau kepercayaan. 

# OPS10-BP04 Tetapkan jalur eskalasi
<a name="ops_event_response_define_escalation_paths"></a>

 Tetapkan jalur eskalasi di runbook dan playbook Anda, termasuk apa yang memicu eskalasi, dan prosedur untuk eskalasi. Secara spesifik identifikasi pemilik untuk setiap tindakan guna memastikan respons yang efektif dan tepat waktu terhadap peristiwa operasi. 

 Identifikasi ketika keputusan manusia diperlukan sebelum tindakan diambil. Bekerja samalah dengan pengambil keputusan untuk mengambil keputusan tersebut lebih awal, dan untuk mendapatkan terlebih dulu persetujuan atas tindakan, sehingga MTTR tidak menjadi lebih lama karena menunggu respons. 

 **Antipola umum:** 
+  Situs retail Anda tidak berfungsi. Anda tidak memahami runbook untuk memulihkan situs itu. Anda mulai menelepon kolega dengan harapan seseorang akan dapat membantu Anda. 
+  Anda menerima kasus permintaan dukungan untuk aplikasi yang tidak dapat dijangkau. Anda tidak memiliki izin untuk administrasi sistem. Anda tidak tahu siapa yang memilikinya. Anda berusaha menghubungi pemilik sistem yang membuka kasus tersebut dan tidak mendapatkan respons. Anda tidak memiliki kontak untuk sistem dan kolega Anda tidak tahu. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan menetapkan eskalasi, pemicu untuk eskalasi, dan prosedur untuk eskalasi, Anda memungkinkan penambahan sumber daya secara sistematis ke insiden dengan tingkat yang sesuai untuk dampaknya. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Tetapkan jalur eskalasi: Tetapkan jalur eskalasi di runbook dan playbook Anda, termasuk apa yang memicu eskalasi, dan prosedur untuk eskalasi. Contohnya, eskalasi masalah dari rekayasawan dukungan ke rekayasawan dukungan senior ketika runbook tidak dapat menyelesaikan masalah, atau ketika jangka waktu yang ditetapkan sebelumnya telah lewat. Contoh lain dari jalur eskalasi yang benar adalah dari rekayasawan dukungan senior ke tim pengembangan untuk beban kerja ketika playbook tidak dapat mengidentifikasi jalur ke perbaikan, atau ketika jangka waktu yang ditetapkan sebelumnya telah lewat. Secara spesifik identifikasi pemilik untuk setiap tindakan guna memastikan respons yang efektif dan tepat waktu terhadap peristiwa operasi. Eskalasi dapat mencakup pihak ketiga. Contohnya, penyedia konektivitas jaringan atau vendor perangkat lunak. Eskalasi dapat mencakup pengambil keputusan resmi yang diidentifikasi untuk sistem yang terkena dampak. 

# OPS10-BP05 Mengaktifkan notifikasi push
<a name="ops_event_response_push_notify"></a>

 Berkomunikasilah secara langsung dengan pengguna Anda (misalnya melalui email atau SMS) ketika layanan yang mereka gunakan terganggu, serta ketika layanan kembali ke kondisi operasi normal, agar pengguna dapat mengambil tindakan yang tepat. 

 **Antipola umum:** 
+  Aplikasi Anda mengalami insiden penolakan layanan terdistribusi dan tidak memberikan respons selama berhari-hari. Tidak ada pesan kesalahan. Anda belum mengirimkan email notifikasi. Anda belum mengirimkan pesan teks notifikasi. Anda belum menyampaikan informasi di media sosial. Pelanggan Anda kesal dan mencari vendor lain yang dapat mendukung mereka. 
+  Pada hari Senin, aplikasi Anda mengalami masalah setelah patch tertentu dan tidak aktif selama beberapa jam. Pada hari Selasa, aplikasi Anda mengalami masalah setelah deployment kode dan tidak dapat diandalkan selama beberapa jam. Pada hari Rabu, aplikasi Anda mengalami masalah setelah deployment kode untuk memitigasi kerentanan keamanan terkait patch yang gagal dan aplikasi tidak tersedia selama beberapa jam. Pada hari Kamis, pelanggan Anda yang kesal mulai mencari vendor lain yang dapat mendukung mereka. 
+  Aplikasi Anda tidak akan tersedia pada akhir pekan ini untuk menjalani pemeliharaan. Anda tidak memberi tahu pelanggan Anda. Beberapa pelanggan telah menjadwalkan aktivitas yang melibatkan penggunaan aplikasi Anda. Mereka sangat kesal setelah mengetahui bahwa aplikasi Anda tidak tersedia. 

 **Manfaat menjalankan praktik terbaik ini:** Saat Anda menetapkan notifikasi, pemicu notifikasi, dan prosedur notifikasi, pelanggan Anda dapat menerima informasi dan memberikan respons saat mereka merasakan dampak dari masalah beban kerja Anda. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Aktifkan notifikasi push: Berkomunikasilah secara langsung dengan pengguna Anda (misalnya melalui email atau SMS) ketika layanan yang mereka gunakan terganggu, serta ketika layanan kembali ke kondisi operasi normal, agar pengguna dapat mengambil tindakan yang tepat. 
  +  [Fitur Amazon SES](https://aws.amazon.com/ses/details/) 
  +  [Apa Itu Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 
  +  [Atur notifikasi Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Fitur Amazon SES](https://aws.amazon.com/ses/details/) 
+  [Atur notifikasi Amazon SNS](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/US_SetupSNS.html) 
+  [Apa Itu Amazon SES?](https://docs.aws.amazon.com/ses/latest/DeveloperGuide/Welcome.html) 

# OPS10-BP06 Mengomunikasikan status melalui dasbor
<a name="ops_event_response_dashboards"></a>

 Menyediakan dasbor yang disesuaikan untuk audiens target mereka (misalnya, tim teknis internal, pimpinan, dan pelanggan) guna mengomunikasikan status operasi bisnis saat ini dan memberikan metrik kepentingan. 

 Anda dapat membuat dasbor menggunakan [Dasbor Amazon CloudWatch](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) dengan halaman beranda yang dapat disesuaikan di konsol CloudWatch. Dengan layanan kecerdasan bisnis seperti [Quick](https://aws.amazon.com/quicksight/) Anda dapat membuat dan memublikasikan dasbor interaktif yang menampilkan kondisi operasional dan beban kerja Anda (misalnya, tingkat pesanan, pengguna terhubung, dan waktu transaksi). Buat Dasbor yang memberikan tampilan tingkat bisnis dan sistem mengenai metrik Anda. 

 **Antipola umum:** 
+  Atas permintaan, Anda menjalankan laporan tentang pemanfaatan aplikasi Anda saat ini untuk manajemen. 
+  Selama insiden, Anda dihubungi setiap dua puluh menit oleh pemilik sistem yang ingin mengetahui apakah insiden sudah teratasi. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan membuat dasbor, Anda mengaktifkan akses layanan mandiri untuk pelanggan Anda agar mereka mengetahui jika mereka harus melakukan suatu tindakan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Komunikasikan status melalui dasbor: Sediakan dasbor yang disesuaikan untuk audiens target mereka (misalnya, tim teknis internal, pimpinan, dan pelanggan) guna mengomunikasikan status operasi bisnis saat ini dan menyediakan metrik kepentingan. Menyediakan opsi layanan mandiri untuk informasi status dapat mengurangi disrupsi permintaan penanganan status dari tim operator lapangan. Contohnya termasuk dasbor Amazon CloudWatch dan Dasbor AWS Health. 
  +  [Dasbor CloudWatch membuat dan menggunakan tampilan metrik yang disesuaikan](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [Dasbor CloudWatch membuat dan menggunakan tampilan metrik yang disesuaikan](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Otomatiskan respons terhadap peristiwa
<a name="ops_event_response_auto_event_response"></a>

 Otomatiskan respons terhadap peristiwa untuk mengurangi kesalahan yang disebabkan oleh proses manual, dan untuk memastikan respons yang konsisten dan tepat waktu. 

 Ada sejumlah cara untuk mengotomatiskan tindakan runbook dan playbook di AWS. Untuk merespons peristiwa dari perubahan keadaan di sumber daya AWS Anda, atau dari peristiwa kustom Anda sendiri, Anda harus membuat [aturan CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) untuk memicu respons melalui target CloudWatch (contohnya, fungsi Lambda, topik Amazon Simple Notification Service (Amazon SNS), tugas Amazon ECS, dan Otomatisasi AWS Systems Manager). 

 Untuk merespons metrik yang melampaui ambang batas untuk sumber daya (contohnya, waktu tunggu), Anda harus membuat [alarm CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) untuk melakukan satu atau lebih tindakan menggunakan tindakan CloudWatch Events, tindakan Auto Scaling, atau untuk mengirimkan notifikasi ke topik Amazon SNS. Jika Anda harus melakukan tindakan kustom untuk merespons alarm, panggil Lambda melalui notifikasi Amazon SNS. Gunakan Amazon SNS untuk mempublikasikan notifikasi peristiwa dan pesan eskalasi agar orang selalu tahu. 

 AWS juga mendukung sistem pihak ketiga melalui API dan SDK layanan AWS. Ada sejumlah alat pemantauan yang disediakan oleh Partner AWS dan pihak ketiga yang memungkinkan pemantauan, notifikasi, dan respons. Beberapa alat ini antara lain New Relic, Splunk, Loggly, SumoLogic, dan Datadog. 

 Anda harus selalu menyediakan prosedur manual yang sangat penting untuk digunakan ketika prosedur otomatis gagal 

 **Antipola umum:** 
+  Developer memeriksa kodenya. Peristiwa ini bisa saja digunakan untuk mulai membangun kemudian melakukan pengujian tetapi tidak ada yang terjadi. 
+  Aplikasi Anda mencatat kesalahan spesifik sebelum berhenti berfungsi. Prosedur untuk memulai ulang aplikasi dipahami dengan baik dan dapat diberi skrip. Anda dapat menggunakan log event untuk memanggil skrip dan memulai ulang aplikasi. Tetapi, ketika kesalahan terjadi pada hari Minggu jam 3 pagi, Anda dibangunkan karena Anda adalah sumber daya yang siap dipanggil untuk memperbaiki sistem tersebut. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan menggunakan respons otomatis terhadap peristiwa, Anda mengurangi waktu untuk merespons dan membatasi timbulnya kesalahan akibat aktivitas manual. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Rendah 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Otomatiskan respons terhadap peristiwa: Otomatiskan respons terhadap peristiwa untuk mengurangi kesalahan yang disebabkan oleh proses manual, dan untuk memastikan respons yang konsisten dan tepat waktu. 
  +  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Membuat aturan CloudWatch Events yang memicu peristiwa](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Membuat aturan CloudWatch Events yang memicu AWS panggilan API menggunakan AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [Contoh peristiwa CloudWatch Events dari layanan yang didukung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon CloudWatch Fitur](https://aws.amazon.com/cloudwatch/features/) 
+  [Contoh peristiwa CloudWatch Events dari layanan yang didukung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Membuat aturan CloudWatch Events yang memicu AWS panggilan API menggunakan AWS CloudTrail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Membuat aturan CloudWatch Events yang memicu peristiwa](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Video terkait:** 
+  [Buat Rencana Pemantauan](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Contoh terkait:** 