

# OPS 9 Bagaimana cara memahami kondisi operasi Anda?
<a name="w2aac19b5b9b7"></a>

 Tetapkan, catat, dan analisis metrik operasi untuk mendapatkan visibilitas peristiwa operasi sehingga Anda dapat mengambil tindakan yang tepat. 

**Topics**
+ [OPS09-BP01 Mengidentifikasi indikator kinerja utama](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Tetapkan metrik operasi](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Mengumpulkan dan menganalisis metrik operasi](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Membuat dasar acuan metrik operasi](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Mempelajari pola aktivitas yang diharapkan untuk operasi](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Memperingatkan saat terdapat risiko pada hasil operasi](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Membuat pemberitahuan saat anomali operasi terdeteksi](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Memvalidasi capaian hasil dan efektivitas KPI serta metrik](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Mengidentifikasi indikator kinerja utama
<a name="ops_operations_health_define_ops_kpis"></a>

 Identifikasikan indikator kinerja utama (KPI) berdasarkan hasil bisnis yang diinginkan (misalnya fitur baru yang diberikan) dan hasil pelanggan (misalnya kasus dukungan pelanggan). Evaluasikan KPI untuk menentukan kesuksesan operasi. 

 **Antipola umum:** 
+  Pimpinan bisnis bertanya kepada Anda tentang seberapa sukses operasi berjalan dalam mencapai tujuan bisnis, tetapi tidak memiliki kerangka acuan untuk menentukan kesuksesan. 
+  Anda tidak dapat menentukan apakah jendela pemeliharaan berdampak pada hasil bisnis. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan mengidentifikasi indikator kinerja utama, Anda dapat mencapai hasil bisnis sebagai pengujian kondisi dan kesuksesan operasi. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Identifikasikan indikator kinerja utama: Identifikasikan indikator kinerja utama (KPI) berdasarkan hasil bisnis dan hasil pelanggan. Evaluasikan KPI untuk menentukan kesuksesan operasi. 

# OPS09-BP02 Tetapkan metrik operasi
<a name="ops_operations_health_design_ops_metrics"></a>

 Tetapkan metrik operasi untuk mengukur pencapaian KPI (misalnya, deployment yang sukses, dan deployment yang gagal). Tetapkan metrik operasi untuk mengukur kondisi aktivitas operasi (misalnya, waktu rata-rata untuk mendeteksi insiden (MTTD), dan waktu rata-rata untuk pemulihan (MTTR) dari insiden). Evaluasi metrik untuk menentukan apakah operasi mencapai hasil yang diinginkan, dan untuk memahami kondisi aktivitas operasi Anda. 

 **Antipola umum:** 
+  Metrik operasi Anda didasarkan atas apa yang wajar menurut tim. 
+  Terjadi kesalahan dalam penghitungan metrik yang akan mengakibatkan hasil yang tidak benar. 
+  Anda tidak memiliki metrik yang ditentukan untuk aktivitas operasi Anda. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan menetapkan dan mengevaluasi metrik operasi, Anda dapat menentukan kondisi aktivitas operasi Anda dan mengukur pencapaian hasil bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Tetapkan metrik operasi: Tetapkan metrik operasi untuk mengukur pencapaian KPI. Tetapkan metrik operasi untuk mengukur kondisi operasi dan aktivitasnya. Evaluasi metrik untuk menentukan apakah operasi mencapai hasil yang diinginkan, dan untuk memahami kondisi operasi. 
  +  [Publikasikan metrik kustom](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Mencari dan menyaring data log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [AWS Jawaban: Pencatatan Terpusat](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Deteksi dan Reaksi Terhadap Perubahan Dalam Alur dengan Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Publikasikan metrik kustom](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Mencari dan menyaring data log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Video terkait:** 
+  Buat Rencana Pemantauan 

# OPS09-BP03 Mengumpulkan dan menganalisis metrik operasi
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Lakukan tinjauan metrik proaktif rutin untuk mengidentifikasi tren dan menentukan di mana respons yang tepat perlu diberikan. 

 Anda harus mengagregasi data log dari pelaksanaan aktivitas operasi dan panggilan API operasi Anda, ke dalam layanan seperti CloudWatch Logs. Hasilkan metrik dari pengamatan konten log yang diperlukan untuk memperoleh wawasan tentang kinerja aktivitas operasi. 

 Di AWS, Anda dapat [mengekspor data log Anda ke Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) atau [mengirimkan log langsung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) ke [Amazon S3](https://aws.amazon.com/s3/) untuk penyimpanan jangka panjang. Menggunakan [AWS Glue](https://aws.amazon.com/glue/), Anda dapat menemukan dan mempersiapkan data log Anda di Amazon S3 untuk analitik, dengan menyimpan metadata terkait di [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/), melalui integrasi native-nya dengan AWS Glue, kemudian dapat digunakan untuk menganalisis data log Anda, yang mengkuerinya menggunakan SQL standar. Menggunakan alat kecerdasan bisnis seperti [Quick](https://aws.amazon.com/quicksight/) Anda dapat memvisualisasi, menjelajahi, dan menganalisis data Anda. 

 **Antipola umum:** 
+  Pengiriman fitur baru yang konsisten dianggap sebagai penanda kinerja utama. Anda tidak memiliki metode untuk mengukur seberapa sering deployment terjadi. 
+  Anda mencatatkan log deployment, deployment yang dibatalkan, patch, dan patch yang dibatalkan untuk melacak aktivitas operasi Anda, tetapi tidak ada orang yang meninjau metriknya. 
+  Anda memiliki tujuan waktu pemulihan untuk memulihkan basis data yang hilang dalam waktu lima belas menit yang ditetapkan ketika sistem diterapkan dan tidak memiliki pengguna. Sekarang Anda memiliki sepuluh ribu pengguna dan telah beroperasi selama dua tahun. Pemulihan terbaru memerlukan waktu lebih dari dua jam. Hal ini tidak dicatat dan tidak ada yang menyadarinya. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan mengumpulkan dan menganalisis metrik operasi Anda, Anda mendapatkan pemahaman tentang kondisi operasi dan dapat memperoleh wawasan tentang tren-tren yang mungkin memberikan dampak pada operasi atau pencapaian hasil bisnis Anda. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Tinggi 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Kumpulkan dan analisis metrik operasi: Lakukan tinjauan metrik proaktif rutin untuk mengidentifikasi tren dan menentukan di mana respons yang tepat perlu diberikan. 
  +  [Menggunakan metrik Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Kumpulkan metrik dan log dari instans Amazon EC2 dan server on-premise dengan Agen CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Metrik Amazon CloudWatch dan referensi dimensi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Kumpulkan metrik dan log dari instans Amazon EC2 dan server on-premise dengan Agen CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Menggunakan metrik Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Membuat dasar acuan metrik operasi
<a name="ops_operations_health_ops_metric_baselines"></a>

 Buat dasar acuan untuk metrik guna menyediakan nilai yang diharapkan sebagai dasar perbandingan dan identifikasi aktivitas operasi dengan kinerja yang terlalu rendah atau terlalu tinggi. 

 **Antipola umum:** 
+  Anda ditanyai tentang perkiraan waktu deployment. Anda belum mengukur berapa waktu yang diperlukan untuk deployment dan tidak dapat menentukan perkiraan waktu. 
+  Anda ditanyai tentang berapa lama waktu yang diperlukan untuk pulih dari suatu masalah pada server aplikasi. Anda tidak memiliki informasi tentang waktu pemulihan dari kontak pelanggan pertama. Anda tidak memiliki informasi tentang waktu pemulihan dari identifikasi pertama sebuah masalah melalui pemantauan. 
+  Anda ditanyai tentang jumlah personel dukungan yang diperlukan pada akhir pekan. Anda tidak tahu jumlah kasus dukungan yang umum terjadi pada akhir pekan dan tidak dapat memberikan perkiraan. 
+  Anda memiliki tujuan waktu pemulihan untuk memulihkan basis data yang hilang dalam waktu lima belas menit yang ditetapkan ketika sistem di-deploy dan tidak memiliki pengguna. Sekarang Anda memiliki sepuluh ribu pengguna dan telah beroperasi selama dua tahun. Anda tidak memiliki informasi tentang perubahan waktu pemulihan untuk basis data Anda. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan menetapkan nilai metrik dasar acuan, Anda mampu mengevaluasi nilai metrik saat ini, serta tren metrik, untuk menentukan apakah tindakan diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Pelajari pola aktivitas yang diharapkan untuk operasi: Tetapkan pola aktivitas operasi untuk mengidentifikasi perilaku yang menyimpang dari nilai yang diharapkan agar Anda dapat memberikan respons yang sesuai jika diperlukan. 

# OPS09-BP05 Mempelajari pola aktivitas yang diharapkan untuk operasi
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Buat pola aktivitas operasi untuk mengidentifikasi aktivitas anomali agar Anda dapat memberikan respons yang sesuai jika diperlukan. 

 **Antipola umum:** 
+  Tingkat kegagalan deployment Anda akhir-akhir ini meningkat secara signifikan. Anda menangani setiap kegagalan tersebut secara independen. Anda tidak menyadari bahwa kegagalan tersebut berkaitan dengan deployment yang dilakukan oleh karyawan baru yang belum memahami sistem manajemen deployment dengan baik. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan mempelajari pola perilaku, Anda dapat mengenali perilaku yang tidak diharapkan dan melakukan tindakan yang diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Pelajari pola aktivitas yang diharapkan untuk operasi: Tetapkan pola aktivitas operasi untuk mengidentifikasi perilaku yang menyimpang dari nilai yang diharapkan agar Anda dapat memberikan respons yang sesuai jika diperlukan. 

# OPS09-BP06 Memperingatkan saat terdapat risiko pada hasil operasi
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Setiap kali hasil operasi terpapar risiko, sebuah peringatan harus dimunculkan dan ditindaklanjuti. Hasil operasi adalah aktivitas apa pun yang mendukung beban kerja dalam produksi. Ini mencakup semua hal mulai dari deployment versi baru aplikasi hingga pemulihan dari pemadaman. Hasil operasi harus diperlakukan sama pentingnya dengan hasil bisnis. 

Tim perangkat lunak harus mengidentifikasi metrik dan aktivitas operasi utama serta membuat peringatan untuk keduanya. Peringatan harus tepat waktu dan dapat ditindaklanjuti. Jika peringatan dimunculkan, referensi ke runbook atau playbook terkait harus disertakan. Peringatan tanpa tindakan terkait dapat memicu penumpukan peringatan.

 **Hasil yang diinginkan:** Saat aktivitas operasi terpapar risiko, peringatan dikirim untuk mendorong tindakan. Peringatan berisi konteks penyebab peringatan dimunculkan serta mengarah ke playbook untuk menyelidiki atau runbook untuk memitigasi. Jika memungkinkan, runbook diotomatiskan dan pemberitahuan dikirim. 

 **Antipola umum:** 
+ Anda sedang menyelidiki insiden dan kasus dukungan sedang diajukan. Kasus dukungan tersebut melanggar perjanjian tingkat layanan (SLA) tapi tidak ada peringatan yang dimunculkan. 
+ Deployment ke produksi yang dijadwalkan untuk tengah malam tertunda dikarenakan perubahan kode pada menit terakhir. Tidak ada peringatan yang dimunculkan dan deployment pun tertunda.
+ Terjadi penghentian produksi tapi tidak ada peringatan yang dikirim.
+  Waktu deployment Anda terus berjalan di luar perkiraan. Tidak ada tindakan yang diambil untuk menyelidikinya. 

 **Manfaat menjalankan praktik terbaik ini:** 
+  Pemberian peringatan ketika hasil operasi terpapar risiko meningkatkan kemampuan Anda untuk mendukung beban kerja Anda dengan mengantisipasi masalah. 
+  Hasil bisnis meningkat dikarenakan hasil operasi yang sehat. 
+  Deteksi dan perbaikan masalah operasi mengalami perbaikan. 
+  Kesehatan operasional secara keseluruhan mengalami peningkatan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Hasil operasi harus ditetapkan sebelum Anda dapat memperingatkannya. Mulailah dengan menetapkan aktivitas operasi apa yang paling penting bagi organisasi Anda. Apakah yang terpenting adalah deployment ke produksi dalam waktu kurang dari dua jam atau merespons kasus dukungan dalam waktu yang ditentukan? Organisasi Anda harus menetapkan aktivitas operasi utama serta bagaimana aktivitas tersebut diukur agar dapat dipantau, ditingkatkan, dan diperingatkan. Anda memerlukan lokasi sentral di mana telemetri beban kerja dan operasi disimpan dan dianalisis. Mekanisme yang sama harus bisa memunculkan peringatan ketika hasil operasi terpapar risiko. 

 **Contoh pelanggan** 

 Alarm CloudWatch dipicu selama deployment rutin di AnyCompany Retail. Waktu jeda untuk deployment dilanggar. Amazon EventBridge membuat OpsItem di AWS Systems Manager OpsCenter. Tim Operasi Cloud menggunakan playbook untuk menyelidiki masalah dan mengidentifikasi bahwa perubahan skema memerlukan waktu yang lebih lama dari yang diharapkan. Mereka memperingatkan pengembang yang berjaga dan melanjutkan pemantauan deployment. Setelah deployment selesai, tim Operasi Cloud menyelesaikan OpsItem. Tim akan menganalisis insiden selama postmortem. 

## Langkah implementasi
<a name="implementation-steps"></a>

1. Jika Anda belum mengidentifikasi KPI, metrik, dan aktivitas operasi, upayakan implementasi praktik terbaik sebelum pertanyaan ini (OPS09-BP01 sampai OPS09-BP05). 
   +  Pelanggan Dukungan dengan [Enterprise Support](https://aws.amazon.com/premiumsupport/plans/enterprise/) dapat mengajukan permintaan [Lokakarya KPI Operasi](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) dari Manajer Akun Teknis mereka. Lokakarya terkolaborasi ini membantu Anda menetapkan KPI dan metrik operasi selaras dengan tujuan bisnis, yang disediakan tanpa biaya tambahan. Hubungi Manajer Akun Teknis Anda untuk mengetahui lebih lanjut. 

1.  Setelah Anda membangun aktivitas, KPI, dan metrik operasi, konfigurasikan peringatan di platform observabilitas. Peringatan harus memiliki tindakan yang berkaitan, seperti playbook atau runbook. Peringatan tanpa tindakan harus dihindari. 

1.  Seiring waktu, Anda harus mengevaluasi metrik, KPI, dan aktivitas operasi Anda untuk mengidentifikasi area perbaikan. Serap umpan balik di runbook dan playbook dari operator untuk mengidentifikasi area perbaikan dalam merespons peringatan. 

1.  Peringatan harus disertai mekanisme untuk menandainya sebagai positif-palsu. Hal ini harus mengarah pada peninjauan ambang batas metrik. 

 **Tingkat upaya untuk rencana implementasi:** Sedang. Terdapat beberapa praktik terbaik yang harus diterapkan sebelum menerapkan praktik terbaik ini. Setelah aktivitas operasi diidentifikasi dan KPI operasi dibentuk, peringatan harus dibuat. 

## Sumber daya
<a name="resources"></a>

 **Praktik Terbaik Terkait:** 
+  [OPS02-BP03 Aktivitas operasi memiliki pemilik teridentifikasi yang bertanggung jawab atas kinerjanya](ops_ops_model_def_activity_owners.md): Setiap aktivitas dan hasil operasi harus memiliki pemilik yang teridentifikasi yang bertanggung jawab. Pemilik inilah yang harus diperingatkan ketika hasil terpapar risiko. 
+  [OPS03-BP02 Anggota tim diberdayakan untuk bertindak ketika terdapat risiko pada hasil](ops_org_culture_team_emp_take_action.md): Saat peringatan dimunculkan, tim Anda harus memiliki upaya untuk bertindak guna menyelesaikan masalah. 
+  [OPS09-BP01 Mengidentifikasi indikator kinerja utama](ops_operations_health_define_ops_kpis.md): Memperingatkan hasil operasi dimulai dengan mengidentifikasi KPI operasi. 
+  [OPS09-BP02 Tetapkan metrik operasi](ops_operations_health_design_ops_metrics.md): Tetapkan praktik terbaik ini sebelum Anda mulai membuat peringatan. 
+  [OPS09-BP03 Mengumpulkan dan menganalisis metrik operasi](ops_operations_health_collect_analyze_ops_metrics.md): Metrik operasi yang dikumpulkan secara terpusat diperlukan untuk membangun peringatan. 
+  [OPS09-BP04 Membuat dasar acuan metrik operasi](ops_operations_health_ops_metric_baselines.md): Dasar acuan metrik operasi menyediakan kemampuan untuk menyetel peringatan dan menghindari penumpukan peringatan. 
+  [OPS09-BP05 Mempelajari pola aktivitas yang diharapkan untuk operasi](ops_operations_health_learn_ops_usage_patterns.md): Anda dapat meningkatkan akurasi peringatan Anda dengan memahami pola aktivitas untuk peristiwa operasi. 
+  [OPS09-BP08 Memvalidasi capaian hasil dan efektivitas KPI serta metrik](ops_operations_health_biz_level_view_ops.md): Evaluasi pencapaian hasil operasi untuk memastikan bahwa KPI dan metrik Anda valid. 
+  [OPS10-BP02 Menjalankan proses untuk setiap peringatan](ops_event_response_process_per_alert.md): Setiap peringatan harus memiliki runbook atau playbook yang terkait dan menyediakan konteks untuk pihak yang diperingatkan. 
+  [OPS11-BP02 Menjalankan analisis setelah insiden](ops_evolve_ops_perform_rca_process.md): Lakukan analisis pascainsiden setelah peringatan untuk mengidentifikasi area perbaikan. 

 **Dokumen terkait:** 
+  [Arsitektur Referensi Pipeline Deployment AWS: Arsitektur Pipeline Aplikasi](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Mulai Menggunakan Metrik Agile/DevOps](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Video terkait:** 
+  [Lakukan Agregrasi dan Atasi Masalah Operasional Menggunakan AWS Systems Manager OpsCenter](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrasikan AWS Systems Manager OpsCenter dengan Alarm Amazon CloudWatch](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrasikan Sumber Data Anda ke dalam AWS Systems Manager OpsCenter Menggunakan Amazon EventBridge](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Contoh terkait:** 
+  [Otomatiskan tindakan penyelesaian untuk pemberitahuan Amazon EC2 dan selainnya menggunakan Otomatisasi Manajer Sistem Amazon EC2 dan AWS Health](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [Lokakarya Alat Manajemen dan Tata Kelola AWS - Operasi 2022](https://mng.workshop.aws/operations-2022.html) 
+  [Menyerap, menganalisis, dan memvisualisasikan metrik dengan Dasbor Pemantauan DevOps di AWS](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Layanan terkait:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Layanan Proaktif Dukungan - Lokakarya KPI Operasi](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch Events](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Membuat pemberitahuan saat anomali operasi terdeteksi
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Berikan pemberitahuan saat anomali operasi terdeteksi sehingga Anda dapat merespons dengan tepat jika perlu. 

 Analisis Anda terhadap metrik operasi dalam jangka waktu tertentu mungkin telah membentuk pola perilaku yang dapat Anda hitung secara memadai untuk menetapkan peristiwa atau memberikan alarm respons. 

 Setelah dilatih, fitur [fitur Deteksi Anomali CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) dapat digunakan untuk memunculkan [alarm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) tentang anomali yang terdeteksi atau dapat menyediakan nilai yang diperkirakan ke sebuah [grafik](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) data metrik untuk perbandingan berkelanjutan. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) dapat digunakan untuk mengidentifikasi perilaku anomali melalui korelasi peristiwa, analisis log, dan penerapan machine learning, untuk menganalisis telemetri beban kerja Anda. Dengan [yang](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) didapatkan disajikan dengan data dan saran yang relevan. 

 **Antipola umum:** 
+  Anda sedang menerapkan patch ke armada instans Anda. Sebelumnya Anda telah berhasil menguji patch di lingkungan pengujian. Namun, patch tersebut gagal untuk banyak instans di armada Anda. Anda tidak melakukan apa pun. 
+  Anda mencatat terdapat deployment mulai Jumat sore. Organisasi Anda telah menetapkan jadwal pemeliharaan setiap Selasa dan Kamis. Anda tidak melakukan apa pun. 

 **Manfaat menerapkan praktik terbaik ini:** Dengan memahami pola perilaku operasi, Anda dapat mengidentifikasi perilaku menyimpang dan melakukan tindakan yang diperlukan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Rendah 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Buat pemberitahuan saat anomali operasi terdeteksi: Berikan pemberitahuan saat anomali operasi terdeteksi sehingga Anda dapat merespons dengan tepat jika perlu. 
  +  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Membuat alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Memanggil fungsi Lambda menggunakan notifikasi Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [fitur Deteksi Anomali CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Membuat alarm Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Deteksi dan Berikan Reaksi Terhadap Perubahan Status Pipeline dengan Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Memanggil fungsi Lambda menggunakan notifikasi Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Apa itu Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Memvalidasi capaian hasil dan efektivitas KPI serta metrik
<a name="ops_operations_health_biz_level_view_ops"></a>

 Buat tampilan tingkat bisnis mengenai aktivitas operasi Anda untuk membantu menentukan apakah Anda sudah memenuhi kebutuhan dan untuk mengidentifikasi area yang memerlukan perbaikan untuk mencapai tujuan bisnis. Validasikan efektivitas KPI dan metrik, serta lakukan revisi jika diperlukan. 

 AWS juga mendukung alat kecerdasan bisnis dan sistem analisis log pihak ketiga melalui layanan API dan SDK AWS (misalnya, Grafana, Kibana, dan Logstash). 

 **Antipola umum:** 
+  Frekuensi deployment Anda telah meningkat seiring bertambahnya jumlah tim pengembangan. Perkiraan jumlah deployment yang Anda tetapkan adalah satu kali per minggu. Anda telah rutin melakukan deployment harian. Ketika terdapat masalah dalam sistem deployment Anda, dan deployment tidak mungkin berjalan, hal ini tidak terdeteksi selama berhari-hari. 
+  Bisnis Anda sebelumnya menyediakan dukungan hanya selama jam-jam kerja inti dari Senin sampai Jumat. Anda menetapkan target waktu respons hari kerja berikutnya untuk insiden. Baru-baru ini Anda mulai menawarkan cakupan dukungan setiap hari dan setiap saat dengan target waktu respons dua jam. Staf lembut Anda kewalahan dan pelanggan Anda kecewa. Terdapat indikasi adanya masalah terkait waktu respons insiden karena Anda melapor berdasarkan target hari kerja berikutnya. 

 **Manfaat menjalankan praktik terbaik ini:** Dengan meninjau dan merevisi KPI serta metrik, Anda memahami bagaimana beban kerja mendukung pencapaian hasil bisnis Anda dan dapat mengidentifikasi bagian yang memerlukan perbaikan untuk mencapai tujuan bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan:** Rendah 

## Panduan implementasi
<a name="implementation-guidance"></a>
+  Validasikan pencapaian hasil dan efektivitas KPI serta metrik: Buat tampilan tingkat bisnis mengenai aktivitas operasi Anda untuk membantu menentukan apakah Anda telah memenuhi kebutuhan dan untuk mengidentifikasi area yang memerlukan perbaikan untuk mencapai tujuan bisnis. Validasikan efektivitas KPI dan metrik, serta lakukan revisi jika diperlukan. 
  +  [Menggunakan dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Apa itu analitik log?](https://aws.amazon.com/log-analytics/) 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+  [Menggunakan dasbor Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Apa itu analitik log?](https://aws.amazon.com/log-analytics/) 