

# OPS 9. Bagaimana cara memahami kondisi operasi Anda?
<a name="ops-09"></a>

 Tetapkan, catat, dan analisis metrik operasi untuk mendapatkan visibilitas peristiwa operasi sehingga Anda dapat mengambil tindakan yang tepat. 

**Topics**
+ [OPS09-BP01 Mengukur sasaran operasi dan KPI dengan metrik](ops_operations_health_measure_ops_goals_kpis.md)
+ [OPS09-BP02 Mengomunikasikan status dan tren untuk memastikan visibilitas beroperasi](ops_operations_health_communicate_status_trends.md)
+ [OPS09-BP03 Meninjau metrik-metrik operasi dan memprioritaskan perbaikan](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Mengukur sasaran operasi dan KPI dengan metrik
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Dapatkan sasaran dan KPI yang menentukan keberhasilan operasi dari organisasi Anda dan pastikan metrik-metrik tersebut mencerminkan hal ini. Tetapkan garis acuan sebagai titik referensi dan lakukan evaluasi ulang secara rutin. Kembangkan mekanisme untuk mengumpulkan metrik-metrik tersebut dari tim untuk dievaluasi. Metrik [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) menyediakan metode populer untuk mengukur progres penerapan praktik DevOps dalam pengiriman perangkat lunak. 

 **Hasil yang diinginkan:** 
+ Organisasi menerbitkan dan membagikan sasaran dan KPI untuk tim operasi.
+ Anda menetapkan metrik-metrik yang mencerminkan KPI ini. Di antara contohnya adalah:
  +  Kedalaman antrean tiket atau rata-rata umur tiket 
  +  Jumlah tiket yang dikelompokkan berdasarkan jenis masalah 
  +  Waktu yang dihabiskan untuk mengurusi masalah dengan atau tanpa prosedur operasi standar (SOP) 
  +  Jumlah waktu yang dihabiskan untuk pulih dari push kode yang gagal 
  +  Volume panggilan 

 **Anti-pola umum:** 
+  Tenggat waktu deployment tidak terpenuhi karena developer disibukkan dengan tugas-tugas pemecahan masalah. Tim pengembangan menuntut lebih banyak personel, tetapi tidak dapat mengukur berapa orang yang mereka butuhkan karena waktu yang tersita tidak dapat diukur. 
+  Meja Tingkat 1 disiapkan untuk menangani panggilan pengguna. Seiring waktu, makin banyak beban kerja yang ditambahkan, tetapi tidak ada personel yang dialokasikan ke meja Tingkat 1 tersebut. Kepuasan pelanggan sangat rendah karena waktu panggilan semakin meningkat dan masalah berlarut-larut tanpa penyelesaian, tetapi manajemen tidak melihat indikator permasalahan ini, sehingga tidak ada tindakan yang dilakukan. 
+  Beban kerja yang bermasalah diserahkan kepada tim operasi terpisah untuk dilakukan pemeliharaan. Tidak seperti beban kerja lainnya, beban kerja tersebut tidak dilengkapi dengan dokumentasi dan runbook yang baik. Akibatnya, tim menghabiskan waktu lebih lama untuk memecahkan masalah dan mengurusi kegagalan. Namun demikian, tidak ada metrik yang mendokumentasikan hal ini, sehingga akuntabilitas menjadi sulit. 

 **Manfaat menjalankan praktik terbaik ini:** Ketika pemantauan beban kerja menunjukkan status aplikasi dan layanan kita, tim operasi pemantauan memberi pemilik wawasan tentang perubahan yang terjadi di antara para pemakai beban kerja tersebut, misalnya perubahan-perubahan kebutuhan bisnis. Ukur efektivitas tim-tim tersebut dan evaluasi mereka berdasarkan sasaran bisnis dengan membuat metrik-metrik yang dapat mencerminkan status operasi. Metrik dapat menyoroti masalah dukungan atau mengidentifikasi penyimpangan ketika terjadi pergeseran dari target tingkat layanan. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

Jadwalkan waktu dengan para pemimpin bisnis dan pemangku kepentingan untuk menentukan apa sasaran layanan secara keseluruhan. Tentukan tugas apa saja yang seharusnya dijalankan oleh berbagai tim operasi dan tantangan apa yang dapat mereka tangani. Dengan menggunakan hal ini, lakukan curah pendapat tentang indikator kinerja utama (KPI) yang mungkin mencerminkan semua sasaran operasi ini. Indikator tersebut mungkin berupa kepuasan pelanggan, waktu dari konsepsi fitur hingga deployment, waktu penyelesaian masalah rata-rata, atau efisiensi biaya.

 Berpatokan pada KPI, identifikasi metrik dan sumber data yang mungkin paling mencerminkan semua sasaran ini. Kepuasan pelanggan dapat berupa kombinasi dari berbagai metrik seperti waktu tunggu atau respons panggilan, skor kepuasan, dan jenis-jenis masalah yang disampaikan. Waktu deployment mungkin merupakan jumlah waktu yang diperlukan untuk pengujian dan deployment, serta perbaikan pasca-deployment yang perlu ditambahkan. Statistik yang menunjukkan waktu yang dihabiskan untuk berbagai jenis masalah (atau jumlah masalah tersebut) dapat memberikan wawasan tentang bagian-bagian yang memerlukan upaya tertarget. 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+ [ Quick - Menggunakan KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch - Menggunakan Metrik ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Membangun Dasbor ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Cara melacak KPI pengoptimalan biaya Anda dengan Dasbor KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [Panduan DevOps AWS](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Contoh terkait:** 
+ [ Memantau kinerja pengiriman perangkat lunak Anda menggunakan alat pemantauan dan observabilitas bawaan AWS](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [ Menyeimbangkan kecepatan dan stabilitas deployment dengan metrik DORA ](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [ Contoh metrik operasional MLOps dalam industri jasa keuangan ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ Cara melacak KPI optimalisasi biaya Anda dengan Dasbor KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Mengomunikasikan status dan tren untuk memastikan visibilitas beroperasi
<a name="ops_operations_health_communicate_status_trends"></a>

 Anda perlu mengetahui keadaan operasi Anda dan arah trennya untuk mengidentifikasi kapan hasil mungkin berisiko, apakah pekerjaan tambahan dapat didukung, atau mengidentifikasi efek perubahan terhadap tim Anda. Selama peristiwa operasi, halaman status yang dapat dijadikan acuan oleh para pengguna dan tim operasi untuk mendapatkan informasi dapat mengurangi tekanan pada saluran komunikasi dan menyebarkan informasi secara proaktif. 

 **Hasil yang diinginkan:** 
+  Pimpinan operasi memiliki wawasan sekilas untuk melihat volume panggilan seperti apa yang sedang dioperasikan oleh tim mereka dan upaya apa yang mungkin sedang dilakukan, seperti deployment. 
+  Peringatan disebarkan kepada para pemangku kepentingan dan komunitas pengguna ketika terjadi dampak terhadap operasi normal. 
+  Pimpinan dan pemangku kepentingan organisasi dapat memeriksa halaman status sebagai respons terhadap peringatan atau dampak, dan memperoleh informasi seputar peristiwa operasional yang terjadi, seperti titik kontak, informasi tiket, dan perkiraan waktu pemulihan. 
+  Laporan tersedia bagi para pimpinan dan pemangku kepentingan lainnya untuk menunjukkan statistik operasi seperti volume panggilan selama periode waktu tertentu, skor kepuasan pengguna, jumlah tiket tertunda, dan usia mereka. 

 **Anti-pola umum:** 
+  Terdapat beban kerja yang tidak aktif, sehingga sebuah layanan menjadi tidak tersedia. Volume panggilan melonjak karena para pengguna ingin mengetahui apa yang terjadi. Manajer menambah volume tersebut dengan permintaan informasinya tentang siapa yang mengurusi masalah. Berbagai tim operasi melipatgandakan upaya untuk melakukan penyelidikan. 
+  Keinginan untuk kemampuan baru menyebabkan beberapa personel dialihkan ke upaya rekayasa. Tidak ada pengisian ulang (backfill) yang disediakan, dan waktu penyelesaian masalah semakin lama. Informasi ini tidak direkam, dan pimpinan baru menyadari hal ini setelah beberapa minggu dan pengguna menyampaikan ketidakpuasan. 

 **Manfaat menjalankan praktik terbaik ini:** Selama peristiwa operasional yang berdampak pada bisnis, banyak waktu dan tenaga yang bisa terbuang untuk meminta informasi dari berbagai tim yang sedang berusaha memahami situasinya. Dengan membuat halaman status dan dasbor yang disebarluaskan, para pemangku kepentingan dapat dengan cepat memperoleh informasi mengenai hal-hal seperti apakah ada masalah yang sudah terdeteksi, siapa yang memimpin penanganan masalah tersebut, atau kapan operasi diperkirakan akan kembali normal. Dengan begitu, anggota tim terhindar dari membuang-buang waktu untuk mengomunikasikan status kepada orang lain dan lebih bisa berkonsentrasi untuk menangani masalah. 

 Selain itu, dasbor dan laporan dapat memberikan wawasan kepada para pembuat keputusan dan pemangku kepentingan untuk melihat bagaimana tim operasi dapat menanggapi kebutuhan bisnis dan bagaimana sumber daya mereka dialokasikan. Hal ini sangat penting untuk menentukan apakah sumber daya yang memadai tersedia untuk mendukung bisnis. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Buatlah dasbor yang menunjukkan metrik-metrik utama saat ini untuk tim operasi Anda, dan buat dasbor tersebut mudah diakses oleh para pemimpin operasi serta manajemen. 

 Buat halaman status yang dapat diperbarui dengan cepat untuk menunjukkan apabila insiden atau peristiwa sedang berlangsung, yang mencantumkan siapa yang bertanggung jawab, dan siapa yang mengoordinasikan respons. Bagikan langkah atau solusi apa pun yang harus dipertimbangkan oleh para pengguna di halaman ini, dan sebarkan luaskan lokasinya. Imbau para pengguna untuk memeriksa lokasi ini terlebih dahulu ketika mereka dihadapkan dengan masalah yang tidak diketahui. 

 Kumpulkan dan sediakan laporan yang menunjukkan kondisi operasi dari waktu ke waktu, dan distribusikan hal ini kepada para pimpinan dan pengambil keputusan untuk menggambarkan pekerjaan operasi beserta tantangan dan kebutuhan. 

 Bagikan kepada tim metrik dan laporan yang paling mencerminkan sasaran dan KPI dan bagian yang paling menerima pengaruhnya dalam mendorong perubahan. Luangkan waktu khusus untuk aktivitas ini untuk meningkatkan pentingnya operasi di dalam tim dan antar-tim. 

 Gunakan [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) bersama dasbor Anda sendiri, atau integrasikan peristiwa AWS Health ke dalamnya, sehingga tim Anda dapat mengorelasikan masalah aplikasi dengan status layanan AWS. 

## Sumber daya
<a name="resources"></a>

 **Praktik-praktik terbaik terkait:** 
+ [ OPS09-BP01 Mengukur sasaran operasi dan KPI dengan metrik ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Dokumen terkait:** 
+ [ Mengukur Kemajuan ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [ Membangun dasbor untuk visibilitas operasi ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Contoh terkait:** 
+ [ Operasi Data ](https://aws.amazon.com/solutions/app-development/data-operations)
+ [ Cara melacak KPI pengoptimalan biaya Anda dengan Dasbor KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [ Pentingnya Indikator Kinerja Utama (KPI) untuk Migrasi Cloud Skala Besar ](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Meninjau metrik-metrik operasi dan memprioritaskan perbaikan
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Menyisihkan waktu dan sumber daya khusus untuk meninjau keadaan operasi memastikan bahwa pelayanan lini bisnis sehari-hari tetap menjadi prioritas. Kumpulkan para pemimpin operasi dan pemangku kepentingan untuk secara rutin meninjau metrik, menegaskan kembali atau memodifikasi sasaran dan tujuan, dan memprioritaskan perbaikan. 

 **Hasil yang diinginkan:** 
+  Para pemimpin operasi dan staf secara rutin bertemu untuk meninjau metrik selama periode pelaporan tertentu. Tantangan dikomunikasikan, keberhasilan dirayakan, dan pelajaran yang dipetik dibagikan. 
+  Para pemangku kepentingan dan pemimpin bisnis secara rutin diberi pengarahan tentang keadaan operasi dan diminta untuk memberikan masukan mengenai sasaran, KPI, dan inisiatif masa depan. Kompromi antara pemberian layanan, operasi, dan pemeliharaan dibahas dan dimasukkan ke dalam konteks. 

 **Anti-pola umum:** 
+  Sebuah produk baru diluncurkan, tetapi tim operasi Tingkat 1 dan Tingkat 2 tidak mendapatkan pelatihan yang memadai untuk mendukung atau tidak mendapatkan staf tambahan. Metrik-metrik yang menunjukkan penurunan waktu resolusi tiket dan peningkatan volume insiden tidak terlihat oleh para pimpinan. Tindakan diambil beberapa minggu kemudian ketika jumlah langganan mulai turun karena para pengguna yang tidak puas dan beralih ke platform lain. 
+  Proses manual untuk melakukan pemeliharaan pada beban kerja telah berlangsung sejak lama. Meskipun sudah ada keinginan untuk melakukan otomatisasi, prioritas yang diberikan rendah mengingat rendahnya nilai penting sistem. Namun seiring waktu, sistem menjadi semakin penting dan sekarang proses manual ini menyita sebagian besar waktu operasional. Tidak ada sumber daya yang dijadwalkan untuk menyediakan peningkatan peralatan untuk operasi, sehingga menyebabkan kelelahan pada staf saat terjadi peningkatan beban kerja. Para pimpinan menyadari hal ini setelah ada laporan bahwa para staf beralih ke kompetitor. 

 **Manfaat menerapkan praktik terbaik ini:** Beberapa organisasi mengalami kesulitan untuk mengalokasikan waktu dan perhatian yang sama untuk pemberian layanan dan produk atau penawaran baru. Ketika masalah ini terjadi, lini bisnis dapat mengalami hal buruk karena tingkat layanan yang diharapkan perlahan-lahan memburuk. Alasannya adalah karena operasi tidak berubah dan berkembang sesuai dengan perkembangan bisnis, dan bisa segera tertinggal. Tanpa melakukan peninjauan rutin terhadap wawasan yang dikumpulkan oleh operasi, risiko terhadap bisnis mungkin baru terlihat ketika semua sudah terlambat. Dengan pengalokasian waktu untuk meninjau metrik dan prosedur, baik di antara staf operasi maupun dengan pimpinan, peran penting yang dimiliki oleh operasi akan terus dapat dilihat, dan risiko dapat diidentifikasi jauh sebelum mencapai tingkat kritis. Tim operasi mendapatkan wawasan yang lebih baik tentang perubahan dan inisiatif bisnis yang akan datang, sehingga upaya-upaya proaktif dapat dilakukan. Visibilitas para pimpinan ke dalam metrik-metrik operasi menunjukkan peran penting yang dimiliki oleh tim operasional dalam hal kepuasan pelanggan, baik internal maupun eksternal, dan memungkinkan mereka mempertimbangkan pilihan prioritas dengan lebih baik, atau memastikan bahwa operasional memiliki waktu dan sumber daya untuk berubah dan berkembang seiring munculnya inisiatif bisnis dan beban kerja baru. 

 **Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan:** Sedang 

## Panduan implementasi
<a name="implementation-guidance"></a>

 Luangkan waktu khusus untuk meninjau metrik-metrik operasi antara para pemangku kepentingan dan tim operasional dan meninjau data laporan. Pertimbangkan laporan-laporan berdasarkan tujuan dan sasaran organisasi untuk menentukan apakah semuanya terpenuhi. Identifikasi sumber-sumber ambiguitas yang membuat sasaran menjadi tidak jelas, atau di mana mungkin ada ketidaksesuaian antara apa yang diminta dan apa yang diberikan. 

 Identifikasi di mana waktu, personel, dan alat dapat membantu mencapai hasil operasi yang diharapkan. Tentukan KPI mana yang akan menerima dampaknya dan target kesuksesan apa yang harus dimiliki. Lakukan peninjauan ulang secara rutin untuk memastikan operasi memiliki sumber daya yang memadai untuk mendukung lini bisnis. 

## Sumber daya
<a name="resources"></a>

 **Dokumen terkait:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [ Referensi metrik dan dimensi Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick ](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [ Mengumpulkan metrik dan log dari server instans Amazon EC2 dan server on-premise dengan Agen Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [ Menggunakan metrik Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)