

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Menghasilkan laporan insiden
<a name="Investigations-Incident-Reports"></a>

Laporan insiden membantu Anda lebih cepat dan mudah menulis laporan tentang investigasi insiden Anda. Anda dapat menggunakan laporan ini untuk memberikan rincian kepada manajemen atau untuk membantu tim Anda belajar dari insiden tersebut dan mengambil tindakan untuk mencegah kejadian tersebut di masa mendatang. Struktur laporan didasarkan pada standar industri untuk jenis laporan ini dan dapat disalin ke repositori lain untuk retensi jangka panjang.

Ketika Anda menggunakan Konsol Manajemen AWS untuk membuat *investigation group* sumber daya dalam CloudWatch investigasi, peran IAM dibuat untuk grup untuk memberikan akses ke sumber daya selama penyelidikan. Membuat laporan insiden CloudWatch investigasi memerlukan izin tambahan yang diberikan kepada grup investigasi Anda. Kebijakan terkelola baru `AIOpsAssistantIncidentReportPolicy` memberikan izin yang diperlukan dan secara otomatis ditambahkan ke grup investigasi yang dibuat menggunakan Konsol Manajemen AWS setelah 10 Oktober 2025. Untuk informasi selengkapnya, lihat [AIOpsAssistantIncidentReportPolicy](managed-policies-cloudwatch.md#managed-policies-QInvestigations-AIOpsAssistantIncidentReportPolicy).

**catatan**  
Jika Anda menggunakan CDK atau SDK, Anda harus menambahkan peran grup investigasi secara eksplisit dan menentukan kebijakan peran atau izin sebaris yang setara pada peran tersebut. Untuk detail selengkapnya tentang izin, lihat [Keamanan dalam CloudWatch investigasi](Investigations-Security.md) 

Laporan ini menangkap temuan investigasi, akar penyebab, peristiwa timeline, dan tindakan korektif yang direkomendasikan dalam format terstruktur yang dapat dengan mudah dibagikan dengan pemangku kepentingan dan digunakan untuk pembelajaran organisasi.

Pembuatan laporan insiden disertakan tanpa biaya tambahan untuk semua pengguna CloudWatch investigasi dan terintegrasi secara mulus dengan alur kerja investigasi Anda.

**Bagaimana laporan insiden bekerja**

1. Jalankan penyelidikan atas insiden Anda.

1. Terima setidaknya satu hipotesis. Setiap hipotesis yang Anda terima dipertimbangkan untuk laporan. Hipotesis tidak harus 100% akurat.

1. Pilih **Laporan insiden**. Selama penyelidikan, AI mengurai data yang dikumpulkan untuk penyelidikan Anda dan fakta-fakta turunan. Fakta adalah potongan atom informasi tentang insiden Anda yang membentuk dasar untuk menghasilkan laporan. Ekstraksi fakta bisa memakan waktu beberapa menit.

1. Ketika ekstraksi fakta selesai, Anda dapat meninjau fakta-fakta yang tersedia di bidang-bidang berikut:

   1. **Tinjauan Insiden** — Tinjauan tingkat tinggi dari insiden termasuk tingkat keparahan, durasi, dan hipotesis operasionalnya.

   1. **Penilaian Dampak** — Metrik dan analisis yang terkait dengan dampak insiden pada pelanggan, fungsi layanan, dan operasi bisnis.

   1. **Deteksi dan Respons** — Metrik dan analisis yang terkait dengan bagaimana dan kapan insiden itu terdeteksi dan bagaimana Anda menanggapi insiden tersebut.

   1. **Analisis Akar Penyebab** — Analisis rinci penyebab yang mendasari berdasarkan hipotesis investigasi.

   1. **Mitigasi dan Resolusi** — Metrik dan analisis yang terkait dengan langkah-langkah mitigasi dan langkah-langkah resolusi, bersama dengan pengukuran waktu untuk mitigasi dan resolusi insiden.

   1. **Learning and Next Steps** — Daftar tindakan yang direkomendasikan untuk dipertimbangkan oleh tim Anda, yang secara otomatis dihasilkan dari temuan investigasi. Rekomendasi ini dapat mencakup tindakan pencegahan terhadap insiden serupa, serta perbaikan yang disarankan untuk proses pemantauan dan respons Anda.

1. Setelah meninjau fakta, pilih **Hasilkan laporan** untuk membuat analisis komprehensif insiden tersebut. Sementara fakta-fakta yang dipilih berfungsi sebagai titik referensi utama, laporan tersebut diambil dari semua informasi yang tersedia yang dikumpulkan selama penyelidikan. Proses ini dapat menghabiskan waktu beberapa menit.

1. Setelah membuat laporan, Anda kemudian dapat:
   + Gunakan laporan seperti:
     + Salin untuk mengedit di editor eksternal Anda jika diperlukan
     + Simpan untuk referensi nanti
   + Tingkatkan laporan dengan menambahkan lebih banyak data:
     + Pilih **Tambahkan fakta** (metode yang disarankan) untuk memasukkan konten berbasis teks tambahan seperti tiket insiden atau narasi khusus. AI akan menganalisis konten ini untuk menambah fakta yang ada atau menyimpulkan yang baru.
     + Edit fakta secara langsung (gunakan hemat) - Fakta yang diedit secara manual dapat menciptakan ketidakkonsistenan dengan garis waktu investigasi. Ini harus digunakan hanya sebagai upaya terakhir ketika **Tambahkan fakta** tidak mencapai hasil yang diinginkan.
   + Pilih **Regenerate report** untuk menghasilkan laporan baru menggunakan informasi yang diperbarui.

**Topics**
+ [Memahami fakta yang diturunkan dari AI dalam laporan insiden](Investigations-IncidentReports-ai-facts.md)
+ [Terminologi laporan insiden](Investigations-IncidentReports-terms.md)
+ [Menghasilkan laporan dari investigasi](Investigations-IncidentReports-Generate.md)
+ [Menggunakan analisis 5 Mengapa dalam laporan insiden](incident-report-5whys.md)

# Memahami fakta yang diturunkan dari AI dalam laporan insiden
<a name="Investigations-IncidentReports-ai-facts"></a>

Fakta yang diturunkan dari AI membentuk dasar laporan insiden CloudWatch investigasi, mewakili informasi yang dianggap oleh sistem AI secara objektif benar atau sangat mungkin berdasarkan analisis komprehensif lingkungan Anda. AWS Fakta-fakta ini muncul melalui proses canggih yang menggabungkan pengenalan pola pembelajaran mesin dengan metode verifikasi sistematis, menciptakan kerangka kerja yang kuat untuk analisis insiden yang mempertahankan ketelitian operasional yang diperlukan untuk lingkungan produksi.

Memahami bagaimana fakta turunan AI dikembangkan membantu Anda mengevaluasi keandalannya dan membuat keputusan berdasarkan informasi selama respons insiden. Proses ini merupakan pendekatan hibrida di mana kecerdasan buatan menambah keahlian manusia daripada menggantinya, memastikan bahwa wawasan yang dihasilkan komprehensif dan dapat dipercaya.

## Proses pengembangan fakta yang diturunkan dari AI
<a name="Investigations-ai-facts-development"></a>

Perjalanan dari data telemetri mentah ke fakta turunan AI yang dapat ditindaklanjuti dimulai dengan pengamatan pola, di mana CloudWatch penyelidikan AI menganalisis sejumlah besar telemetri menggunakan algoritma pembelajaran mesin yang canggih. AWS AI memeriksa CloudWatch metrik, log, dan jejak Anda di berbagai dimensi secara bersamaan, mengidentifikasi pola dan hubungan berulang yang mungkin tidak segera terlihat oleh operator manusia. Analisis mencakup pola temporal yang mengungkapkan kapan insiden biasanya terjadi dan karakteristik durasinya, korelasi layanan yang menunjukkan bagaimana layanan yang berbeda AWS berinteraksi selama skenario kegagalan, anomali metrik yang mendahului atau menyertai insiden, dan urutan peristiwa log yang menunjukkan mode kegagalan tertentu.

Pertimbangkan, misalnya, bagaimana AI dapat mengamati bahwa di lingkungan Anda, pemanfaatan CPU instans Amazon EC2 secara konsisten melonjak hingga di atas 90% sekitar 15 menit sebelum waktu respons aplikasi melebihi ambang batas yang dapat diterima. Hubungan temporal ini, ketika diamati di beberapa insiden, menjadi pola signifikan yang layak untuk diselidiki lebih lanjut. AI tidak hanya mencatat korelasi; itu mengukur signifikansi statistik dari hubungan dan mempertimbangkan berbagai faktor perancu yang mungkin mempengaruhi pola.

Dari pola yang diamati ini, AI bergerak ke generasi hipotesis, merumuskan penjelasan potensial untuk hubungan yang telah ditemukannya. Proses ini melibatkan pembuatan beberapa hipotesis yang bersaing dan memeringkatnya berdasarkan probabilitas berdasarkan kekuatan bukti pendukung. Ketika AI mengamati bahwa lonjakan CPU mendahului degradasi waktu respons, itu mungkin menghasilkan beberapa hipotesis: kelelahan sumber daya karena kapasitas komputasi yang tidak mencukupi, kebocoran memori yang menyebabkan peningkatan overhead CPU, atau algoritme yang tidak efisien yang dipicu oleh pola input tertentu. Setiap hipotesis menerima tingkat kepercayaan awal berdasarkan seberapa baik ia menjelaskan data yang diamati dan selaras dengan perilaku AWS layanan yang diketahui.

Verifikasi manusia dan validasi hipotesis ini memastikan bahwa wawasan yang dihasilkan AI ini memenuhi standar operasional sebelum menjadi fakta dalam laporan insiden Anda. Proses ini melibatkan korelasi pola turunan AI dengan model perilaku AWS layanan yang sudah mapan, memeriksa konsistensi dengan praktik terbaik industri untuk respons insiden, dan memvalidasi data insiden historis dari lingkungan serupa. AI harus menunjukkan bahwa temuannya dapat direproduksi di berbagai metode analisis dan periode waktu, memenuhi persyaratan signifikansi statistik untuk pengambilan keputusan operasional, selaras dengan pengamatan empiris perilaku AWS layanan, dan memberikan wawasan yang dapat ditindaklanjuti untuk resolusi atau pencegahan insiden.

Selama proses ini, AI menghadapi beberapa tantangan inheren yang harus Anda pahami saat menafsirkan fakta yang diturunkan dari AI. Perbedaan antara korelasi dan sebab-akibat tetap menjadi tantangan mendasar; sementara AI mungkin mengidentifikasi korelasi yang kuat antara lonjakan lalu lintas jaringan dan kejadian insiden, membangun sebab-akibat langsung memerlukan penyelidikan tambahan dan keahlian domain. Variabel tersembunyi yang ada di luar lingkup AWS telemetri, seperti dependensi layanan pihak ketiga atau masalah penyedia jaringan eksternal, dapat memengaruhi insiden tanpa ditangkap dalam analisis AI. Kualitas fakta turunan AI sepenuhnya bergantung pada kelengkapan dan keakuratan CloudWatch data yang mendasarinya, membuat cakupan pemantauan komprehensif penting untuk wawasan yang andal.

Pola insiden baru menghadirkan tantangan lain, karena tidak ada dalam data pelatihan AI, dan AIs sering berjuang untuk menafsirkan mode kegagalan yang tidak dikenal. Keterbatasan ini menggarisbawahi pentingnya keahlian manusia dalam menafsirkan fakta yang diturunkan dari AI dan melengkapinya dengan pengetahuan domain dan pemahaman kontekstual.

## Menerapkan fakta turunan AI dalam respons insiden
<a name="Investigations-ai-facts-practical-application"></a>

AI unggul dalam mengidentifikasi pola di seluruh kumpulan data besar yang tidak praktis bagi manusia untuk menganalisis secara manual, memberikan wawasan yang secara signifikan dapat mempercepat diagnosis dan resolusi insiden. AI bekerja paling baik bila dikombinasikan dengan keahlian manusia yang dapat memberikan konteks, memvalidasi kesimpulan, dan mengidentifikasi faktor-faktor yang mungkin tidak ditangkap dalam data telemetri.

Pendekatan yang paling efektif melibatkan memperlakukan fakta yang diturunkan dari AI sebagai titik awal yang sangat terinformasi untuk penyelidikan daripada kesimpulan definitif. Ketika AI mengidentifikasi fakta seperti “Kelelahan kumpulan koneksi basis data mendahului insiden selama 8 menit,” ini memberikan petunjuk berharga yang dapat dengan cepat diverifikasi melalui analisis metrik basis data dan log aplikasi yang ditargetkan. Fakta ini memberi Anda jangka waktu tertentu dan akar penyebab potensial untuk diselidiki, secara dramatis mengurangi waktu yang diperlukan untuk mengidentifikasi masalah dibandingkan dengan mencari secara manual melalui semua telemetri yang tersedia.

Kualitas data memainkan peran penting dalam keandalan fakta yang diturunkan dari AI. Cakupan CloudWatch pemantauan yang komprehensif menyediakan akses AI ke informasi yang lengkap dan akurat untuk analisis. Kesenjangan dalam pemantauan dapat menyebabkan fakta yang tidak lengkap atau menyesatkan, karena AI hanya dapat bekerja dengan data yang tersedia untuknya. Organizations yang menggunakan praktik observabilitas menyeluruh yang mencakup pengumpulan metrik terperinci, pencatatan komprehensif, dan penelusuran terdistribusi lebih cenderung memiliki fakta turunan AI yang akurat dan dapat ditindaklanjuti dalam laporan insiden mereka.

# Terminologi laporan insiden
<a name="Investigations-IncidentReports-terms"></a>

Istilah berikut digunakan dalam laporan insiden CloudWatch investigasi:

Fakta yang diturunkan dari AI  
Sepotong informasi atau pengamatan yang dianggap sistem AI benar secara objektif atau sangat mungkin berdasarkan data, telemetri, log, dan pola historis yang tersedia dalam layanan. AWS Fakta-fakta ini diturunkan melalui analisis algoritmik dan model pembelajaran mesin, dan sementara mereka diperlakukan sebagai dapat diandalkan oleh sistem, mereka harus tunduk pada verifikasi manusia, terutama dalam konteks pengambilan keputusan kritis. Fakta yang diturunkan dari AI dapat mencakup korelasi antara peristiwa, deteksi anomali, atau kesimpulan tentang perilaku sistem yang mungkin tidak segera terlihat oleh operator manusia.

Tindakan korektif  
Langkah-langkah spesifik dan dapat ditindaklanjuti yang direkomendasikan oleh CloudWatch investigasi untuk mengatasi akar penyebab insiden dan mencegah terulangnya, berdasarkan praktik AWS terbaik dan konteks spesifik dari sumber daya yang terkena dampak.

Kategori fakta  
Pengelompokan terstruktur informasi terkait insiden, seperti metrik dampak, detail deteksi, dan langkah mitigasi, digunakan untuk mengatur data untuk pembuatan laporan.

Penilaian dampak  
Evaluasi kuantitatif dan kualitatif dari efek insiden pada kinerja sistem, pengalaman pengguna, dan operasi bisnis, yang berasal dari CloudWatch metrik dan data AWS layanan lainnya yang ditambahkan ke penyelidikan.

Pembuatan laporan insiden  
Proses otomatis yang membuat dokumentasi komprehensif tentang insiden operasional, termasuk garis waktu, dampak, akar penyebab, dan langkah penyelesaiannya, berdasarkan data yang dikumpulkan selama CloudWatch penyelidikan investigasi.

Umpan Investigasi  
Tampilan kronologis dari pengamatan yang diterima, hipotesis, dan catatan yang ditambahkan pengguna dalam penyelidikan CloudWatch investigasi, berfungsi sebagai catatan utama kemajuan dan temuan investigasi.

Pelajaran yang dipetik  
Wawasan yang dihasilkan secara otomatis dan peluang peningkatan yang diidentifikasi melalui proses investigasi insiden, yang bertujuan untuk meningkatkan keandalan sistem, efisiensi operasional, dan kemampuan respons insiden di seluruh organisasi.

Laporan penilaian  
Evaluasi otomatis dari laporan insiden yang dihasilkan, mengidentifikasi potensi kesenjangan data atau area yang membutuhkan informasi tambahan untuk meningkatkan kelengkapan dan kualitas laporan.

Analisis akar penyebab  
Proses sistematis untuk mengidentifikasi alasan mendasar untuk masalah operasional, memanfaatkan CloudWatch investigasi hipotesis dan korelasi berbasis AI di berbagai layanan. AWS 

Tab saran  
Fitur dalam CloudWatch investigasi yang menyajikan pengamatan dan hipotesis yang dihasilkan AI tentang penyebab potensial atau masalah terkait, berdasarkan analisis telemetri sistem dan log.

Acara timeline  
Urutan kronologis kejadian signifikan selama insiden, secara otomatis diekstraksi dari CloudWatch log, metrik, dan data AWS layanan lainnya untuk memberikan gambaran yang jelas tentang perkembangan insiden.

# Menghasilkan laporan dari investigasi
<a name="Investigations-IncidentReports-Generate"></a>

Anda dapat menghasilkan laporan insiden dari investigasi yang sedang berlangsung atau selesai. Laporan insiden yang dihasilkan di awal penyelidikan mungkin tidak mencakup fakta-fakta kunci seperti akar penyebab dan tindakan yang direkomendasikan. Ketika investigasi aktif, Anda dapat mengedit fakta yang tersedia untuk melengkapi penyelidikan dengan informasi tambahan. Setelah investigasi berakhir, Anda tidak dapat mengedit atau menambahkan fakta ke penyelidikan.

**Prasyarat**

Sebelum membuat insiden, konfirmasikan persyaratan berikut terpenuhi:
+ Pastikan kelompok investigasi menggunakan kunci KMS yang diperlukan dan memiliki kebijakan IAM yang sesuai yang melekat pada perannya untuk mendekripsi data dari layanan. AWS Jika AWS sumber daya Anda dienkripsi dengan kunci KMS yang dikelola pelanggan, Anda harus menambahkan pernyataan kebijakan IAM ke peran grup investigasi untuk memberikan Investigasi izin yang diperlukan untuk mendekripsi CloudWatch dan mengakses data ini.
+ Peran grup investigasi telah diberikan izin berikut:
  + `aiops:GetInvestigation`
  + `aiops:ListInvestigationEvents`
  + `aiops:GetInvestigationEvent`
  + `aiops:PutFact`
  + `aiops:UpdateReport`
  + `aiops:CreateReport`
  + `aiops:GetReport`
  + `aiops:ListFacts`
  + `aiops:GetFact`
  + `aiops:GetFactVersions`
**catatan**  
Anda dapat menambahkan izin ini sebagai kebijakan sebaris ke peran grup investigasi, atau melampirkan kebijakan izin tambahan ke peran grup investigasi. Untuk informasi selengkapnya, lihat [Izin untuk pembuatan laporan insiden](Investigations-Security.md#Investigations-Security-IAM-IRG).  
Kebijakan terkelola baru `AIOpsAssistantIncidentReportPolicy` memberikan izin yang diperlukan dan secara otomatis ditambahkan ke grup investigasi yang dibuat setelah 10 Oktober 2025. Untuk informasi selengkapnya, lihat [AIOpsAssistantIncidentReportPolicy](managed-policies-cloudwatch.md#managed-policies-QInvestigations-AIOpsAssistantIncidentReportPolicy).

**Untuk menghasilkan laporan insiden**

1. Buka CloudWatch konsol di [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/).

1. Di panel navigasi kiri, pilih **Operasi AI**, **Investigasi**.

1. Pilih nama investigasi.

1. Pada halaman investigasi, di bawah **Feed** menerima hipotesis tambahan yang relevan dan menambahkan catatan tambahan apa pun ke penyelidikan.
**catatan**  
Pembuatan laporan membutuhkan penyelidikan dengan setidaknya satu hipotesis yang diterima.

1. Di bagian atas halaman investigasi, pilih **Laporan insiden**. Tunggu sementara fakta-fakta yang relevan dari investigasi dikumpulkan dan disinkronkan.

1. Pada halaman **Laporan Insiden**, tinjau fakta yang digunakan untuk menghasilkan laporan. Fakta tersedia di panel kanan. Arahkan melalui tab kategori fakta menggunakan panah kiri dan kanan, atau perluas panel untuk melihat semua kategori.

   1. Pilih **Edit** pada panel fakta untuk menambahkan atau mengedit data dalam kategori tersebut secara manual.

   1. Pilih **Lihat detail** pada panel fakta untuk melihat bukti pendukung dan riwayat fakta yang dikumpulkan oleh asisten AI. Anda juga dapat memilih **Edit** dalam jendela detail fakta.

   1. Pilih **Tambahkan fakta** jika Anda ingin memberikan konteks tambahan untuk penyelidikan, seperti peristiwa eksternal atau keadaan yang meringankan.

1. Pilih **Hasilkan laporan**.

   CloudWatch Investigasi akan menganalisis data investigasi dan menghasilkan laporan terstruktur. Proses ini mungkin memakan waktu.

1. Tinjau laporan yang dihasilkan di panel pratinjau. Laporan tersebut akan mencakup:
   + Peristiwa timeline yang diekstraksi secara otomatis
   + Analisis akar penyebab berdasarkan hipotesis yang diterima
   + Penilaian dampak berasal dari telemetri investigasi
   + Tindakan korektif yang direkomendasikan dan pelajaran yang dipetik mengikuti praktik AWS terbaik

1. Untuk menyimpan salinan laporan di lokasi yang berbeda, Anda dapat memilih untuk menyalin teks laporan dan menempelkannya ke lokasi yang Anda inginkan.

1. Pilih **Laporan penilaian** untuk meninjau daftar kesenjangan data dalam laporan. Anda dapat menggunakan informasi ini untuk mengumpulkan data tambahan untuk laporan dan kemudian memperbarui fakta yang sesuai dan membuat ulang laporan.

# Menggunakan analisis 5 Mengapa dalam laporan insiden
<a name="incident-report-5whys"></a>

Saat menghasilkan laporan insiden, CloudWatch investigasi dapat melakukan analisis akar penyebab 5 Mengapa untuk secara sistematis mengidentifikasi penyebab yang mendasari masalah operasional. Pendekatan terstruktur ini meningkatkan laporan insiden Anda dengan wawasan yang lebih dalam dan langkah-langkah remediasi yang dapat ditindaklanjuti.

Fitur ini menggunakan Amazon Q untuk menyediakan obrolan percakapan. Pengguna yang masuk ke Konsol Manajemen AWS harus memiliki izin berikut:

```
{ 
    "Sid" : "AmazonQAccess",
    "Effect" : "Allow",
    "Action" : [
       "q:StartConversation", 
       "q:SendMessage", 
       "q:GetConversation", 
       "q:ListConversations", 
       "q:UpdateConversation", 
       "q:DeleteConversation", 
       "q:PassRequest" 
     ],
    "Resource" : "*"
 }
```

Anda dapat menambahkan izin ini secara langsung, atau dengan melampirkan kebijakan [AIOpsConsoleAdminPolicy](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AIOpsConsoleAdminPolicy.html)atau [AIOpsOperatorAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AIOpsOperatorAccess.html)terkelola ke pengguna atau peran. 

## Apa itu analisis 5 Mengapa?
<a name="5whys-overview"></a>

5 Mengapa adalah teknik analisis akar penyebab yang menanyakan “mengapa” berulang kali untuk menelusuri dari gejala insiden ke penyebab mendasar. Setiap jawaban menjadi dasar untuk pertanyaan berikutnya, menciptakan rantai logis yang mengungkapkan akar penyebab sebenarnya daripada hanya gejala tingkat permukaan.

Selama pembuatan laporan insiden, CloudWatch investigasi menggunakan metode ini untuk menganalisis temuan investigasi dan memberikan analisis akar penyebab terstruktur yang melampaui kegagalan teknis langsung untuk mengidentifikasi proses, konfigurasi, atau masalah sistemik.

## Manfaat untuk pelaporan insiden
<a name="why-5whys-incidents"></a>

Termasuk analisis 5 Mengapa dalam laporan insiden memberikan beberapa keuntungan:
+ **Identifikasi akar penyebab komprehensif** - Bergerak melampaui penyebab teknis langsung untuk mengidentifikasi masalah proses atau sistem yang mendasarinya
+ **Rencana remediasi yang dapat ditindaklanjuti** - Menyediakan tindakan spesifik yang ditargetkan untuk mencegah kekambuhan daripada perbaikan sementara
+ **Pembelajaran organisasi** - Mendokumentasikan rantai kausal lengkap untuk referensi masa depan dan berbagi pengetahuan tim
+ **Analisis terstruktur** - Memastikan investigasi sistematis daripada pemecahan masalah ad-hoc

## Contoh skenario dalam laporan insiden
<a name="5whys-incident-examples"></a>

### Insiden kegagalan koneksi database
<a name="example-database-outage"></a>

**Insiden awal:** Aplikasi e-Commerce mengalami 500 kesalahan yang tersebar luas

1. **Mengapa 1:** Mengapa pengguna mendapatkan 500 kesalahan? Aplikasi tidak dapat terhubung ke database utama.

1. **Mengapa 2:** Mengapa aplikasi tidak dapat terhubung ke database? Contoh database kehabisan koneksi yang tersedia.

1. **Mengapa 3:** Mengapa database kehabisan koneksi? Pekerjaan pemrosesan batch membuka banyak koneksi tanpa menutupnya dengan benar.

1. **Mengapa 4:** Mengapa pekerjaan batch tidak menutup koneksi dengan benar? Penanganan kesalahan pekerjaan tidak menyertakan pembersihan koneksi dalam skenario kegagalan.

1. **Mengapa 5:** Mengapa penanganan kesalahan yang tepat tidak diterapkan? Proses peninjauan kode tidak menyertakan pemeriksaan khusus untuk pola manajemen sumber daya.

**Akar penyebab:** Standar peninjauan kode yang tidak memadai untuk manajemen sumber daya

**Tindakan yang disarankan:** Perbarui daftar periksa tinjauan kode, terapkan pemantauan penyatuan koneksi, tambahkan deteksi kebocoran sumber daya otomatis

### Insiden degradasi kinerja
<a name="example-auto-scaling"></a>

**Insiden awal:** Waktu respons API meningkat dari 200 md menjadi 5000 ms selama lonjakan lalu lintas

1. **Mengapa 1:** Mengapa waktu respons meningkat? Pemanfaatan CPU mencapai 100% pada semua instance aplikasi.

1. **Mengapa 2:** Mengapa penskalaan otomatis tidak menambahkan lebih banyak instance? Penskalaan otomatis dipicu tetapi instance baru gagal dalam pemeriksaan kesehatan.

1. **Mengapa 3:** Mengapa contoh baru gagal dalam pemeriksaan kesehatan? Proses startup aplikasi memakan waktu 8 menit, lebih lama dari batas waktu pemeriksaan kesehatan.

1. **Mengapa 4:** Mengapa startup memakan waktu begitu lama? Aplikasi mengunduh file konfigurasi besar dari S3 pada setiap startup.

1. **Mengapa 5:** Mengapa penundaan startup ini tidak dipertimbangkan dalam konfigurasi penskalaan otomatis? Pengujian kinerja dilakukan dengan instance pra-pemanasan, bukan start dingin.

**Akar penyebab:** Metodologi pengujian kinerja tidak mencerminkan skenario penskalaan otomatis produksi

**Tindakan yang disarankan:** Sertakan pengujian start dingin, optimalkan startup aplikasi, sesuaikan batas waktu pemeriksaan kesehatan, terapkan caching konfigurasi

### Insiden kompleks dengan analisis cabang
<a name="example-complex-branch"></a>

**Insiden awal:** Pelanggan OpenSearch tanpa server mengalami penurunan ketersediaan 48,3% selama 11 jam

**Rantai analisis utama:**

1. **Mengapa 1:** Mengapa pelanggan mengalami degradasi layanan? Ketersediaan layanan turun menjadi 48,3% karena penskalaan ingester yang salah.

1. **Mengapa 2:** Mengapa penskalaan ingester salah? CortexOperator mengurangi ingester dari 223 menjadi 174 karena kesalahan perhitungan saldo AZ.

1. **Mengapa 3:** Mengapa CortexOperator salah menghitung saldo AZ? Kode tidak dapat memproses format label Kubernetes baru setelah peningkatan versi 1.17.

1. **Mengapa 4 (Cabang A - Teknis):** Mengapa kode tidak menangani format label baru? Kode mengharapkan 'failure-domain.beta.kubernetes. io/zone' labels but Kubernetes 1.17 changed to 'topology.kubernetes.io/zone'.

1. **Mengapa 5 (Cabang A):** Mengapa kompatibilitas mundur tidak diterapkan? Perubahan format label tidak didokumentasikan dalam catatan pemutakhiran yang ditinjau selama perencanaan penerapan.

**Cabang B - Analisis Proses:**

1. **Mengapa 4 (Cabang B - Proses):** Mengapa ini tidak tertangkap dalam pengujian? Tes integrasi menggunakan cluster pra-konfigurasi dengan format label lama.

1. **Mengapa 5 (Cabang B):** Mengapa pengujian tidak menyertakan validasi format label? Pengaturan lingkungan pengujian tidak mencerminkan urutan peningkatan versi Kubernetes produksi.

**Akar penyebab diidentifikasi:**
+ Teknis: Tidak ada kompatibilitas mundur untuk perubahan format label Kubernetes
+ Proses: Metodologi pengujian tidak memvalidasi dampak peningkatan versi

**Rencana remediasi terintegrasi:** Menerapkan logika deteksi format label, meningkatkan prosedur pengujian upgrade, menambahkan validasi kompatibilitas otomatis, dan menetapkan proses penilaian dampak perubahan versi.

## Menggunakan alur kerja 5 Mengapa yang dipandu
<a name="accessing-5whys"></a>

CloudWatch Investigasi menyediakan alur kerja analisis 5 Mengapa yang dipandu untuk membantu Anda mengatasi fakta yang hilang dan memperkuat laporan insiden Anda. Fitur ini muncul sebagai alur kerja yang disarankan saat sistem mengidentifikasi peluang untuk meningkatkan analisis akar penyebab.

### Pengalaman analisis interaktif
<a name="interactive-analysis"></a>

Analisis 5 Mengapa dalam CloudWatch investigasi menggunakan pendekatan interaktif berbasis obrolan yang memandu Anda melalui proses investigasi. Metode percakapan ini membantu memastikan analisis komprehensif sambil mempertahankan aliran logis antar pertanyaan.

**Fitur utama dari pengalaman interaktif:**
+ **Inisialisasi berbasis fakta** - Sistem menyajikan fakta yang relevan dari penyelidikan Anda di muka, menggunakannya untuk mengisi jawaban yang jelas dan dengan jelas menunjukkan saran berbasis fakta versus berbasis kesimpulan
+ **Penyelidikan terpandu** - Untuk setiap pertanyaan “mengapa”, sistem menyarankan jawaban berdasarkan fakta yang tersedia, meminta konteks tambahan tertentu, dan memandu Anda untuk mempertimbangkan aspek-aspek penting sebelum melanjutkan
+ **Manajemen cabang** - Ketika beberapa faktor yang berkontribusi diidentifikasi, sistem dengan jelas menyajikan opsi cabang, menjelaskan hubungan antar cabang, dan membantu memprioritaskan investigasi paralel
+ **Validasi progresif** - Untuk setiap respons, sistem merumuskan ulang jawaban untuk kejelasan, mencari konfirmasi, menyoroti wawasan utama, dan menghubungkan temuan ke konteks yang lebih luas

Pendekatan ini memastikan bahwa Anda menangkap semua informasi yang relevan sambil mempertahankan fokus pada hubungan sebab akibat yang paling kritis.

**Mengakses alur kerja yang dipandu:**

1. Selama pembuatan laporan insiden, tinjau bagian **Fakta perlu perhatian** di panel kanan.

1. **Cari saran **analisis 5-Mengapa Terpandu di bawah Alur** kerja yang disarankan.**

1. Pilih **Bimbing saya** untuk memulai proses 5 Mengapa interaktif.

1. Ikuti petunjuk yang dipandu untuk secara sistematis mengerjakan setiap pertanyaan “mengapa”, membangun rantai kausal lengkap dari gejala ke akar penyebab.

Alur kerja yang dipandu membantu memastikan Anda menangkap informasi akar penyebab yang komprehensif dengan memandu Anda melalui setiap langkah metodologi 5 Mengapa. Hasil analisis secara otomatis dimasukkan ke dalam laporan insiden Anda, memberikan dokumentasi terstruktur untuk tinjauan pasca-insiden dan pembelajaran organisasi.

Anda juga dapat meminta analisis 5 Mengapa melalui antarmuka obrolan dengan mengajukan pertanyaan seperti “Lakukan analisis 5 Mengapa untuk insiden ini” atau “Apa akar penyebabnya menggunakan metodologi 5 Mengapa?”

## Menangani insiden kompleks dengan berbagai penyebab
<a name="branch-analysis"></a>

Beberapa insiden melibatkan beberapa faktor yang berkontribusi yang memerlukan jalur analisis paralel. CloudWatch Investigasi mendukung analisis cabang untuk memastikan semua penyebab signifikan diidentifikasi dan ditangani.

**Ketika analisis cabang diperlukan:**
+ Beberapa kegagalan independen terjadi secara bersamaan
+ Komponen sistem yang berbeda berkontribusi pada dampak pelanggan yang sama
+ Kegagalan teknis dan proses memainkan peran penting
+ Kegagalan bertingkat menciptakan beberapa rantai kausal

**Proses analisis cabang:**

1. **Identifikasi cabang** - Sistem mengidentifikasi titik-titik di mana banyak penyebab bertemu atau menyimpang

1. **Investigasi paralel** - Setiap cabang dianalisis menggunakan metodologi 5 Mengapa lengkap

1. **Pemetaan koneksi** - Hubungan antar cabang didokumentasikan untuk menunjukkan bagaimana mereka berinteraksi

1. **Resolusi terintegrasi** - Rencana remediasi mengatasi semua akar penyebab yang diidentifikasi dan interaksinya

Pendekatan komprehensif ini memastikan bahwa insiden kompleks menerima analisis menyeluruh dan bahwa semua faktor yang berkontribusi dibahas dalam rencana remediasi akhir.

## Praktik terbaik untuk analisis 5 Mengapa yang efektif
<a name="5whys-best-practices"></a>

Untuk memaksimalkan efektivitas analisis 5 Mengapa dalam laporan insiden Anda, ikuti praktik terbaik yang berasal dari pengalaman operasional berikut:

### Pedoman perumusan pertanyaan
<a name="question-formulation"></a>
+ **Mulai dengan dampak pelanggan** - Mulailah setiap analisis dengan masalah yang dihadapi pelanggan untuk mempertahankan fokus pada dampak bisnis
+ **Tingkatkan kedalaman teknis secara progresif** - Pindah dari dampak bisnis ke detail teknis saat Anda maju melalui pertanyaan
+ **Pertahankan kontinuitas logis** - Pastikan setiap jawaban secara alami mengarah ke pertanyaan berikutnya tanpa celah logis
+ **Sertakan bukti pendukung** - Referensikan metrik, log, atau peristiwa timeline tertentu untuk memvalidasi setiap jawaban

### Validasi analisis
<a name="validation-criteria"></a>

Validasi analisis 5 Mengapa Anda menggunakan kriteria ini:
+ **Aliran logis** - Bersihkan perkembangan dari gejala ke akar penyebab tanpa langkah yang hilang
+ **Akurasi teknis** - Terminologi yang benar, deskripsi perilaku sistem yang akurat, dan interaksi komponen yang valid
+ **Kelengkapan** - Analisis menjelaskan semua gejala yang diamati dan mencapai penyebab mendasar yang, jika ditangani, akan mencegah kekambuhan
+ **Aksionabilitas** - Akar penyebab yang diidentifikasi mengarah pada tindakan remediasi yang spesifik dan dapat diterapkan

### Perangkap umum yang harus dihindari
<a name="common-pitfalls"></a>
+ **Berhenti pada gejala** - Jangan menyimpulkan analisis pada kegagalan teknis pertama; lanjutkan sampai Anda mencapai penyebab sistemik atau proses
+ **Analisis yang berfokus pada kesalahan** - Fokus pada kegagalan sistem dan proses daripada tindakan individu
+ **Pemikiran jalur tunggal** - Pertimbangkan beberapa faktor yang berkontribusi dan gunakan analisis cabang bila perlu
+ **Bukti tidak mencukupi** - Pastikan setiap jawaban didukung oleh data konkret dari penyelidikan Anda

### Integrasi dengan bagian laporan insiden
<a name="5whys-integration"></a>

Analisis 5 Mengapa terintegrasi dengan bagian lain dari laporan insiden Anda untuk memberikan dokumentasi yang komprehensif:
+ **Korelasi garis waktu** - Setiap pertanyaan “mengapa” dapat merujuk peristiwa garis waktu tertentu, memberikan konteks temporal untuk hubungan sebab akibat
+ **Validasi metrik** - Jawaban didukung oleh metrik dan grafik yang menunjukkan perilaku teknis yang dijelaskan
+ **Penyelarasan penilaian dampak** - “mengapa” pertama secara langsung terhubung ke metrik dampak pelanggan yang didokumentasikan di bagian penilaian dampak
+ **Dasar pelajaran yang dipelajari** - Akar penyebab diidentifikasi melalui 5 Analisis mengapa secara langsung menginformasikan bagian pelajaran yang dipetik dan tindakan korektif

Integrasi ini memastikan konsistensi di seluruh laporan insiden Anda dan memberi pemangku kepentingan narasi yang lengkap dan koheren dari gejala awal melalui akar penyebab hingga rencana remediasi.