

Manajer Insiden AWS Systems Manager tidak lagi terbuka untuk pelanggan baru. Pelanggan yang sudah ada dapat terus menggunakan layanan ini seperti biasa. Untuk informasi selengkapnya, lihat [perubahan Manajer Insiden AWS Systems Manager ketersediaan](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-availability-change.html). 

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Apa itu Manajer Insiden AWS Systems Manager?
<a name="what-is-incident-manager"></a>

Incident Manager, alat di AWS Systems Manager, dirancang untuk membantu Anda mengurangi dan memulihkan dari *insiden* yang memengaruhi aplikasi Anda yang di-host. AWS

Dalam konteks AWS, insiden adalah gangguan yang tidak direncanakan atau penurunan kualitas layanan yang dapat berdampak signifikan pada operasi bisnis. Oleh karena itu, sangat penting bagi organisasi untuk menetapkan strategi respons untuk mengurangi dan memulihkan secara efisien dari insiden, dan menerapkan tindakan untuk mencegah insiden di masa depan.

Manajer Insiden membantu mengurangi waktu untuk menyelesaikan insiden dengan:
+ Menyediakan rencana otomatis untuk melibatkan orang-orang yang bertanggung jawab untuk menanggapi insiden secara efisien.
+ Menyediakan data pemecahan masalah yang relevan.
+ Mengaktifkan tindakan respons otomatis dengan menggunakan runbook Otomasi yang telah ditentukan sebelumnya.
+ Menyediakan metode untuk berkolaborasi dan berkomunikasi dengan semua pemangku kepentingan.

Fitur dan alur kerja yang dibangun ke dalam Manajer Insiden didasarkan pada praktik terbaik untuk respons insiden yang telah dikembangkan Amazon hampir sejak awal. Incident Manager terintegrasi dengan Layanan AWS seperti Amazon CloudWatch,, AWS CloudTrail AWS Systems Manager, dan Amazon EventBridge.

## Komponen dan fitur utama
<a name="features"></a>

Bagian ini menjelaskan fitur di Manajer Insiden yang Anda gunakan untuk menyiapkan rencana respons insiden.

**Rencana respons**  
Rencana respons berfungsi sebagai templat yang mendefinisikan apa yang harus ada ketika suatu insiden terjadi. Ini termasuk informasi seperti:  
+ Siapa yang diminta untuk merespons ketika suatu insiden terjadi.
+ Respon otomatis yang mapan untuk mengurangi insiden tersebut.
+ Alat kolaborasi yang harus digunakan responden untuk berkomunikasi dan menerima pemberitahuan otomatis tentang insiden tersebut.

**Deteksi insiden**  
Anda dapat mengonfigurasi CloudWatch alarm Amazon dan EventBridge peristiwa Amazon untuk membuat insiden saat kondisi atau perubahan yang memengaruhi AWS sumber daya Anda terdeteksi. 

**Dukungan otomatisasi Runbook**  
Anda dapat memulai runbook Otomasi dari dalam Manajer Insiden untuk mengotomatiskan respons kritis Anda terhadap insiden dan memberikan langkah-langkah terperinci kepada responden pertama. 

**Keterlibatan dan eskalasi**  
*Rencana keterlibatan* menentukan setiap orang untuk memberi tahu setiap insiden unik. Anda dapat menentukan kontak individual yang telah ditambahkan ke Manajer Insiden atau menentukan jadwal panggilan yang Anda buat di Manajer Insiden. Rencana keterlibatan juga menentukan jalur eskalasi untuk membantu memastikan visibilitas di antara para pemangku kepentingan dan partisipasi aktif selama proses respons insiden.

**Jadwal panggilan**  
*Jadwal panggilan* di Manajer Insiden terdiri dari satu atau lebih rotasi yang Anda buat untuk jadwal tersebut. Untuk setiap rotasi, Anda dapat menyertakan hingga 30 kontak. Ketika ditambahkan ke rencana eskalasi atau rencana respons, jadwal panggilan menentukan siapa yang diberitahu ketika insiden terjadi yang memerlukan intervensi responden. Jadwal panggilan membantu memastikan bahwa Anda memiliki cakupan penuh, berlebihan, 24/7 sesuai kebutuhan untuk respons insiden Anda.

**Kolaborasi aktif**  
Responden insiden secara aktif menanggapi insiden melalui integrasi dengan Pengembang Amazon Q di klien aplikasi obrolan. Pengembang Amazon Q dalam aplikasi obrolan mendukung pembuatan saluran obrolan untuk Manajer Insiden yang menggunakan Slack, Microsoft Teams, atau Amazon Chime. Responden dapat berkomunikasi langsung satu sama lain, menerima pemberitahuan otomatis tentang insiden, dan—di Slack and Microsoft Teams—langsung menjalankan beberapa operasi antarmuka baris perintah Manajer Insiden (CLI).

**Diagnosis insiden**  
Responden dapat melihat up-to-date informasi di konsol Manajer Insiden selama insiden terjadi. Berdasarkan perubahan informasi, responden kemudian dapat membuat item tindak lanjut dan memperbaikinya dengan menggunakan runbook Otomasi.

**Temuan dari layanan lain**  
Untuk mendukung diagnosis insiden responden, Anda dapat mengaktifkan fitur Temuan di Manajer Insiden. Temuan adalah informasi tentang AWS CodeDeploy penyebaran dan pembaruan AWS CloudFormation tumpukan yang terjadi sekitar waktu insiden, dan yang melibatkan satu atau lebih sumber daya yang kemungkinan terkait dengan insiden tersebut. Memiliki informasi ini mengurangi waktu yang dibutuhkan untuk mengevaluasi penyebab potensial, yang dapat mengurangi mean time to recover (MTTR) dari suatu insiden.

**Analisis pasca-insiden**  
Setelah insiden diselesaikan, Anda menggunakan analisis pasca-insiden untuk mengidentifikasi peningkatan respons insiden Anda, termasuk waktu untuk deteksi dan mitigasi. Analisis juga dapat membantu Anda memahami akar penyebab insiden tersebut. Manajer Insiden membuat item tindakan tindak lanjut yang direkomendasikan yang dapat Anda gunakan untuk meningkatkan respons insiden Anda.

## Manfaat menggunakan Manajer Insiden
<a name="benefits"></a>

Pelajari tentang manfaat menggunakan Manajer Insiden dalam operasi deteksi dan respons insiden Anda.

Bagian ini menjelaskan keuntungan yang dapat diperoleh organisasi Anda saat Anda menerapkan rencana respons Manajer Insiden.

**Mendiagnosis masalah secara efisien dan segera**  
 CloudWatch Alarm Amazon dan EventBridge peristiwa Amazon yang Anda konfigurasikan dapat membuat insiden secara otomatis ketika ada gangguan yang tidak direncanakan atau pengurangan kualitas layanan Anda. 

CloudWatch alarm mendeteksi dan melaporkan ketika ada perubahan pada nilai metrik atau ekspresi yang relatif terhadap ambang batas selama beberapa periode waktu. EventBridge peristiwa dibuat sebagai hasil dari perubahan lingkungan, aplikasi, atau layanan yang telah Anda tentukan dalam EventBridge aturan. Saat Anda membuat alarm atau acara, Anda dapat menentukan tindakan untuk insiden yang akan dibuat di Manajer Insiden dan rencana respons yang sesuai untuk memfasilitasi keterlibatan, eskalasi, dan mitigasi insiden tersebut.

Manajer Insiden menyediakan kemampuan untuk secara otomatis mengumpulkan dan melacak metrik yang terkait dengan suatu insiden, melalui penggunaan CloudWatch metrik. Selain metrik otomatis yang dihasilkan untuk insiden saat dibuat melalui CloudWatch alarm, Anda dapat menambahkan metrik secara manual secara real time, untuk memberikan konteks dan data tambahan kepada responden dalam suatu insiden.

Gunakan timeline insiden Manajer Insiden untuk menampilkan tempat menarik dalam urutan kronologis. Responden juga dapat menggunakan timeline untuk menambahkan peristiwa khusus untuk menggambarkan apa yang mereka lakukan atau apa yang terjadi. Tempat menarik otomatis meliputi:
+  CloudWatch Alarm atau EventBridge aturan menciptakan insiden.
+ Metrik insiden dilaporkan ke Manajer Insiden.
+ Responden terlibat.
+ Langkah-langkah buku runbook berhasil diselesaikan.

**Terlibat secara efektif**  
Manajer Insiden menyatukan responden insiden melalui penggunaan kontak, jadwal panggilan, rencana eskalasi, dan saluran obrolan. Anda menentukan kontak individu secara langsung di Manajer Insiden dan menentukan preferensi kontak (email, SMS, atau suara). Anda menambahkan kontak ke rotasi jadwal panggilan untuk menentukan siapa yang terlibat untuk menangani insiden selama periode tertentu. Dengan menggunakan kontak dan jadwal panggilan yang ditentukan, Anda membuat rencana eskalasi untuk melibatkan responden yang diperlukan pada waktu yang tepat selama insiden. 

**Berkolaborasi secara real time**  
Komunikasi selama insiden adalah kunci untuk resolusi yang lebih cepat. Menggunakan Pengembang Amazon Q di aplikasi obrolan yang disiapkan klien untuk digunakan Slack, Microsoft Teams, atau Amazon Chime, Anda dapat mempertemukan responden di saluran obrolan terhubung pilihan mereka di mana mereka berinteraksi langsung dengan insiden tersebut dan satu sama lain. Manajer Insiden juga menampilkan tindakan real-time dari responden insiden di saluran obrolan, memberikan konteks kepada orang lain.

**Mengotomatiskan restorasi layanan**  
Manajer Insiden memungkinkan responden Anda untuk fokus pada tugas-tugas utama yang diperlukan untuk menyelesaikan insiden melalui penggunaan *runbook* Otomasi. Di Manajer Insiden, runbook adalah serangkaian tindakan yang telah ditentukan sebelumnya yang diambil untuk menyelesaikan suatu insiden. Mereka menggabungkan kekuatan tugas otomatis dengan langkah-langkah manual sesuai kebutuhan, membuat responden lebih tersedia untuk menganalisis dan menanggapi dampak.

**Mencegah insiden future**  
Dengan menggunakan analisis pasca insiden Manajer Insiden, tim Anda dapat mengembangkan rencana respons yang lebih kuat dan perubahan efek di seluruh aplikasi Anda untuk mencegah insiden dan waktu henti di masa depan. Analisis pasca-insiden juga menyediakan pembelajaran berulang dan peningkatan runbook, rencana respons, dan metrik.

## Layanan terkait
<a name="related-services"></a>

Incident Manager terintegrasi dengan beberapa layanan Layanan AWS dan alat pihak ketiga lainnya untuk membantu Anda mendeteksi dan menyelesaikan insiden, dan berinteraksi dengan operasi API-nya secara tidak langsung dan mengelola infrastruktur. Untuk informasi, lihat [Integrasi produk dan layanan dengan Manajer Insiden](integration.md).

## Mengakses Manajer Insiden
<a name="access"></a>

Anda dapat mengakses Manajer Insiden dengan salah satu cara berikut: 
+ **[Konsol Manajer Insiden](https://console.aws.amazon.com/systems-manager/incidents/home)**
+ **AWS CLI**— Untuk informasi umum, lihat [Memulai dengan AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-started.html) di *Panduan AWS Command Line Interface Pengguna*. Untuk informasi tentang perintah CLI untuk Manajer Insiden, lihat [https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/](https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/) dan [https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/](https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/)dalam *AWS CLI Command Reference*. 
+ **API Manajer Insiden** — Untuk informasi selengkapnya, lihat [Referensi Manajer Insiden AWS Systems Manager API](https://docs.aws.amazon.com/incident-manager/latest/APIReference/Welcome.html).
+ **AWS SDKs**— Untuk informasi selengkapnya, lihat [Alat untuk Dibangun AWS](https://aws.amazon.com/developer/tools).

## Wilayah Manajer Insiden dan kuota
<a name="regions-quotas"></a>

Incident Manager tidak didukung di semua yang Wilayah AWS didukung oleh Systems Manager. 

Untuk melihat informasi tentang Wilayah Manajer Insiden dan kuota, lihat [Manajer Insiden AWS Systems Manager titik akhir dan kuota](https://docs.aws.amazon.com/general/latest/gr/incident-manager.html) di. *Referensi Umum Amazon Web*

## Harga untuk Manajer Insiden
<a name="pricing"></a>

Ada biaya untuk menggunakan Manajer Insiden. Untuk informasi selengkapnya, lihat [harga AWS Systems Manager](https://aws.amazon.com/systems-manager/pricing/).

**catatan**  
Konten lain Layanan AWS, AWS konten, dan konten pihak ketiga yang tersedia sehubungan dengan layanan ini dapat dikenakan biaya terpisah dan diatur oleh ketentuan tambahan.

Untuk gambaran umum Trusted Advisor, layanan yang membantu Anda mengoptimalkan biaya, keamanan, dan kinerja AWS lingkungan Anda, lihat [AWS Trusted Advisor](https://docs.aws.amazon.com/awssupport/latest/user/trusted-advisor.html)di *Panduan AWS Dukungan Pengguna*.

# Siklus hidup insiden di Manajer Insiden
<a name="incident-lifecycle"></a>

Manajer Insiden AWS Systems Manager menyediakan step-by-step kerangka kerja berdasarkan praktik terbaik untuk mengidentifikasi dan bereaksi terhadap insiden, seperti pemadaman layanan atau ancaman keamanan. Fokus utama Manajer Insiden adalah membantu memulihkan layanan atau aplikasi yang terpengaruh ke normal secepat mungkin melalui solusi manajemen siklus hidup insiden yang lengkap. 

Seperti yang digambarkan dalam ilustrasi berikut, Manajer Insiden menyediakan alat dan praktik terbaik untuk setiap fase siklus hidup insiden:
+ [Peringatan dan keterlibatan](#alerting-engagement)
+ [Triase](#triage)
+ [Investigasi dan mitigasi](#investigation-mitigation)
+ [Analisis pasca-insiden](#lifecycle-post-incident-analysis)

![\[Siklus hidup insiden termasuk peringatan, keterlibatan, triase, investigasi, dan analisis.\]](http://docs.aws.amazon.com/id_id/incident-manager/latest/userguide/images/incident-lifecycle.png)


## Peringatan dan keterlibatan
<a name="alerting-engagement"></a>

Fase peringatan dan keterlibatan dari siklus hidup insiden berfokus pada kesadaran akan insiden dalam aplikasi dan layanan Anda. Fase ini dimulai sebelum insiden terdeteksi dan membutuhkan pemahaman mendalam tentang aplikasi Anda. Anda dapat menggunakan [ CloudWatchmetrik Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) untuk memantau data tentang kinerja aplikasi Anda, atau menggunakan [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/) untuk mengumpulkan peringatan dari berbagai sumber, aplikasi, dan layanan. Setelah menyiapkan pemantauan untuk aplikasi Anda, Anda dapat mulai memberi tahu metrik yang menyimpang di luar norma historis. Untuk mempelajari lebih lanjut tentang memantau praktik terbaik, lihat[Memantau](incident-response.md#incident-response-monitoring).

Untuk mendukung diagnosis insiden responden, Anda dapat mengaktifkan fitur Temuan di Manajer Insiden. Temuan adalah informasi tentang AWS CodeDeploy penyebaran dan pembaruan AWS CloudFormation tumpukan yang terjadi sekitar waktu insiden. Memiliki informasi ini mengurangi waktu yang dibutuhkan untuk mengevaluasi penyebab potensial, yang dapat mengurangi mean time to recover (MTTR) dari suatu insiden.

Sekarang setelah Anda memantau insiden dalam aplikasi Anda, Anda dapat menentukan *rencana respons* insiden yang akan digunakan selama insiden. Untuk mempelajari lebih lanjut tentang membuat rencana respons, lihat[Membuat dan mengonfigurasi rencana respons di Manajer Insiden](response-plans.md). EventBridge Acara Amazon atau CloudWatch Alarm dapat secara otomatis membuat insiden menggunakan paket respons sebagai templat. Untuk mempelajari lebih lanjut tentang penciptaan insiden, lihat[Membuat insiden secara otomatis atau manual di Manajer Insiden](incident-creation.md).

Rencana respons meluncurkan rencana *eskalasi terkait dan rencana* *keterlibatan* untuk membawa responden pertama ke dalam insiden tersebut. Untuk informasi selengkapnya tentang menyiapkan rencana eskalasi, lihat[Buat rencana eskalasi](escalation.md#escalation-create). Secara bersamaan, Pengembang Amazon Q dalam aplikasi obrolan memberi tahu responden menggunakan *saluran obrolan* yang mengarahkan mereka ke halaman detail insiden. Dengan menggunakan saluran obrolan dan *detail insiden*, tim dapat berkomunikasi dan melakukan triase insiden. Untuk informasi selengkapnya tentang menyiapkan saluran obrolan di Manajer Insiden, lihat[Tugas 2: Buat saluran obrolan di Amazon Q Developer di aplikasi obrolan](chat.md#chat-create).

## Triase
<a name="triage"></a>

Triase adalah ketika responden pertama mencoba untuk menentukan dampaknya terhadap pelanggan. Tampilan detail insiden di konsol Manajer Insiden memberi responden jadwal dan metrik untuk membantu mereka menilai insiden tersebut. Menilai dampak dari suatu insiden juga meletakkan dasar untuk waktu respons, resolusi, dan komunikasi untuk insiden tersebut. Responden memprioritaskan insiden dengan menggunakan peringkat dampak dari 1 (Kritis) hingga 5 (Tanpa Dampak).

Organisasi Anda dapat menentukan cakupan yang tepat dari setiap peringkat dampak sesuai pilihan Anda. Tabel berikut memberikan contoh bagaimana setiap tingkat dampak biasanya dapat didefinisikan.


| Kode dampak | Nama dampak | Sampel ruang lingkup yang ditentukan | 
| --- | --- | --- | 
| 1 | Critical |  Kegagalan aplikasi penuh yang berdampak pada sebagian besar pelanggan.  | 
| 2 | High |  Kegagalan aplikasi penuh yang berdampak pada sebagian pelanggan.  | 
| 3 | Medium |  Kegagalan aplikasi sebagian yang berdampak pada pelanggan.  | 
| 4 | Low |  Kegagalan intermiten yang berdampak terbatas pada pelanggan.  | 
| 5 | No Impact |  Pelanggan saat ini tidak terpengaruh tetapi tindakan mendesak diperlukan untuk menghindari dampak.  | 

## Investigasi dan mitigasi
<a name="investigation-mitigation"></a>

Tampilan detail *insiden* memberi tim Anda runbook, garis waktu, dan metrik. Untuk melihat bagaimana Anda dapat bekerja dengan suatu insiden, lihat[Melihat detail insiden di konsol](tracking.md#tracking-details).

*Runbook* biasanya menyediakan langkah-langkah investigasi dan dapat secara otomatis menarik data atau mencoba solusi yang umum digunakan. Runbook juga memberikan langkah-langkah yang jelas dan berulang yang menurut tim Anda berguna dalam mengurangi insiden. Tab runbook berfokus pada langkah runbook saat ini dan menunjukkan langkah masa lalu dan masa depan.

Incident Manager terintegrasi dengan Systems Manager Automation untuk membangun runbook. Gunakan runbook untuk melakukan salah satu hal berikut:
+ Mengelola contoh dan sumber daya AWS 
+ Jalankan skrip secara otomatis
+ Kelola CloudFormation sumber daya

Untuk informasi selengkapnya tentang jenis tindakan yang didukung, lihat [referensi tindakan Otomasi Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-actions.html) di *Panduan AWS Systems Manager Pengguna*.

Tab **Timeline** menunjukkan tindakan apa yang telah diambil. Timeline mencatat masing-masing dengan stempel waktu dan detail yang dibuat secara otomatis. Untuk menambahkan peristiwa khusus ke timeline, lihat [Jadwal](tracking.md#tracking-details-timeline) bagian di halaman *Detail insiden* di panduan pengguna ini.

Tab **Diagnosis** menampilkan metrik yang diisi secara otomatis dan metrik yang ditambahkan secara manual. Pandangan ini memberikan informasi berharga tentang aktivitas aplikasi Anda selama insiden.

Tab **Keterlibatan** memungkinkan Anda menambahkan kontak tambahan ke insiden tersebut dan membantu menyediakan sumber daya bagi kontak yang terlibat untuk mempercepat dengan cepat setelah terlibat dalam insiden tersebut. Kontak terlibat melalui rencana eskalasi yang ditentukan atau rencana keterlibatan pribadi.

Menggunakan *saluran obrolan*, Anda dapat langsung berinteraksi dengan insiden Anda dan responden lain di tim Anda. Menggunakan Amazon Q Developer dalam aplikasi obrolan, Anda dapat mengonfigurasi saluran obrolan di. Slack, Microsoft Teams, dan Amazon Chime. Masuk Slack and Microsoft Teams saluran, responden dapat berinteraksi dengan insiden langsung dari saluran obrolan menggunakan sejumlah perintah. `ssm-incidents` Untuk informasi selengkapnya, lihat [Berinteraksi melalui saluran obrolan](chat.md#chat-interact).

## Analisis pasca-insiden
<a name="lifecycle-post-incident-analysis"></a>

Incident Manager menyediakan kerangka kerja untuk merefleksikan insiden, mengambil langkah-langkah yang diperlukan untuk mencegah insiden terjadi lagi di masa depan, dan untuk meningkatkan aktivitas respons insiden secara keseluruhan. Perbaikan dapat mencakup:
+ Perubahan pada aplikasi yang terlibat dalam suatu insiden. Tim Anda dapat menggunakan waktu ini untuk meningkatkan sistem dan membuatnya lebih toleran terhadap kesalahan.
+ Perubahan pada rencana respons insiden. Luangkan waktu untuk memasukkan pelajaran yang dipelajari.
+ Perubahan pada runbook. Tim Anda dapat menyelam jauh ke dalam langkah-langkah yang diperlukan untuk resolusi dan langkah-langkah yang dapat Anda otomatiskan. 
+ Perubahan pada peringatan. Setelah insiden, tim Anda mungkin telah memperhatikan titik-titik penting dalam metrik yang dapat Anda gunakan untuk mengingatkan tim lebih cepat tentang suatu insiden. 

Manajer Insiden memfasilitasi peningkatan potensial ini dengan menggunakan serangkaian pertanyaan analisis pasca-insiden dan item tindakan di samping garis waktu insiden. Untuk mempelajari lebih lanjut tentang peningkatan melalui analisis, lihat[Menjalankan analisis pasca-insiden di Incident Manager](analysis.md).