

AWS Systems Manager Incident Manager は新規顧客に公開されなくなりました。既存のお客様は、通常どおりサービスを引き続き使用できます。詳細については、「[AWS Systems Manager Incident Manager  可用性の変更](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-availability-change.html)」を参照してください。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# とは AWS Systems Manager Incident Manager
<a name="what-is-incident-manager"></a>

のツールである Incident Manager は AWS Systems Manager、 でホストされているアプリケーションに影響を与える*インシデント*を軽減し、復旧するのに役立つように設計されています AWS。

インシデントとは AWS、事業運営に大きな影響を与える可能性のある、サービスの品質の計画外の中断または低下を指します。したがって、組織にとって、インシデントを効率的に軽減して回復するための対応戦略を確立し、将来のインシデントを防ぐための措置を実行することが重要です。

Incident Manager は、以下の方法でインシデント解決にかかる時間を短縮できます。
+ インシデント対応の責任者を効率的にエンゲージさせるための自動計画を提供する。
+ 関連するトラブルシューティングデータを提供する。
+ 定義済みのオートメーションランブックを使用して、自動対応アクションを有効にする。
+ すべてのステークホルダーと協力し連絡を取る方法を提供する。

Incident Manager に組み込まれている機能とワークフローは、Amazon がほぼ設立当初から開発してきたインシデント対応のベストプラクティスに基づいています。Incident Manager は、Amazon CloudWatch、 AWS CloudTrail、Amazon EventBridge AWS Systems Manager AWS のサービス などの と統合されます。

## 主なコンポーネントと機能
<a name="features"></a>

このセクションでは、インシデント対応計画のセットアップに使用する Incident Manager の機能について説明します。

**対応計画**  
対応計画は、インシデント発生時に何を準備する必要があるかを定義するテンプレートとして機能します。これには以下のような情報が含まれます。  
+ インシデント発生時に対応を求められるのは誰か。
+ インシデントを軽減するための確立された自動対応。
+ 応答者が連絡を取り、インシデントに関する自動通知を受け取るために使用する必要があるコラボレーションツール。

**インシデント検知**  
Amazon CloudWatch アラームと Amazon EventBridge イベントを設定して、 AWS リソースに影響する条件や変更が検出されたときにインシデントを作成できます。

**ランブックオートメーションサポート**  
Incident Manager 内からオートメーションランブックを開始して、インシデントへの重要な対応を自動化し、最初の応答者に詳細なステップを提供します。

**エンゲージメントとエスカレーション**  
エンゲージメント計画は、一意のインシデントが発生するたびに全員に通知するように指定します。Incident Manager に追加した個々の連絡先を指定することも、Incident Manager で作成したオンコールスケジュールを指定することもできます。また、エンゲージメント計画は、エスカレーションパスを指定して、ステークホルダーの間での可視性およびインシデント対応プロセスへの積極的な参加を確保できるようにします。

**オンコールスケジュール**  
Incident Manager のオンコールスケジュールは、そのスケジュール用に作成する 1 つ以上のローテーションで構成されます。各ローテーションには、最大 30 個の連絡先を含めることができます。オンコールスケジュールは、エスカレーション計画または対応計画に追加すると、応答者の介入が必要なインシデントが発生した場合に誰が通知を受けるかを定義します。オンコールスケジュールは、インシデント対応に必要な完全かつ冗長な 24 時間 365 日のカバレッジを確保するのに役立ちます。

**アクティブコラボレーション**  
インシデント応答者は、チャットアプリケーションクライアントで Amazon Q Developer との統合を通じてインシデントに積極的に対応します。チャットアプリケーションの Amazon Q Developer はSlack、、Microsoft Teams、または Amazon Chime を使用する Incident Manager のチャットチャネルの作成をサポートしています。応答者は、互いに直接連絡を取り合ったり、インシデントに関する自動通知を受け取ることができます。また、Slack および Microsoft Teams では、一部の Incident Manager のコマンドラインインターフェイス (CLI) オペレーションを直接実行できます。

**インシデント診断**  
応答者は、インシデント発生時に、Incident Manager コンソールで最新情報を表示できます。その後、応答者は情報の変更に基づき、オートメーションランブックを使用してフォローアップ項目を作成し、それらを修正できます。

**他のサービスからの検出結果**  
応答者のインシデント診断をサポートするために、Incident Manager の検出結果機能を有効にできます。検出結果とは、インシデントの発生前後に発生した AWS CodeDeploy デプロイと AWS CloudFormation スタックの更新に関する情報であり、インシデントに関連する可能性のある 1 つ以上のリソースが関係しています。この情報があると、潜在的な原因の評価に必要な時間が短縮され、インシデントからの平均回復時間 (MTTR) を短縮できます。

**インシデント後分析**  
インシデントが解決されたら、インシデント後分析を使用して、検出および緩和までの時間など、インシデント対応を改善するための改善点を特定します。分析は、インシデントの原因を理解するのに役立ちます。Incident Manager は、インシデント対応を改善するために使用できる推奨フォローアップアクション項目を作成します。

## Incident Manager を使用する利点
<a name="benefits"></a>

インシデント検出および対応業務に Incident Manager を使用することの利点について説明します。

このセクションでは、Incident Manager 対応計画を実装することで組織が得られる利点について説明します。

**問題を効率的かつ即時に診断する**  
設定した Amazon CloudWatch アラームおよび Amazon EventBridge イベントは、サービスの計画外の中断または品質の低下が発生した場合に、自動的にインシデントを作成することができます。

CloudWatch アラームは、複数の期間にわたってしきい値を基準としたメトリクスまたは式の値に変化があった場合、検出して報告します。EventBridge イベントは、EventBridge ルールで指定した環境、アプリケーション、またはサービスの変更の結果として作成されます。アラームまたはイベントを作成する場合、Incident Manager で作成するインシデントのアクション、およびインシデントのエンゲージメント、エスカレーション、緩和を円滑に進めるための適切な対応計画を指定できます。

Incident Manager は、CloudWatch メトリクスを使用して、インシデントに関連するメトリクスを自動的に収集および追跡する機能を提供します。CloudWatch アラームによってインシデントが作成されたときに生成される自動メトリクスに加えて、メトリクスをリアルタイムで手動で追加して、インシデントの応答者に追加のコンテキストおよびデータを提供できます。

Incident Manager インシデントタイムラインを使用して、POI を時系列で表示します。応答者は、タイムラインを使用してカスタムイベントを追加し、自分が何をしたのか、何が起こったのかを説明することもできます。自動化された POI は次のとおりです。
+ CloudWatch アラームまたは EventBridge ルールはインシデントを作成します。
+ インシデントメトリクスは Incident Manager に報告されます。
+ 応答者はエンゲージしています。
+ ランブックのステップは正常に完了しました。

**効果的にエンゲージさせる**  
Incident Manager は、連絡先、オンコールスケジュール、エスカレーション計画、チャットチャネルを使用して、インシデント応答者をまとめます。Incident Manager で個々の連絡先を直接定義し、連絡先設定 (E メール、SMS、音声) を指定します。オンコールスケジュールのローテーションに連絡先を追加して、特定の期間に誰をインシデントにエンゲージさせるかを決定します。定義された連絡先およびオンコールスケジュールを使用して、インシデント中に適切なタイミングで必要な応答者をエンゲージさせるエスカレーション計画を作成します。

**リアルタイムで協力する**  
インシデント中のコミュニケーションは、より迅速な解決の鍵です。Slack、、Microsoft Teamsまたは Amazon Chime を使用するようにセットアップされたチャットアプリケーションクライアントで Amazon Q Developer を使用すると、応答者を任意の接続チャットチャネルにまとめ、インシデントと相互に直接やり取りできます。また、Incident Manager は、チャットチャネル内のインシデント応答者のリアルタイムアクションを表示し、他のユーザーにコンテキストを提供します。

**サービスの復旧を自動化する**  
Incident Manager では、オートメーションランブックを使用することで、応答者はインシデントの解決に必要な主要タスクに集中できます。Incident Manager では、ランブックは、インシデントを解決するために実行される事前定義された一連のアクションです。必要に応じて、自動タスクの力と手動ステップを組み合わせて、応答者が影響を分析して対応できるようにします。

**将来のインシデントを防ぐ**  
Incident Manager によるインシデント後分析により、チームはより強固な対応計画を策定し、アプリケーション全体で変更を反映させて、将来のインシデントおよびダウンタイムを防ぐことができます。インシデント後分析は、ランブック、対応計画、およびメトリクスの反復学習および改善も提供します。

## 関連サービス
<a name="related-services"></a>

Incident Manager は、インシデントを検出 AWS のサービス して解決し、API オペレーションと間接的にやり取りしてインフラストラクチャを管理するのに役立つ、他の およびサードパーティーのサービスとツールと統合されています。詳細については、[「Product and service integrations with Incident Manager」](integration.md) を参照してください。

## Incident Manager へのアクセス
<a name="access"></a>

Incident Manager には、次のいずれかの方法でアクセスできます。
+ **[Incident Manager コンソール](https://console.aws.amazon.com/systems-manager/incidents/home)**
+ **AWS CLI** – 一般的な情報については、「AWS Command Line Interface ユーザーガイド」の「[AWS CLIの開始方法](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-started.html)」を参照してください。Incident Manager の CLI コマンドの詳細については、「AWS CLI Command Reference」の「[https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/](https://docs.aws.amazon.com/cli/latest/reference/ssm-incidents/)」および「[https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/](https://docs.aws.amazon.com/cli/latest/reference/ssm-contacts/)」を参照してください。
+ **Incident Manager API** - 詳細については、「[AWS Systems Manager Incident Manager API Reference](https://docs.aws.amazon.com/incident-manager/latest/APIReference/Welcome.html)」を参照してください。
+ **AWS SDKs**[「構築するツール AWS](https://aws.amazon.com/developer/tools)」を参照してください。

## Incident Manager のリージョンとクォータ
<a name="regions-quotas"></a>

Incident Manager は、Systems Manager で AWS リージョン サポートされているすべての でサポートされているわけではありません。

Incident Manager のリージョンおよびクォータに関する情報を確認するには、「*Amazon Web Services 全般のリファレンス*」の「[AWS Systems Manager Incident Manager エンドポイントとクォータ](https://docs.aws.amazon.com/general/latest/gr/incident-manager.html)」を参照してください。

## Incident Manager の価格
<a name="pricing"></a>

Incident Manager の使用には料金がかかりますか。詳細については、「[AWS Systems Manager の料金](https://aws.amazon.com/systems-manager/pricing/)」を参照してください。

**注記**  
このサービスに関連して提供されるその他の AWS のサービス AWS コンテンツやサードパーティーのコンテンツには、別途料金がかかり、追加の条件が適用される場合があります。

 AWS 環境のコスト Trusted Advisor、セキュリティ、パフォーマンスの最適化に役立つサービスの概要については、 *AWS サポート ユーザーガイド*の[AWS Trusted Advisor](https://docs.aws.amazon.com/awssupport/latest/user/trusted-advisor.html)「」を参照してください。

# Incident Manager のインシデントライフサイクル
<a name="incident-lifecycle"></a>

AWS Systems Manager Incident Manager は、サービスの停止やセキュリティの脅威などのインシデントを特定して対応するためのベストプラクティスに基づくstep-by-stepフレームワークを提供します。Incident Manager の主な目的は、完全なインシデントライフサイクル管理ソリューションを通じて、影響を受けたサービスやアプリケーションをできるだけ早く正常に戻すことです。

次の図に示すように、Incident Manager はインシデントライフサイクルのすべてのフェーズでツールとベストプラクティスを提供します。
+ [アラートとエンゲージメント](#alerting-engagement)
+ [トリアージ](#triage)
+ [調査と緩和](#investigation-mitigation)
+ [インシデント後分析](#lifecycle-post-incident-analysis)

![\[インシデントのライフサイクルには、アラート、エンゲージメント、トリアージ、調査、分析が含まれます。\]](http://docs.aws.amazon.com/ja_jp/incident-manager/latest/userguide/images/incident-lifecycle.png)


## アラートとエンゲージメント
<a name="alerting-engagement"></a>

インシデントライフサイクルのアラートとエンゲージメントフェーズでは、アプリケーションおよびサービス内のインシデントに対する認識の提供に重点を置いています。このフェーズは、インシデントが検出される前に開始され、アプリケーションを深く理解する必要があります。[Amazon CloudWatch メトリクス](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)を使用してアプリケーションのパフォーマンスに関するデータをモニタリングしたり、[Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/) を使用してさまざまなソース、アプリケーション、サービスからのアラートを集計したりできます。アプリケーションのモニタリングを設定したら、履歴基準外のメトリクスに関するアラートを開始できます。モニタリングのベストプラクティスについては、「[モニタリング](incident-response.md#incident-response-monitoring)」を参照してください。

応答者のインシデント診断をサポートするために、Incident Manager の検出結果機能を有効にできます。検出結果は、インシデントの発生前後に発生した AWS CodeDeploy デプロイと AWS CloudFormation スタックの更新に関する情報です。この情報があると、潜在的な原因の評価に必要な時間が短縮され、インシデントからの平均回復時間 (MTTR) を短縮できます。

アプリケーションのインシデントをモニタリングしているので、インシデントの際に使用するインシデント *対応計画* を定義できます。対応計画の作成の詳細については、「[Incident Manager での対応計画の作成と設定](response-plans.md)」を参照してください。Amazon EventBridge イベントまたは CloudWatch アラームは、テンプレートとして対応計画を使用してインシデントを自動的に作成できます。インシデントの作成の詳細については、「[Incident Manager でインシデントを自動または手動で作成する](incident-creation.md)」を参照してください。

対応計画では、関連する *エスカレーション計画* および最初の応答者をインシデントに参加させるための *エンゲージメント計画* を開始します。エスカレーションプランの設定の詳細については、[エスカレーション計画を作成する](escalation.md#escalation-create) を参照してください。同時に、チャットアプリケーションの Amazon Q Developer は、インシデントの詳細ページに誘導する*チャットチャネル*を使用して応答者に通知します。チャットチャネルと *インシデントの詳細*を使用すると、チームはインシデントを通信し、トリアージすることができます。Incident Manager でのチャットチャネルのセットアップの詳細については、「[タスク 2: チャットアプリケーションで Amazon Q Developer にチャットチャネルを作成する](chat.md#chat-create)」を参照してください。

## トリアージ
<a name="triage"></a>

トリアージとは、最初の応答者が顧客への影響を判断しようとする場合です。Incident Manager コンソールのインシデント詳細ビューには、応答者がインシデントを評価するのに役立つタイムラインとメトリクスが表示されます。インシデントの影響を評価することは、インシデントの対応時間、解決、コミュニケーションの基盤にもなります。応答者は、1 (重大) から 5 (影響なし) までの影響度評価を使用してインシデントに優先順位を付けます。

組織は、各影響度評価の正確な範囲を自由に定義できます。次の表に、各影響レベルの一般的な定義の例を示します。


| 影響コード | 影響名 | サンプルの定義スコープ | 
| --- | --- | --- | 
| 1 | Critical |  ほとんどのお客様に影響するアプリケーション全体の障害。  | 
| 2 | High |  一部のお客様に影響するアプリケーション全体の障害。  | 
| 3 | Medium |  お客様に影響する部分的なアプリケーション障害。  | 
| 4 | Low |  お客様への影響は限定的な断続的な障害。  | 
| 5 | No Impact |  お客様は現在影響を受けていないものの、影響を回避するための緊急のアクションが必要。  | 

## 調査と緩和
<a name="investigation-mitigation"></a>

*インシデント* 詳細ビューでは、チームに Runbook、タイムライン、およびメトリクスが提供されます。インシデントの取り扱い方法については、「[コンソールでのインシデントの詳細の表示](tracking.md#tracking-details)」を参照してください。

*Runbooks* 一般的に調査ステップを提供し、データを自動的に取得したり、一般的に使用されるソリューションを試すことができます。Runbooks は、チームがインシデントの緩和に役立つと判断した、明確で反復可能なステップも提供します。Runbook タブは現在の Runbook ステップに焦点を当て、過去と将来のステップを表示します。

Incident Manager は、Systems Manager 自動化と統合して Runbook を構築します。Runbook を使用して、以下のいずれかを実行します。
+ インスタンスと AWS リソースを管理する
+ スクリプトの自動実行
+  CloudFormation リソースを管理する

サポートされるアクションタイプの詳細については、「AWS Systems Manager ユーザーガイド」の「[Systems Manager Automation アクションのリファレンス](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-actions.html)」を参照してください。

**[タイムライン]** タブには、実行されたアクションが表示されます。タイムラインには、タイムスタンプと自動的に作成された詳細が記録されます。タイムラインにカスタムイベントを追加するには、このユーザーガイドの *インシデントの詳細* ページの [タイムライン](tracking.md#tracking-details-timeline) セクションを 参照してください。

**[診断]** タブには、自動的に入力されたメトリクスと手動で追加されたメトリクスが表示されます。このビューは、インシデント中のアプリケーションのアクティビティに関する貴重な情報を提供します。

**[エンゲージメント]** タブでは、インシデントに連絡先を追加することができ、インシデントに関与したエンゲージメント中の連絡先に、対応を迅速化するためのリソースを提供するのに役立ちます。連絡先は、定義済みのエスカレーション計画、または個人のエンゲージメント計画に従ってエンゲージします。

チャットチャネルを使用すると、直接インシデントを操作したりチームの他の応答者と対話したりできます。チャットアプリケーションで Amazon Q Developer を使用すると、、Slack、Microsoft Teamsおよび Amazon Chime でチャットチャネルを設定できます。Slack および Microsoft Teams チャネルでは、応答者は、多くの `ssm-incidents` コマンドを使用して、チャットチャネルから直接インシデントを操作できます。詳細については、「[チャットチャネルを通じた対話](chat.md#chat-interact)」を参照してください。

## インシデント後分析
<a name="lifecycle-post-incident-analysis"></a>

Incident Manager は、インシデントを検証し、インシデントの今後の再発を防止するために必要な措置を講じ、インシデント対応活動全体を改善するためのフレームワークを提供します。改善には以下が含まれます。
+ インシデントに関連したアプリケーションの変更。チームはこの時間を使用してシステムを改善し、耐障害性を高めることができます。
+ インシデント対応計画への変更。時間をかけて学んだ教訓を取り入れます。
+ ランブックの変更。チームは、解決に必要なステップと、自動化できるステップについて深く掘り下げることができます。
+ アラートの変更。インシデント後、チームはインシデントについてより早くチームに警告するために使用できるメトリクスのクリティカルポイントに気づくことができます。

Incident Manager は、インシデントタイムラインと並んでインシデント後分析の質問とアクション項目を使用して、これらの潜在的な改善を容易にします。分析による改善の詳細については、「[Incident Manager でのインシデント後分析の実行](analysis.md)」を参照してください。