CloudWatch アラームの取り込み
AWS Incident Detection and Response は、Amazon CloudWatch アラームを取り込み、重大なワークロードをプロアクティブにモニタリングできます。AWS Incident Detection and Response は、Amazon CloudWatch アラームを取り込むことで、以下のことができます。
アラームがいつ「アラーム」状態になったかを自動的に検出します。
チームをエンゲージし、協力してインシデントに対応、解決します。
オンボードしたアラームを確実に有効にするために、AWS Incident Detection and Response では以下のベストプラクティスを推奨しています。
誤検出アラームのエンゲージメントを回避するために、定期的なメンテナンスまたはバッチジョブの実行中にアラームを抑制するメトリクス数式を使用してアラームを設定します。
予想されるデータポイントの配信頻度に基づいて、アラームに欠落データ処理を設定します。例えば、データポイントの継続的なストリームを生成するアラームモニタリングメトリクスでは、欠落しているデータを「違反」(不良) として扱う必要があります。欠落しているデータポイントは、モニタリング対象の基盤となるリソースに問題があることを示している可能性があるためです。逆に、障害やエラーが発生したときにのみデータポイントを記録するアラームモニタリングメトリクスなど、データポイントを頻繁に報告しないメトリクスをモニタリングするアラームでは、欠落しているデータを「違反でない」(良好) として扱う必要があります。
ワークロードに重大で継続的な影響がある場合に「アラーム」状態になるアラームを定義します。例えば、異常なリソースを最初に検出したときではなく、異常なリソースを自動的に置き換えるのに必要な予想時間後にトリガーするようにアラームを設定します。
ワークロードのカスタマーエクスペリエンスを直接表すカスタムメトリクスのアラームを特定して作成します。
一般的な AWS のサービスに推奨される Amazon CloudWatch アラームのリストについては、AWS re:Post の「Incident Detection and Response Alarm Best Practices」