

# OPS08-BP04 実践的なアラートを作成する
<a name="ops_workload_observability_create_alerts"></a>

 アプリケーションの動作の逸脱を迅速に検出して対応することが重要です。特に重要なのは、主要業績評価指標 (KPI) に基づく成果がリスクにさらされている場合や、予期しない異常が発生した場合を認識することです。KPI に基づいてアラートを送信することで、受信される警告が直接的に業務や運用上の影響と関連付けられるようになります。実践的なアラートに関するこのようなアプローチを採用すると、積極的な対応の促進とシステムのパフォーマンスと信頼性の維持につながります。

 **期待される成果:** 特に KPI の結果がリスクにさらされている場合に、潜在的な問題を迅速に特定して軽減するための、タイムリーで関連性のある実用的なアラートを受け取ることができます。

 **一般的なアンチパターン:** 
+  重大ではないアラートを多数設定しすぎて、アラート疲れを引き起こしている。
+  アラートに KPI に基づく優先順位付けを行っていないため、問題が業務に及ぼす影響を把握できにくくなっている。
+  根本原因への対処を怠っているため、同じ問題について繰り返しアラートが送信される。

 **このベストプラクティスを活用するメリット:** 
+  実践的で関連性の高いアラートに重点を置くことで、アラート疲労を軽減します。
+  問題を事前に検出して軽減することで、システムの稼働時間と信頼性が向上します。
+  一般的なアラートツールやコミュニケーションツールと統合することで、チームのコラボレーションを強化し、問題を迅速に解決できます。

 **このベストプラクティスを活用しない場合のリスクレベル:** 高 

## 実装のガイダンス
<a name="implementation-guidance"></a>

 効果的なアラートメカニズムを構築するには、KPI に基づく結果がリスクにさらされている場合や異常が検出された場合にフラグを立てるメトリクス、ログ、トレースデータを使用することが重要です。

### 実装手順
<a name="implementation-steps"></a>

1.  **主要業績評価指標 (KPI) を決定する**: アプリケーションの KPI を特定します。正確に業務への影響を反映するには、アラートをこのような KPI に関連付ける必要があります。

1.  **異常検出の実装**: 
   +  **Amazon CloudWatch 異常検出を使用する**: [Amazon CloudWatch 異常検出](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)を設定して、異常なパターンを自動的に検出します。これにより、真の異常に関するアラートのみが生成されます。
   +  **AWS X-Ray Insights の使用**: 

     1.  [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) を設定して、トレースデータの異常を検出します。

     1.  検出された問題について警告するように、[X-Ray Insights の通知](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications)を設定します。
   +  **Amazon DevOps Guru との統合**: 

     1.  [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) の機械学習機能を活用して、既存データの運用上の異常を検出します。

     1.  DevOps Guru の [[通知設定]](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) に移動して、異常アラートを設定します。

1.  **実践的なアラートを実装する**: 迅速なアクションに必要な、適切な情報を提供するアラートを設計します。

   1.  [Amazon EventBridge ルールで AWS Health イベント](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html)をモニタリングするか、プログラムで AWS Health API と統合して、AWS Health イベント受信時のアクションを自動化します。これらのアクションには、計画されたすべてのライフサイクルイベントメッセージをチャットインターフェイスに送信するなどの一般的なアクションや、IT サービス管理ツールでのワークフローの開始などの特定のアクションがあります。

1.  **アラート疲れを軽減する:** 重要でないアラートを最小限に抑えます。多数の重要でないアラートによりチームに負担がかかると、重大な問題の見落としにつながり、アラートメカニズムの全体的な有効性が低下する場合があります。

1.  **複合アラームを設定する**: [Amazon CloudWatch 複合アラーム](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/)を使用して、複数のアラームを統合します。

1.  **アラートツールと統合する**: [Ops Genie](https://www.atlassian.com/software/opsgenie) や [PagerDuty](https://www.pagerduty.com/) などのツールを組み込みます。

1.  **Amazon Q Developer in chat applications を利用する**: [Amazon Q Developer in chat applications](https://aws.amazon.com/chatbot/) との統合により、Amazon Chime、Microsoft Teams、Slack にアラートを中継します。

1.  **ログに基づくアラート**: CloudWatch の[ログメトリクスフィルター](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html)を使用して、特定のログイベントに基づいてアラームを作成します。

1.  **レビューと反復**: アラート設定を定期的に見直して調整します。

 **実装計画に必要な工数レベル:** 中 

## リソース
<a name="resources"></a>

 **関連するベストプラクティス:** 
+  [OPS04-BP01 主要業績評価指標を特定する](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 アプリケーションテレメトリを実装する](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 ユーザーエクスペリエンステレメトリを実装する](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 依存関係のテレメトリを実装する](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 分散トレースを実装する](ops_observability_dist_trace.md) 
+  [OPS08-BP01 ワークロードメトリクスを分析する](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 ワークロードログを分析する](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 ワークロードのトレースを分析する](ops_workload_observability_analyze_workload_traces.md) 

 **関連ドキュメント:** 
+  [Amazon CloudWatch でのアラームの使用](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [アラームの組み合わせ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [異常検出に基づいて CloudWatch アラームを作成する](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [DevOps Guru 通知](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [X-Ray インサイト通知](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [インタラクティブな ChatOps による AWS リソースのモニタリング、運用、トラブルシューティング](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch 統合ガイド \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [OpsGenie を Amazon CloudWatch と統合する](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **関連動画:** 
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Amazon Q Developer in chat applications の概要](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air: Amazon Q Developer in chat applications での Mutative Commands](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **関連する例:** 
+  [Amazon CloudWatch を使用したクラウドでのアラーム、インシデント管理、修復](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [チュートリアル: Amazon Q Developer in chat applications に通知を送信する Amazon EventBridge ルールの作成](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [1 つのオブザーバビリティワークショップ](https://catalog.workshops.aws/observability/en-US/intro) 