本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为 CDN 和集成设置监控和 MediaTailor 扩展
<a name="setup-monitoring"></a>

有效的监控和扩展策略对于通过 AWS Elemental MediaTailor 内容交付网络 (CDN) 集成保持最佳性能和观众体验至关重要。实施这些方法可确保您的 CDN 集成大规模可靠运行。

实施以下监控和扩展策略：

1. 为这些关键指标配置监控。有关适当目标值的指导，请参阅 [Amazon 监控 MediaTailor CloudWatch](https://docs.aws.amazon.com/mediatailor/latest/ug/monitoring-cloudwatch-metrics.html)并查阅 CDN 提供商的最佳实践：
   + CDN 缓存命中率（根据您的内容类型和交付模式建立基准指标和目标）
   + 原始请求量（在正常操作期间监控模式以建立异常检测基准）
   + 按错误类型划分的错误率（根据您的服务级别目标和 MediaTailor 最佳实践定义阈值）
   + 响应时间（根据您的观众体验要求和地理分布设置适当的延迟目标）

   有关详细的实施说明，请参阅[创建 CloudWatch 仪表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)以将您的指标 MediaTailor 和 CDN 指标一起可视化。

1. 针对意外流量模式或性能下降设置警报。根据您的基准指标和服务级别目标配置阈值。有关设置提醒的指导，请参阅[创建 Amazon CloudWatch 警报](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)。考虑监控：
   + 与基准缓存命中率存在显著偏差（通常在低于 85-90% 时发出警报）
   + 源站请求量突然增加（比基线增加 30% 或更多时发出警报）
   + 错误率峰值超过您定义的阈值（4xx 错误通常为 1-2%，5xx 错误通常为 0.5%）
   + 响应时间降级超过可接受的水平（清单通常大于 500 毫秒，区段通常超过 200 毫秒）

   有关实施示例，请参阅创建有效监控仪表板和警报的[CloudWatch 概念](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_concepts.html)。

1. 为可预测的高流量事件制定扩展计划。您的计划应包括以下关键要素：
   + 活动前容量增加（活动开始前 24-48 小时）
   + 逐步增加观众的时间表（通常每 5 分钟间隔占预期观众的 10-20%）
   + 基于受众的区域容量分布（根据预期的区域收视率按比例分配容量）
   + 事件后扩展程序（活动结束后在 30-60 分钟内保持峰值容量）

   有关针对高流量事件进行扩展的实施指南，请参阅 AWS 媒体博客上的 “[设置弹性 end-to-end实时工作流程](https://aws.amazon.com/blogs/media/part-1-how-to-set-up-a-resilient-end-to-end-live-workflow/)”。

1. 为关键数据流实施故障转移和冗余措施，包括：
   + 多区域 CDN 部署（至少两个区域用于关键内容）
   + Backup 源服务器（配置为每 30 秒自动进行一次运行状况检查）
   + 根据运行状况检查自动触发故障转移（通常在 2-3 次检查失败之后）
   + 针对不同故障情形的恢复程序（记录在具体的响应时间目标中）

   有关详细的实施步骤，请参阅[使用 CloudFront 源故障转移优化高可用性](https://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/high_availability_origin_failover.html)。