内容领域 3: 持续改进现有解决方案
任务 3.1: 确定改善整体卓越运营的策略。
掌握以下知识:
警报和自动补救策略
灾难恢复规划
监控和日志记录解决方案(例如 Amazon CloudWatch)
CI/CD 管道和部署策略(例如,蓝/绿、一次性、滚动)
配置管理工具(例如,AWS Systems Manager)
具备以下技能:
确定最合适的日志记录和监控策略
评估当前的部署流程以获得改进机会
确定解决方案堆栈中自动化机会的优先级
推荐合适的 AWS 解决方案以实现配置管理自动化
设计故障场景活动,以支持恢复措施并进行练习来加深对恢复措施的理解
任务 3.2: 确定提高安全性的策略。
掌握以下知识:
数据留存、数据敏感性和数据法规要求
自动监控和补救策略(例如 AWS Config 规则)
密钥管理(例如,Systems Manager、AWS Secrets Manager)
最低权限原则
特定于安全性的 AWS 解决方案
修补做法
备份做法和方法
具备以下技能:
评估密钥和凭证的安全管理策略
审计环境是否符合最低访问权限原则
审查已实施的解决方案,确保各层的安全性
审查用户和服务的全面可追溯性
确定对漏洞检测的自动响应优先级
设计和实施修补及更新流程
设计和实施备份流程
采用补救技术
任务 3.3: 确定提高性能的策略。
掌握以下知识:
高性能系统架构(例如,弹性伸缩、实例集、放置组)
全球服务产品(例如 AWS Global Accelerator、Amazon CloudFront、边缘计算服务)
监控工具集和服务(例如 CloudWatch)
服务等级协议 (SLA) 和关键绩效指标 (KPI)
具备以下技能:
将业务需求转化为可衡量的指标
测试可能的补救解决方案并提出建议
提议采用新技术和托管式服务的机会
评估解决方案并根据需求应用合适的大小调整
识别并检查性能瓶颈
任务 3.4: 确定提高可靠性的策略。
掌握以下知识:
AWS 全球基础设施
数据复制方法
扩展方法(例如,负载均衡、弹性伸缩)
高可用性和韧性
灾难恢复方法和工具
服务配额和限制
具备以下技能:
了解应用程序的增长和使用趋势
评估现有架构以确定不够可靠的区域
修复单点故障
启用数据复制、自我修复以及弹性功能和服务
任务 3.5: 确定成本优化的时机。
掌握以下知识:
注重成本的架构选择(例如,使用竞价型实例、扩缩策略和合理调整资源规模)
采用价格模型(例如,预留实例、AWS 节省计划)
联网和数据传输成本
成本管理、警报和报告
具备以下技能:
分析使用情况报告以确定未充分利用的资源和过度使用的资源
使用 AWS 解决方案识别未使用的资源
根据预期使用模式设计账单警报
精细地调查 AWS 成本和使用情况报告
将标记用于成本分配和报告