View a markdown version of this page

内容领域 4: 生成式人工智能应用程序的运营效率和优化 - AWS Certified Generative AI Developer - Professional

内容领域 4: 生成式人工智能应用程序的运营效率和优化

任务 4.1: 实施成本优化和资源效率策略。

  • 技能 4.1.1: 开发词元效率系统来降低基础模型成本,同时保持模型有效性(例如,使用词元估算和跟踪、上下文窗口优化、响应大小控制、提示压缩、上下文修剪、回复限制)。

  • 技能 4.1.2: 创建经济高效的模型选择框架(例如,使用成本-能力权衡评估,基于查询复杂度的分级基础模型使用,推理成本与回复质量的平衡,性价比测量,高效的推理模式)。

  • 技能 4.1.3: 开发高性能基础模型系统,充分提高生成式人工智能工作负载的资源利用率和吞吐量(例如,使用批处理策略、容量规划、使用率监控、弹性伸缩配置、预置吞吐量优化)。

  • 技能 4.1.4: 创建智能缓存系统,通过避免不必要的基础模型调用来降低成本并缩短响应时间(例如,使用语义缓存、结果指纹识别、边缘缓存、确定性请求哈希、提示缓存)。

任务 4.2: 优化应用程序性能。

  • 技能 4.2.1: 创建响应灵敏的 AI 系统,解决延迟与成本的权衡问题,并改善基础模型的用户体验(例如,使用预计算来执行可预测的查询,为注重时间的应用程序使用延迟优化的 Amazon Bedrock 模型,为复杂工作流使用并行请求,回复流式传输,性能基准测试)。

  • 技能 4.2.2: 增强检索性能,提高检索信息的相关性和速度,用以增强基础模型上下文(例如,使用索引优化、查询预处理、带自定义评分的混合搜索实施方案)。

  • 技能 4.2.3: 实施基础模型吞吐量优化,解决生成式人工智能工作负载的特定吞吐量挑战(例如,使用词元处理优化、批量推理策略、并行模型调用管理)。

  • 技能 4.2.4: 增强基础模型性能,针对特定生成式人工智能使用案例实现优化结果(例如,使用特定于模型的参数配置,通过 A/B 测试评估改进,适当的温度处理,以及根据要求进行 top-k/top-p 选择)。

  • 技能 4.2.5: 创建专用于基础模型工作负载的高效资源分配系统(例如,根据词元处理需求使用容量规划,对提示和完成模式的资源利用率进行监控,针对生成式人工智能流量模式进行优化的弹性伸缩配置)。

  • 技能 4.2.6: 优化生成式人工智能工作流的基础模型系统性能(例如,针对提示-完成模式使用 API 调用分析,针对检索增强的向量数据库查询优化,特定于 LLM 推理的缩短延迟技术,高效的服务通信模式)。

任务 4.3: 为生成式人工智能应用程序实施监控系统。

  • 技能 4.3.1: 创建全面的可观测性系统,提供对基础模型应用程序性能的全面监测能力(例如,使用运营指标、性能跟踪、基础模型交互跟踪、业务影响指标和自定义控制面板)。

  • 技能 4.3.2: 实施全面的生成式人工智能监控系统,主动识别问题,评估特定于基础模型实施的关键绩效指标(例如,使用 CloudWatch 跟踪词元使用情况、提示有效性、幻觉率和回复质量;针对词元爆发模式和回复偏差的异常检测;使用 Amazon Bedrock 模型调用日志进行详细的请求和回复分析、确定性能基准、成本异常检测)。

  • 技能 4.3.3: 开发集成的可观测性解决方案,为基础模型应用程序提供可用于指导操作的见解(例如,使用运营指标控制面板,业务影响力可视化,合规性监控,取证可追溯性和审计日志记录,用户互动跟踪、模型行为模式跟踪)。

  • 技能 4.3.4: 创建工具性能框架来确保为基础模型优化工具操作和利用率(例如,使用调用模式跟踪,收集性能指标,工具调用可观测性和多代理协调跟踪,用于异常检测的使用率基准)。

  • 技能 4.3.5: 创建向量存储操作管理系统,确保优化向量存储操作和可靠性,用于增强基础模型(例如,对向量数据库使用性能监控,自动化索引优化例程,数据质量验证流程)。

  • 技能 4.3.6: 开发特定于基础模型的故障排除框架,用于识别传统 ML 系统中没有的生成式人工智能独有故障模式(例如,使用黄金数据集检测幻觉,使用输出差异对比技术开展回复一致性分析,通过推理路径跟踪来识别逻辑错误,专用可观测性管道)。