

# 内容领域 4： 生成式人工智能应用程序的运营效率和优化
<a name="ai-professional-01-domain4"></a>

## 任务 4.1： 实施成本优化和资源效率策略。
<a name="ai-professional-01-task-4-1"></a>
+ 技能 4.1.1： 开发词元效率系统来降低基础模型成本，同时保持模型有效性（例如，使用词元估算和跟踪、上下文窗口优化、响应大小控制、提示压缩、上下文修剪、回复限制）。
+ 技能 4.1.2： 创建经济高效的模型选择框架（例如，使用成本-能力权衡评估，基于查询复杂度的分级基础模型使用，推理成本与回复质量的平衡，性价比测量，高效的推理模式）。
+ 技能 4.1.3： 开发高性能基础模型系统，充分提高生成式人工智能工作负载的资源利用率和吞吐量（例如，使用批处理策略、容量规划、使用率监控、弹性伸缩配置、预置吞吐量优化）。
+ 技能 4.1.4： 创建智能缓存系统，通过避免不必要的基础模型调用来降低成本并缩短响应时间（例如，使用语义缓存、结果指纹识别、边缘缓存、确定性请求哈希、提示缓存）。

## 任务 4.2： 优化应用程序性能。
<a name="ai-professional-01-task-4-2"></a>
+ 技能 4.2.1： 创建响应灵敏的 AI 系统，解决延迟与成本的权衡问题，并改善基础模型的用户体验（例如，使用预计算来执行可预测的查询，为注重时间的应用程序使用延迟优化的 Amazon Bedrock 模型，为复杂工作流使用并行请求，回复流式传输，性能基准测试）。
+ 技能 4.2.2： 增强检索性能，提高检索信息的相关性和速度，用以增强基础模型上下文（例如，使用索引优化、查询预处理、带自定义评分的混合搜索实施方案）。
+ 技能 4.2.3： 实施基础模型吞吐量优化，解决生成式人工智能工作负载的特定吞吐量挑战（例如，使用词元处理优化、批量推理策略、并行模型调用管理）。
+ 技能 4.2.4： 增强基础模型性能，针对特定生成式人工智能使用案例实现优化结果（例如，使用特定于模型的参数配置，通过 A/B 测试评估改进，适当的温度处理，以及根据要求进行 top-k/top-p 选择）。
+ 技能 4.2.5： 创建专用于基础模型工作负载的高效资源分配系统（例如，根据词元处理需求使用容量规划，对提示和完成模式的资源利用率进行监控，针对生成式人工智能流量模式进行优化的弹性伸缩配置）。
+ 技能 4.2.6： 优化生成式人工智能工作流的基础模型系统性能（例如，针对提示-完成模式使用 API 调用分析，针对检索增强的向量数据库查询优化，特定于 LLM 推理的缩短延迟技术，高效的服务通信模式）。

## 任务 4.3： 为生成式人工智能应用程序实施监控系统。
<a name="ai-professional-01-task-4-3"></a>
+ 技能 4.3.1： 创建全面的可观测性系统，提供对基础模型应用程序性能的全面监测能力（例如，使用运营指标、性能跟踪、基础模型交互跟踪、业务影响指标和自定义控制面板）。
+ 技能 4.3.2： 实施全面的生成式人工智能监控系统，主动识别问题，评估特定于基础模型实施的关键绩效指标（例如，使用 CloudWatch 跟踪词元使用情况、提示有效性、幻觉率和回复质量；针对词元爆发模式和回复偏差的异常检测；使用 Amazon Bedrock 模型调用日志进行详细的请求和回复分析、确定性能基准、成本异常检测）。
+ 技能 4.3.3： 开发集成的可观测性解决方案，为基础模型应用程序提供可用于指导操作的见解（例如，使用运营指标控制面板，业务影响力可视化，合规性监控，取证可追溯性和审计日志记录，用户互动跟踪、模型行为模式跟踪）。
+ 技能 4.3.4： 创建工具性能框架来确保为基础模型优化工具操作和利用率（例如，使用调用模式跟踪，收集性能指标，工具调用可观测性和多代理协调跟踪，用于异常检测的使用率基准）。
+ 技能 4.3.5： 创建向量存储操作管理系统，确保优化向量存储操作和可靠性，用于增强基础模型（例如，对向量数据库使用性能监控，自动化索引优化例程，数据质量验证流程）。
+ 技能 4.3.6： 开发特定于基础模型的故障排除框架，用于识别传统 ML 系统中没有的生成式人工智能独有故障模式（例如，使用黄金数据集检测幻觉，使用输出差异对比技术开展回复一致性分析，通过推理路径跟踪来识别逻辑错误，专用可观测性管道）。