任务 4.1：实施成本优化和资源效率策略。任务 4.2：优化应用程序性能。任务 4.3：为生成式人工智能应用程序实施监控系统。

内容领域 4：生成式人工智能应用程序的运营效率和优化

任务 4.1：实施成本优化和资源效率策略。

技能 4.1.1：开发词元效率系统来降低基础模型成本，同时保持模型有效性（例如：使用词元估算和跟踪、上下文窗口优化、响应大小控制、提示压缩、上下文修剪、回复限制）。
技能 4.1.2：创建经济高效的模型选择框架（例如：使用成本-能力权衡评估，基于查询复杂度的分级基础模型使用，推理成本与回复质量的平衡，性价比测量，高效的推理模式）。
技能 4.1.3：开发高性能基础模型系统，充分提高生成式人工智能工作负载的资源利用率和吞吐量（例如：使用批处理策略、容量规划、使用率监控、弹性伸缩配置、预置吞吐量优化）。
技能 4.1.4：创建智能缓存系统，通过避免不必要的基础模型调用来降低成本并缩短响应时间（例如：使用语义缓存、结果指纹识别、边缘缓存、确定性请求哈希、提示缓存）。

任务 4.2：优化应用程序性能。

技能 4.2.1：创建响应灵敏的 AI 系统，解决延迟与成本的权衡问题，并改善基础模型的用户体验（例如：使用预计算来执行可预测的查询，为注重时间的应用程序使用延迟优化的 Amazon Bedrock 模型，为复杂工作流使用并行请求，回复流式传输，性能基准测试）。
技能 4.2.2：增强检索性能，提高检索信息的相关性和速度，用以增强基础模型上下文（例如：使用索引优化、查询预处理、带自定义评分的混合搜索实施方案）。
技能 4.2.3：实施基础模型吞吐量优化，解决生成式人工智能工作负载的特定吞吐量挑战（例如：使用词元处理优化、批量推理策略、并行模型调用管理）。
技能 4.2.4：增强基础模型性能，针对特定生成式人工智能使用案例实现优化结果（例如：使用特定于模型的参数配置，通过 A/B 测试评估改进，适当的温度处理，以及根据要求进行 top-k/top-p 选择）。
技能 4.2.5：创建专用于基础模型工作负载的高效资源分配系统（例如：根据词元处理需求使用容量规划，对提示和完成模式的资源利用率进行监控，针对生成式人工智能流量模式进行优化的弹性伸缩配置）。
技能 4.2.6：优化生成式人工智能工作流的基础模型系统性能（例如：针对提示-完成模式使用 API 调用分析，针对检索增强的向量数据库查询优化，特定于 LLM 推理的缩短延迟技术，高效的服务通信模式）。

任务 4.3：为生成式人工智能应用程序实施监控系统。

技能 4.3.1：创建全面的可观测性系统，提供对基础模型应用程序性能的全面监测能力（例如：使用运营指标、性能跟踪、基础模型交互跟踪、业务影响指标和自定义控制面板）。
技能 4.3.2：实施全面的生成式人工智能监控系统，主动识别问题，评估特定于基础模型实施的关键绩效指标（例如：使用 CloudWatch 跟踪词元使用情况、提示有效性、幻觉率和回复质量；针对词元爆发模式和回复偏差的异常检测；使用 Amazon Bedrock 模型调用日志进行详细的请求和回复分析、确定性能基准、成本异常检测）。
技能 4.3.3：开发集成的可观测性解决方案，为基础模型应用程序提供可用于指导操作的见解（例如：使用运营指标控制面板，业务影响力可视化，合规性监控，取证可追溯性和审计日志记录，用户互动跟踪、模型行为模式跟踪）。
技能 4.3.4：创建工具性能框架来确保为基础模型优化工具操作和利用率（例如：使用调用模式跟踪，收集性能指标，工具调用可观测性和多代理协调跟踪，用于异常检测的使用率基准）。
技能 4.3.5：创建向量存储操作管理系统，确保优化向量存储操作和可靠性，用于增强基础模型（例如：对向量数据库使用性能监控，自动化索引优化例程，数据质量验证流程）。
技能 4.3.6：开发特定于基础模型的故障排除框架，用于识别传统 ML 系统中没有的生成式人工智能独有故障模式（例如：使用黄金数据集检测幻觉，使用输出差异对比技术开展回复一致性分析，通过推理路径跟踪来识别逻辑错误，专用可观测性管道）。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

内容领域 3： AI 安全、保障与监管

内容领域 5：测试、验证和故障排除

内容领域 4： 生成式人工智能应用程序的运营效率和优化

任务 4.1： 实施成本优化和资源效率策略。

任务 4.2： 优化应用程序性能。

任务 4.3： 为生成式人工智能应用程序实施监控系统。

内容领域 4：生成式人工智能应用程序的运营效率和优化

任务 4.1：实施成本优化和资源效率策略。

任务 4.2：优化应用程序性能。

任务 4.3：为生成式人工智能应用程序实施监控系统。