任务 5.1：为生成式人工智能实施评估系统。任务 5.2：对生成式人工智能应用程序进行故障排除。

内容领域 5：测试、验证和故障排除

任务 5.1：为生成式人工智能实施评估系统。

技能 5.1.1：制定全面的评估框架，在传统 ML 的评估方法之外，利用新方法来评估基础模型输出的质量和有效性（例如，使用相关性、事实准确率、一致性和流畅性指标）。
技能 5.1.2：创建系统化模型评估系统来确定优化配置（例如，使用 Amazon Bedrock 模型评估、A/B 测试和基础模型的金丝雀测试，多模型评估，通过成本性能分析来衡量词元效率，延迟-质量比率和业务成果）。
技能 5.1.3：开发以用户为中心的评估机制，根据用户体验持续改进基础模型性能（例如，使用反馈界面，针对模型输出的评级系统，用于评估回复质量的注释工作流）。
技能 5.1.4：创建系统化质量保证流程，维护一致的基础模型性能标准（例如，使用持续评估工作流，对模型输出进行回归测试，部署自动化质量控制机制）。
技能 5.1.5：开发全面的评估系统，确保从多个角度对基础模型输出进行全面评估（例如，使用 RAG 评估，使用 LLM-as-a-Judge 技术进行自动质量评估，人员反馈收集界面）。
技能 5.1.6：实施检索质量测试，评估和优化检索组件来增强基础模型（例如，使用相关性评分，上下文匹配验证，检索延迟测量）。
技能 5.1.7：开发代理性能框架，确保代理高效且正确地执行任务（例如，任务完成率量度，工具使用有效性评估，Amazon Bedrock 代理评估，多步骤工作流中的推理质量评估）。
技能 5.1.8：创建全面的报告系统，高效地向利益攸关方传递绩效指标和见解，用于实施基础模型（例如，使用可视化工具，自动报告机制，模型比较可视化）。
技能 5.1.9：创建部署验证系统，用于在基础模型更新期间保持可靠性（例如，使用合成用户工作流，针对幻觉率和语义漂移的 AI 特定输出验证，通过自动质量检查确保回复一致性）。

任务 5.2：对生成式人工智能应用程序进行故障排除。

技能 5.2.1：解决内容处理问题，确保在基础模型交互中完善地处理必要的信息（例如，使用上下文窗口溢出诊断、动态分块策略、提示设计优化、与截断相关的错误分析）。
技能 5.2.2：诊断和解决基础模型集成问题，识别并修复特定于生成式人工智能服务的 API 集成问题（例如，使用错误日志记录、请求验证、回复分析）。
技能 5.2.3：对提示工程问题进行故障排除，利用基本提示调整之外的方法，提高基础模型的回复质量和一致性（例如，使用提示测试框架、版本比较、系统化改进）。
技能 5.2.4：对检索系统问题进行故障排除，识别并解决影响信息检索有效性的问题，来增强基础模型（例如，使用模型回复相关性分析、嵌入质量诊断、漂移监控、向量化问题解决、分块和预处理补救、向量搜索性能优化）。
技能 5.2.5：对提示维护问题进行故障排除，来持续改进基础模型交互的性能（例如，使用模板测试和 CloudWatch Logs 来诊断提示混淆，使用 X-Ray 实施提示可观测性管道，使用架构验证来检测格式不一致的情况，使用系统化提示优化工作流）。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

内容领域 4：生成式人工智能应用程序的运营效率和优化

考试中可能出现的技术和概念

内容领域 5： 测试、验证和故障排除

任务 5.1： 为生成式人工智能实施评估系统。

任务 5.2： 对生成式人工智能应用程序进行故障排除。

内容领域 5：测试、验证和故障排除

任务 5.1：为生成式人工智能实施评估系统。

任务 5.2：对生成式人工智能应用程序进行故障排除。