# 内容领域 5： 测试、验证和故障排除
<a name="ai-professional-01-domain5"></a>

## 任务 5.1： 为生成式人工智能实施评估系统。
<a name="ai-professional-01-task-5-1"></a>
+ 技能 5.1.1： 制定全面的评估框架，在传统 ML 的评估方法之外，利用新方法来评估基础模型输出的质量和有效性（例如，使用相关性、事实准确率、一致性和流畅性指标）。
+ 技能 5.1.2： 创建系统化模型评估系统来确定优化配置（例如，使用 Amazon Bedrock 模型评估、A/B 测试和基础模型的金丝雀测试，多模型评估，通过成本性能分析来衡量词元效率，延迟-质量比率和业务成果）。
+ 技能 5.1.3： 开发以用户为中心的评估机制，根据用户体验持续改进基础模型性能（例如，使用反馈界面，针对模型输出的评级系统，用于评估回复质量的注释工作流）。
+ 技能 5.1.4： 创建系统化质量保证流程，维护一致的基础模型性能标准（例如，使用持续评估工作流，对模型输出进行回归测试，部署自动化质量控制机制）。
+ 技能 5.1.5： 开发全面的评估系统，确保从多个角度对基础模型输出进行全面评估（例如，使用 RAG 评估，使用 LLM-as-a-Judge 技术进行自动质量评估，人员反馈收集界面）。
+ 技能 5.1.6： 实施检索质量测试，评估和优化检索组件来增强基础模型（例如，使用相关性评分，上下文匹配验证，检索延迟测量）。
+ 技能 5.1.7： 开发代理性能框架，确保代理高效且正确地执行任务（例如，任务完成率量度，工具使用有效性评估，Amazon Bedrock 代理评估，多步骤工作流中的推理质量评估）。
+ 技能 5.1.8： 创建全面的报告系统，高效地向利益攸关方传递绩效指标和见解，用于实施基础模型（例如，使用可视化工具，自动报告机制，模型比较可视化）。
+ 技能 5.1.9： 创建部署验证系统，用于在基础模型更新期间保持可靠性（例如，使用合成用户工作流，针对幻觉率和语义漂移的 AI 特定输出验证，通过自动质量检查确保回复一致性）。

## 任务 5.2： 对生成式人工智能应用程序进行故障排除。
<a name="ai-professional-01-task-5-2"></a>
+ 技能 5.2.1： 解决内容处理问题，确保在基础模型交互中完善地处理必要的信息（例如，使用上下文窗口溢出诊断、动态分块策略、提示设计优化、与截断相关的错误分析）。
+ 技能 5.2.2： 诊断和解决基础模型集成问题，识别并修复特定于生成式人工智能服务的 API 集成问题（例如，使用错误日志记录、请求验证、回复分析）。
+ 技能 5.2.3： 对提示工程问题进行故障排除，利用基本提示调整之外的方法，提高基础模型的回复质量和一致性（例如，使用提示测试框架、版本比较、系统化改进）。
+ 技能 5.2.4： 对检索系统问题进行故障排除，识别并解决影响信息检索有效性的问题，来增强基础模型（例如，使用模型回复相关性分析、嵌入质量诊断、漂移监控、向量化问题解决、分块和预处理补救、向量搜索性能优化）。
+ 技能 5.2.5： 对提示维护问题进行故障排除，来持续改进基础模型交互的性能（例如，使用模板测试和 CloudWatch Logs 来诊断提示混淆，使用 X-Ray 实施提示可观测性管道，使用架构验证来检测格式不一致的情况，使用系统化提示优化工作流）。