内容领域 5: 测试、验证和故障排除
任务 5.1: 为生成式人工智能实施评估系统。
技能 5.1.1: 制定全面的评估框架,在传统 ML 的评估方法之外,利用新方法来评估基础模型输出的质量和有效性(例如,使用相关性、事实准确率、一致性和流畅性指标)。
技能 5.1.2: 创建系统化模型评估系统来确定优化配置(例如,使用 Amazon Bedrock 模型评估、A/B 测试和基础模型的金丝雀测试,多模型评估,通过成本性能分析来衡量词元效率,延迟-质量比率和业务成果)。
技能 5.1.3: 开发以用户为中心的评估机制,根据用户体验持续改进基础模型性能(例如,使用反馈界面,针对模型输出的评级系统,用于评估回复质量的注释工作流)。
技能 5.1.4: 创建系统化质量保证流程,维护一致的基础模型性能标准(例如,使用持续评估工作流,对模型输出进行回归测试,部署自动化质量控制机制)。
技能 5.1.5: 开发全面的评估系统,确保从多个角度对基础模型输出进行全面评估(例如,使用 RAG 评估,使用 LLM-as-a-Judge 技术进行自动质量评估,人员反馈收集界面)。
技能 5.1.6: 实施检索质量测试,评估和优化检索组件来增强基础模型(例如,使用相关性评分,上下文匹配验证,检索延迟测量)。
技能 5.1.7: 开发代理性能框架,确保代理高效且正确地执行任务(例如,任务完成率量度,工具使用有效性评估,Amazon Bedrock 代理评估,多步骤工作流中的推理质量评估)。
技能 5.1.8: 创建全面的报告系统,高效地向利益攸关方传递绩效指标和见解,用于实施基础模型(例如,使用可视化工具,自动报告机制,模型比较可视化)。
技能 5.1.9: 创建部署验证系统,用于在基础模型更新期间保持可靠性(例如,使用合成用户工作流,针对幻觉率和语义漂移的 AI 特定输出验证,通过自动质量检查确保回复一致性)。
任务 5.2: 对生成式人工智能应用程序进行故障排除。
技能 5.2.1: 解决内容处理问题,确保在基础模型交互中完善地处理必要的信息(例如,使用上下文窗口溢出诊断、动态分块策略、提示设计优化、与截断相关的错误分析)。
技能 5.2.2: 诊断和解决基础模型集成问题,识别并修复特定于生成式人工智能服务的 API 集成问题(例如,使用错误日志记录、请求验证、回复分析)。
技能 5.2.3: 对提示工程问题进行故障排除,利用基本提示调整之外的方法,提高基础模型的回复质量和一致性(例如,使用提示测试框架、版本比较、系统化改进)。
技能 5.2.4: 对检索系统问题进行故障排除,识别并解决影响信息检索有效性的问题,来增强基础模型(例如,使用模型回复相关性分析、嵌入质量诊断、漂移监控、向量化问题解决、分块和预处理补救、向量搜索性能优化)。
技能 5.2.5: 对提示维护问题进行故障排除,来持续改进基础模型交互的性能(例如,使用模板测试和 CloudWatch Logs 来诊断提示混淆,使用 X-Ray 实施提示可观测性管道,使用架构验证来检测格式不一致的情况,使用系统化提示优化工作流)。