可观测性和监控

可观察性对于大规模运营事件驱动、人工智能驱动的系统至关重要。与单体应用程序不同，无服务器和生成式 AI 系统是分布式的、无状态的，由临时计算和集成的 AI 服务（例如 Amazon Bedrock 和 Amazon）组成。 SageMaker这些特征需要围绕可见性、关联性和问责制进行全新的思考。

如果没有可观察性，团队将面临以下问题：

可观察性在无服务器 AI 的以下领域起着至关重要的作用：

AI 输出 LLMs 是非确定性的。记录和检查其输出是随着时间的推移验证其正确性的唯一方法。
无服务器执行 — AWS Lambda AWS Step Functions、和 Amazon EventBridge 不在固定主机上运行。监控需要基于跟踪，而不是基于服务器。
成本和延迟 — Amazon Bedrock 的使用基于代币。Lambda 和 Step Functions 按时长和执行收费。
安全与治理 — 必须对提示日志、代理工具使用情况和 API 调用进行审计，并根据身份和角色上下文进行限定。
用户体验-故障、延迟或幻觉会影响信任。尽早发现这些问题是保持用户对人工智能系统的信心的关键。

需要监控的关键可观测性指标

下表描述了与可观测性和监控相关的关键指标的重要性。

指标类别	指标	为什么指标很重要
代理行为	刀具选择率工具调用无效	揭示意图与行动之间的不一致。
成本趋势	每个用户或每个会话的推理成本	支持 FinOps 报告和分层模型路由决策。
调用指标	Lambda 调用错误率冷启动	验证管道稳定性和错误弹性。
知识库检索	命中/失败率基础相关性分数	衡量 RAG 管道的表现如何。
延迟	每个模型的推理延迟	在 Amazon Bedrock 中检测速度减速或者。 SageMaker 优化用户响应时间。
及时和响应质量	幻觉率回退率	确保接地工作正常且提示按预期运行。
安全性和访问权限	按照 IAM 角色划分的代理和工具使用情况	确保最低权限和可追溯性原则。
代币使用情况	输入和输出代币总数（Amazon Bedrock）	控制成本。检测提示膨胀或模型滥用。
工作流程运行状况	Step Functions 工作流程失败、重试和超时	显示编排问题和重试循环。

下表描述了支持无服务器 AWS 服务和生成式 AI 应用程序的可观察性的功能，包括它们的理想用例。

AWS 服务	描述	理想用例
Amazon CloudWatch 日志	捕获来自 Lambda、Step Functions、亚马逊 Bedrock Agents 和亚马逊 API Gateway 的日志	调试审核跟踪用户会话跟踪
亚马逊 CloudWatch 指标	自定义和服务生成的关键性能指标 (KPIs)，例如调用次数、持续时间和令牌数量	控制面板警报趋势分析
AWS X-Ray	跨无服务器流程进行跟踪，包括 Lambda、API Gateway 和 Step Functions	根本原因分析延迟跟踪依赖关系映射
CloudWatch 嵌入式指标格式	日志流中高级指标的结构化日志	无需单独调用指标即可启用分析
Amazon Bedrock 代理跟踪和模型调用日志	原生 Amazon Bedrock Agent 执行跟踪、工具调用和 RAG 见解	监控代理行为并排除故障
Amazon Pip EventBridge es 和架构注册表	跟踪和验证流经管道的事件格式	防止格式错误的事件确保合同一致性
AWS CloudTrail	记录所有 API 调用和身份上下文	合规安全审计按角色划分的代理和工具使用情况
亚马逊 OpenSearch 服务	索引推理响应、结构化日志或审计记录	对响应进行语义搜索可观测性控制面板
Amazon S CloudWatch ynthetics	主动模拟通往测试端点或工作流程的流量	确保跨版本的正常运行时间和回归监控

要有效地监控基于代理的支持工作流程，请考虑在相关的工作流程阶段使用以下指标：

考虑以下在无服务器和生成式 AI 工作流程中实现可观察性的最佳实践：

在 AI 驱动的无服务器系统中，您不监控主机。相反，您可以监控行为、成本和正确性。可观察性为运营弹性、成本控制和预测、法学硕士绩效评估、治理和合规性以及持续的及时和代理改进奠定了基础。

支持 AWS 服务可观测性和监控以及结构化事件感知遥测的 Native 提供了必要的功能。有了这些功能，团队就可以放心地大规模操作 AI 工作负载，知道发生了什么、在哪里以及为什么。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

测试和验证

安全和治理