View a markdown version of this page

可观测性和监控 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

可观测性和监控

可观察性对于大规模运营事件驱动、人工智能驱动的系统至关重要。与单体应用程序不同,无服务器和生成式 AI 系统是分布式的、无状态的,由临时计算和集成的 AI 服务(例如 Amazon Bedrock 和 Amazon)组成。 SageMaker这些特征需要围绕可见性、关联性和问责制进行全新的思考。

如果没有可观察性,团队将面临以下问题:

  • 执行和代理行为中的盲点

  • 未被发现的成本异常或绩效回归

  • 对模型输出和大型语言模型 (LLM) 质量的洞察力有限

  • 难以跨异步工作流程进行根本原因分析

可观察性在无服务器 AI 的以下领域起着至关重要的作用:

  • AI 输出 LLMs 是非确定性的。记录和检查其输出是随着时间的推移验证其正确性的唯一方法。

  • 无服务器执行 — AWS Lambda AWS Step Functions、和 Amazon EventBridge 不在固定主机上运行。监控需要基于跟踪,而不是基于服务器。

  • 成本和延迟 — Amazon Bedrock 的使用基于代币。Lambda 和 Step Functions 按时长和执行收费。

  • 安全与治理 — 必须对提示日志、代理工具使用情况和 API 调用进行审计,并根据身份和角色上下文进行限定。

  • 用户体验-故障、延迟或幻觉会影响信任。尽早发现这些问题是保持用户对人工智能系统的信心的关键。

需要监控的关键可观测性指标

下表描述了与可观测性和监控相关的关键指标的重要性。

指标类别

指标

为什么指标很重要

代理行为

  • 刀具选择率

  • 工具调用无效

揭示意图与行动之间的不一致。

成本趋势

每个用户或每个会话的推理成本

支持 FinOps 报告和分层模型路由决策。

调用指标

  • Lambda 调用

  • 错误率

  • 冷启动

验证管道稳定性和错误弹性。

知识库检索

  • 命中/失败率

  • 基础相关性分数

衡量 RAG 管道的表现如何。

延迟

每个模型的推理延迟

  • 在 Amazon Bedrock 中检测速度减速或者。 SageMaker

  • 优化用户响应时间。

及时和响应质量

  • 幻觉率

  • 回退率

确保接地工作正常且提示按预期运行。

安全性和访问权限

按照 IAM 角色划分的代理和工具使用情况

确保最低权限和可追溯性原则。

代币使用情况

输入和输出代币总数(Amazon Bedrock)

  • 控制成本。

  • 检测提示膨胀或模型滥用。

工作流程运行状况

Step Functions 工作流程失败、重试和超时

显示编排问题和重试循环。

AWS 服务 用于观察无服务器和生成式 AI

下表描述了支持无服务器 AWS 服务 和生成式 AI 应用程序的可观察性的功能,包括它们的理想用例。

AWS 服务

描述

理想用例

Amazon CloudWatch 日志

捕获来自 Lambda、Step Functions、亚马逊 Bedrock Agents 和亚马逊 API Gateway 的日志

  • 调试

  • 审核跟踪

  • 用户会话跟踪

亚马逊 CloudWatch 指标

自定义和服务生成的关键性能指标 (KPIs),例如调用次数、持续时间和令牌数量

  • 控制面板

  • 警报

  • 趋势分析

AWS X-Ray

跨无服务器流程进行跟踪,包括 Lambda、API Gateway 和 Step Functions

  • 根本原因分析

  • 延迟跟踪

  • 依赖关系映射

CloudWatch 嵌入式指标格式

日志流中高级指标的结构化日志

无需单独调用指标即可启用分析

Amazon Bedrock 代理跟踪模型调用日志

原生 Amazon Bedrock Agent 执行跟踪、工具调用和 RAG 见解

监控代理行为并排除故障

Amazon Pip EventBridge es架构注册表

跟踪和验证流经管道的事件格式

  • 防止格式错误的事件

  • 确保合同一致性

AWS CloudTrail

记录所有 API 调用和身份上下文

  • 合规

  • 安全审计

  • 按角色划分的代理和工具使用情况

亚马逊 OpenSearch 服务

索引推理响应、结构化日志或审计记录

  • 对响应进行语义搜索

  • 可观测性控制面板

Amazon S CloudWatch ynthetics

主动模拟通往测试端点或工作流程的流量

确保跨版本的正常运行时间和回归监控

示例:监控基于代理的支持工作流程

要有效地监控基于代理的支持工作流程,请考虑在相关的工作流程阶段使用以下指标:

  1. 用户对 API Gateway 的查询 — 监控响应时间和 5xx 错误。

  2. 预处理器 Lambda 函数 — 监控冷启动和解析失败。

  3. Amazon Bedrock 代理 — 监控提示、工具调用跟踪、代币成本和延迟。

  4. 工具 Lambda 函数(例如getOrderStatus)— 监控每个用户的执行时间和工具调用次数。

  5. 通过知识库进行RAG查询 —监控相关性分数和缺失的基础。

  6. 后处理器 Lambda 函数-监控架构验证和回退触发器。

  7. 日志 CloudWatch 和 OpenSearch — 监控会话日志 IDs、跟踪和模拟响应质量。

  8. 报 — 监控高故障率、每次会话成本激增和延迟下降的警报。

可观测性最佳实践

考虑以下在无服务器和生成式 AI 工作流程中实现可观察性的最佳实践:

  • 仪器 AI 流与结构化日志相结合,以实现跨组件(例如用户会话、跟踪 ID 和模型响应)的关联。

  • 使用一致的日志架构来支持下游解析、警报和分析管道。

  • 每层发布自定义指标,以帮助跟踪与模型相关的错误与基础设施问题对比。

  • 使用环境和上下文标记日志,以便按用户角色、区域、版本或团队进行筛选。

  • 使用异常检测警报来检测代币激增、延迟峰值或输出偏差。

  • 将 LLM 响应日志与下游影响相关联,将代理输出与决策、升级或故障联系起来。

  • 通过每周仪表板自动生成报告,包括及时的成本、模型使用情况和回退率,以推动问责制和改进周期。

可观测性和监测摘要

在 AI 驱动的无服务器系统中,您不监控主机。相反,您可以监控行为、成本和正确性。可观察性为运营弹性、成本控制和预测、法学硕士绩效评估、治理和合规性以及持续的及时和代理改进奠定了基础。

支持 AWS 服务 可观测性和监控以及结构化事件感知遥测的 Native 提供了必要的功能。有了这些功能,团队就可以放心地大规模操作 AI 工作负载,知道发生了什么、在哪里以及为什么。