本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
可观测性和监控
可观察性对于大规模运营事件驱动、人工智能驱动的系统至关重要。与单体应用程序不同,无服务器和生成式 AI 系统是分布式的、无状态的,由临时计算和集成的 AI 服务(例如 Amazon Bedrock 和 Amazon)组成。 SageMaker这些特征需要围绕可见性、关联性和问责制进行全新的思考。
如果没有可观察性,团队将面临以下问题:
-
执行和代理行为中的盲点
-
未被发现的成本异常或绩效回归
-
对模型输出和大型语言模型 (LLM) 质量的洞察力有限
-
难以跨异步工作流程进行根本原因分析
可观察性在无服务器 AI 的以下领域起着至关重要的作用:
-
AI 输出 LLMs 是非确定性的。记录和检查其输出是随着时间的推移验证其正确性的唯一方法。
-
无服务器执行 — AWS Lambda AWS Step Functions、和 Amazon EventBridge 不在固定主机上运行。监控需要基于跟踪,而不是基于服务器。
-
成本和延迟 — Amazon Bedrock 的使用基于代币。Lambda 和 Step Functions 按时长和执行收费。
-
安全与治理 — 必须对提示日志、代理工具使用情况和 API 调用进行审计,并根据身份和角色上下文进行限定。
-
用户体验-故障、延迟或幻觉会影响信任。尽早发现这些问题是保持用户对人工智能系统的信心的关键。
需要监控的关键可观测性指标
下表描述了与可观测性和监控相关的关键指标的重要性。
指标类别 |
指标 |
为什么指标很重要 |
|---|---|---|
代理行为 |
|
揭示意图与行动之间的不一致。 |
成本趋势 |
每个用户或每个会话的推理成本 |
支持 FinOps 报告和分层模型路由决策。 |
调用指标 |
|
验证管道稳定性和错误弹性。 |
知识库检索 |
|
衡量 RAG 管道的表现如何。 |
延迟 |
每个模型的推理延迟 |
|
及时和响应质量 |
|
确保接地工作正常且提示按预期运行。 |
安全性和访问权限 |
按照 IAM 角色划分的代理和工具使用情况 |
确保最低权限和可追溯性原则。 |
代币使用情况 |
输入和输出代币总数(Amazon Bedrock) |
|
工作流程运行状况 |
Step Functions 工作流程失败、重试和超时 |
显示编排问题和重试循环。 |
AWS 服务 用于观察无服务器和生成式 AI
下表描述了支持无服务器 AWS 服务 和生成式 AI 应用程序的可观察性的功能,包括它们的理想用例。
AWS 服务 |
描述 |
理想用例 |
|---|---|---|
捕获来自 Lambda、Step Functions、亚马逊 Bedrock Agents 和亚马逊 API Gateway 的日志 |
|
|
自定义和服务生成的关键性能指标 (KPIs),例如调用次数、持续时间和令牌数量 |
|
|
跨无服务器流程进行跟踪,包括 Lambda、API Gateway 和 Step Functions |
|
|
日志流中高级指标的结构化日志 |
无需单独调用指标即可启用分析 |
|
原生 Amazon Bedrock Agent 执行跟踪、工具调用和 RAG 见解 |
监控代理行为并排除故障 |
|
跟踪和验证流经管道的事件格式 |
|
|
记录所有 API 调用和身份上下文 |
|
|
索引推理响应、结构化日志或审计记录 |
|
|
主动模拟通往测试端点或工作流程的流量 |
确保跨版本的正常运行时间和回归监控 |
示例:监控基于代理的支持工作流程
要有效地监控基于代理的支持工作流程,请考虑在相关的工作流程阶段使用以下指标:
-
用户对 API Gateway 的查询 — 监控响应时间和 5xx 错误。
-
预处理器 Lambda 函数 — 监控冷启动和解析失败。
-
Amazon Bedrock 代理 — 监控提示、工具调用跟踪、代币成本和延迟。
-
工具 Lambda 函数(例如
getOrderStatus)— 监控每个用户的执行时间和工具调用次数。 -
通过知识库进行RAG查询 —监控相关性分数和缺失的基础。
-
后处理器 Lambda 函数-监控架构验证和回退触发器。
-
日志 CloudWatch 和 OpenSearch — 监控会话日志 IDs、跟踪和模拟响应质量。
-
警报 — 监控高故障率、每次会话成本激增和延迟下降的警报。
可观测性最佳实践
考虑以下在无服务器和生成式 AI 工作流程中实现可观察性的最佳实践:
-
仪器 AI 流与结构化日志相结合,以实现跨组件(例如用户会话、跟踪 ID 和模型响应)的关联。
-
使用一致的日志架构来支持下游解析、警报和分析管道。
-
每层发布自定义指标,以帮助跟踪与模型相关的错误与基础设施问题对比。
-
使用环境和上下文标记日志,以便按用户角色、区域、版本或团队进行筛选。
-
使用异常检测警报来检测代币激增、延迟峰值或输出偏差。
-
将 LLM 响应日志与下游影响相关联,将代理输出与决策、升级或故障联系起来。
-
通过每周仪表板自动生成报告,包括及时的成本、模型使用情况和回退率,以推动问责制和改进周期。
可观测性和监测摘要
在 AI 驱动的无服务器系统中,您不监控主机。相反,您可以监控行为、成本和正确性。可观察性为运营弹性、成本控制和预测、法学硕士绩效评估、治理和合规性以及持续的及时和代理改进奠定了基础。
支持 AWS 服务 可观测性和监控以及结构化事件感知遥测的 Native 提供了必要的功能。有了这些功能,团队就可以放心地大规模操作 AI 工作负载,知道发生了什么、在哪里以及为什么。