本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 可观测性和监控
<a name="observability-and-monitoring"></a>

可观察性对于大规模运营事件驱动、人工智能驱动的系统至关重要。与单体应用程序不同，无服务器和生成式 AI 系统是分布式的、无状态的，由临时计算和集成的 AI 服务（例如 Amazon Bedrock 和 Amazon）组成。 SageMaker这些特征需要围绕可见性、关联性和问责制进行全新的思考。

如果没有可观察性，团队将面临以下问题：
+ 执行和代理行为中的盲点
+ 未被发现的成本异常或绩效回归
+ 对模型输出和大型语言模型 (LLM) 质量的洞察力有限
+ 难以跨异步工作流程进行根本原因分析

可观察性在无服务器 AI 的以下领域起着至关重要的作用：
+ **AI 输出** LLMs 是非确定性的。记录和检查其输出是随着时间的推移验证其正确性的唯一方法。
+ **无服务器执行** — AWS Lambda AWS Step Functions、和 Amazon EventBridge 不在固定主机上运行。监控需要基于跟踪，而不是基于服务器。
+ **成本和延迟** — Amazon Bedrock 的使用基于代币。Lambda 和 Step Functions 按时长和执行收费。
+ **安全与治理** — 必须对提示日志、代理工具使用情况和 API 调用进行审计，并根据身份和角色上下文进行限定。
+ **用户体验**-故障、延迟或幻觉会影响信任。尽早发现这些问题是保持用户对人工智能系统的信心的关键。

## 需要监控的关键可观测性指标
<a name="section-observability-key-metrics"></a>

下表描述了与可观测性和监控相关的关键指标的重要性。


| 
| 
| **指标类别** | **指标** | **为什么指标很重要** | 
| --- |--- |--- |
| 代理行为 |   刀具选择率   工具调用无效   | 揭示意图与行动之间的不一致。 | 
| 成本趋势 | 每个用户或每个会话的推理成本 | 支持 FinOps 报告和分层模型路由决策。 | 
| 调用指标 |   Lambda 调用   错误率   冷启动   | 验证管道稳定性和错误弹性。 | 
| 知识库检索 |   命中/失败率   基础相关性分数   | 衡量 RAG 管道的表现如何。 | 
| 延迟 | 每个模型的推理延迟 |   在 Amazon Bedrock 中检测速度减速或者。 SageMaker   优化用户响应时间。   | 
| 及时和响应质量 |   幻觉率   回退率   | 确保接地工作正常且提示按预期运行。 | 
| 安全性和访问权限 | 按照 IAM 角色划分的代理和工具使用情况 | 确保最低权限和可追溯性原则。 | 
| 代币使用情况 | 输入和输出代币总数（Amazon Bedrock） |   控制成本。   检测提示膨胀或模型滥用。   | 
| 工作流程运行状况 | Step Functions 工作流程失败、重试和超时 | 显示编排问题和重试循环。 | 

## AWS 服务 用于观察无服务器和生成式 AI
<a name="section-observability-aws-services"></a>

下表描述了支持无服务器 AWS 服务 和生成式 AI 应用程序的可观察性的功能，包括它们的理想用例。


| 
| 
| **AWS 服务** | **描述** | **理想用例** | 
| --- |--- |--- |
| [Amazon CloudWatch 日志](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) | 捕获来自 Lambda、Step Functions、亚马逊 Bedrock Agents 和亚马逊 API Gateway 的日志 |   调试   审核跟踪   用户会话跟踪   | 
| [亚马逊 CloudWatch 指标](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) | 自定义和服务生成的关键性能指标 (KPIs)，例如调用次数、持续时间和令牌数量 |   控制面板   警报    趋势分析   | 
| [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) | 跨无服务器流程进行跟踪，包括 Lambda、API Gateway 和 Step Functions |   根本原因分析   延迟跟踪   依赖关系映射   | 
| [CloudWatch 嵌入式指标格式](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Embedded_Metric_Format.html) | 日志流中高级指标的结构化日志 | 无需单独调用指标即可启用分析 | 
| [Amazon Bedrock 代理跟踪](https://docs.aws.amazon.com/bedrock/latest/userguide/trace-events.html)和[模型调用](https://docs.aws.amazon.com/bedrock/latest/userguide/model-invocation-logging.html)日志 | 原生 Amazon Bedrock Agent 执行跟踪、工具调用和 RAG 见解 | 监控代理行为并排除故障 | 
| [Amazon Pip EventBridge es](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-pipes.html) 和[架构注册表](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-schema-registry.html) | 跟踪和验证流经管道的事件格式 |   防止格式错误的事件    确保合同一致性   | 
| [AWS CloudTrail](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-user-guide.html) | 记录所有 API 调用和身份上下文 |   合规   安全审计   按角色划分的代理和工具使用情况   | 
| [亚马逊 OpenSearch 服务](https://docs.aws.amazon.com/whitepapers/latest/big-data-analytics-options/elasticsearch.html) | 索引推理响应、结构化日志或审计记录 |   对响应进行语义搜索    可观测性控制面板   | 
| [Amazon S CloudWatch ynthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) | 主动模拟通往测试端点或工作流程的流量 | 确保跨版本的正常运行时间和回归监控 | 

## 示例：监控基于代理的支持工作流程
<a name="section-observability-example-workflow"></a>

要有效地监控基于代理的支持工作流程，请考虑在相关的工作流程阶段使用以下指标：

1. **用户对 **API Gateway** 的查询** — 监控响应时间和 5xx 错误。

1. **预处理器 Lambda** 函数 — 监控冷启动和解析失败。

1. **Amazon Bedrock 代理** — 监控提示、工具调用跟踪、代币成本和延迟。

1. **工具 Lambda 函数**（例如`getOrderStatus`）— 监控每个用户的执行时间和工具调用次数。

1. **通过知识库进行RAG查询** —监控相关性分数和缺失的基础。

1. **后处理器 Lambda** 函数-监控架构验证和回退触发器。

1. **日志 CloudWatch 和 OpenSearch** — 监控会话日志 IDs、跟踪和模拟响应质量。

1. **警**报 — 监控高故障率、每次会话成本激增和延迟下降的警报。

## 可观测性最佳实践
<a name="section-observability-best-practices"></a>

考虑以下在无服务器和生成式 AI 工作流程中实现可观察性的最佳实践：
+ 仪器 AI 流与结构化日志相结合，以实现跨组件（例如用户会话、跟踪 ID 和模型响应）的关联。
+ 使用一致的日志架构来支持下游解析、警报和分析管道。
+ 每层发布自定义指标，以帮助跟踪与模型相关的错误与基础设施问题对比。
+ 使用环境和上下文标记日志，以便按用户角色、区域、版本或团队进行筛选。
+ 使用异常检测警报来检测代币激增、延迟峰值或输出偏差。
+ 将 LLM 响应日志与下游影响相关联，将代理输出与决策、升级或故障联系起来。
+ 通过每周仪表板自动生成报告，包括及时的成本、模型使用情况和回退率，以推动问责制和改进周期。

## 可观测性和监测摘要
<a name="section-observability-summary"></a>

在 AI 驱动的无服务器系统中，您不监控主机。相反，您可以监控行为、成本和正确性。可观察性为运营弹性、成本控制和预测、法学硕士绩效评估、治理和合规性以及持续的及时和代理改进奠定了基础。

支持 AWS 服务 可观测性和监控以及结构化事件感知遥测的 Native 提供了必要的功能。有了这些功能，团队就可以放心地大规模操作 AI 工作负载，知道发生了什么、在哪里以及为什么。