经过优化的生成式 AI 推理建议

Amazon SageMaker AI 现在支持推理建议，该功能无需手动优化和基准测试，从而提供最佳的推理性能。您无需手动测试 GPU 实例类型、提供容器、并行策略和优化技术的组合，而是提供模型和工作负载要求， SageMaker AI 会返回经过验证的、具有真实性能指标的部署就绪配置。

推理建议分析模型的架构，缩小配置空间，并应用与目标一致的优化，例如吞吐量的推测性解码和延迟的内核调整。通过评估多种实例类型，您可以为自己的工作负载选择性价比最高的选项。它在真实的 GPU 基础架构上对每种配置进行基准测试，因此您可以放心地进行部署并调整推理支出。

工作原理

无论是通过 SageMaker AI Studio 还是 AI AP SageMaker I，都可以直接开始使用推理建议。以下步骤描述了工作流程。

准备您的模型。指向 Amazon S3 或 A SageMaker I 模型注册表中的模型项目。推理建议支持带有 SafeTensor 权重的 HuggingFace 检查点格式，包括基础模型和自定义或微调模型。
定义您的工作负载。描述您的预期流量模式，包括输入和输出代币分配以及并发级别。您可以使用内联规范或来自 Amazon S3 的代表性数据集。
设定目标。选择一个性能目标：优化成本、最大限度地减少延迟或最大限度地提高吞吐量。最多选择三种实例类型进行比较。
查看结果。 SageMaker AI 返回具有真实性能指标的经过验证的配置：首次代币时间 (TTFT)、令牌间延迟、请求延迟 P50/P90/P99、吞吐量和每个配置的成本。每种配置都已准备就绪，可以部署。
部署。通过 AI Studio 中的单个操作或通过 AP SageMaker I 以编程方式将所选配置部署到 SageMaker AI 推理端点。

您还可以对现有生产端点进行基准测试，以验证当前性能或与新配置进行比较。

以下是推理建议的常见用例。

推理建议不收取额外服务费。您可以免费使用现有的 ML 预留（灵活培训计划），也可以使用自动配置的按需计算。

以下 AWS 区域提供推理建议：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

推理优化

设置工作负载配置