View a markdown version of this page

经过优化的生成式 AI 推理建议 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

经过优化的生成式 AI 推理建议

Amazon SageMaker AI 现在支持推理建议,该功能无需手动优化和基准测试,从而提供最佳的推理性能。您无需手动测试 GPU 实例类型、提供容器、并行策略和优化技术的组合,而是提供模型和工作负载要求, SageMaker AI 会返回经过验证的、具有真实性能指标的部署就绪配置。

推理建议分析模型的架构,缩小配置空间,并应用与目标一致的优化,例如吞吐量的推测性解码和延迟的内核调整。通过评估多种实例类型,您可以为自己的工作负载选择性价比最高的选项。它在真实的 GPU 基础架构上对每种配置进行基准测试,因此您可以放心地进行部署并调整推理支出。

工作原理

无论是通过 SageMaker AI Studio 还是 AI AP SageMaker I,都可以直接开始使用推理建议。以下步骤描述了工作流程。

  1. 准备您的模型。指向 Amazon S3 或 A SageMaker I 模型注册表中的模型项目。推理建议支持带有 SafeTensor 权重的 HuggingFace 检查点格式,包括基础模型和自定义或微调模型。

  2. 定义您的工作负载。描述您的预期流量模式,包括输入和输出代币分配以及并发级别。您可以使用内联规范或来自 Amazon S3 的代表性数据集。

  3. 设定目标。选择一个性能目标:优化成本、最大限度地减少延迟或最大限度地提高吞吐量。最多选择三种实例类型进行比较。

  4. 查看结果。 SageMaker AI 返回具有真实性能指标的经过验证的配置:首次代币时间 (TTFT)、令牌间延迟、请求延迟 P50/P90/P99、吞吐量和每个配置的成本。每种配置都已准备就绪,可以部署。

  5. 部署。通过 AI Studio 中的单个操作或通过 AP SageMaker I 以编程方式将所选配置部署到 SageMaker AI 推理端点。

您还可以对现有生产端点进行基准测试,以验证当前性能或与新配置进行比较。

使用案例

以下是推理建议的常见用例。

  • Pre-deployment 验证。在投入生产部署之前,先对新模型进行优化和基准测试。在投资扩展模型之前,请先验证模型的性能。

  • 更新后的回归测试。在容器更新、框架升级或服务库发布后验证性能。在投入生产之前,请确认您的配置仍处于最佳状态。

  • Right-sizing 当条件发生变化时。当流量模式发生变化或有新的实例类型可用时,请在几小时内重新运行推理建议,而不是重新启动长达一周的手动流程。

  • 模型比较。比较不同实例类型的不同模型变体的性能和成本,以便在生产部署之前做出明智的选择。

  • 成本优化。对现有生产端点进行基准测试,以识别过度配置的基础架构。使用结果来调整规模并减少重复的推理支出。

定价

推理建议不收取额外服务费。您可以免费使用现有的 ML 预留(灵活培训计划),也可以使用自动配置的按需计算。

支持的区域:

以下 AWS 区域提供推理建议:

  • 美国东部(弗吉尼亚州北部)

  • 美国东部(俄亥俄州)

  • 美国西部(俄勒冈州)

  • 亚太地区(新加坡)

  • 亚太地区(东京)

  • 欧洲地区(法兰克福)

  • 欧洲地区(爱尔兰)