

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon A SageMaker I 中的推理选项
<a name="deploy-model-options"></a>

SageMaker AI 提供了多个推理选项，因此您可以选择最适合您的工作负载的选项：
+ [实时推理](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html)：*实时推理*非常适合具有低延迟或高吞吐量要求的在线推理。根据您选择的实例类型，对可以处理持续流量的完全托管式持久性端点 (REST API) 使用实时推理。实时推理可以支持有效载荷大小最大 25 MB、常规响应处理时间 60 秒以及流式响应处理时间 8 分钟。
+ [无服务器推理](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html)：当您有间歇性*或不可预测的流量模式时，无服务器推理*是理想的选择。 SageMaker AI 管理所有底层基础架构，因此无需管理实例或扩展策略。您只需为实际用量付费，而不需为空置时间付费。实时推理可以支持最大 4 MB 的负载大小和最长 60 秒的处理时间。
+ [批量转换](https://docs.aws.amazon.com/sagemaker/latest/dg/batch-transform.html)：*批量转换*适用于在前期有大量数据可用并且不需要持久性端点时进行离线处理。您也可以使用批量转换来预处理数据集。它可以支持大小和处理时间 GBs 为几天的大型数据集。
+ [异步推理](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html)：当您想对请求进行排队并拥有处理时间长的大型负载时，*异步推断*是理想的选择。异步推理可以支持高达 1 GB 的负载和长达 1 小时的长处理时间。当没有需要处理的请求时，您也可以将端点缩减到 0。