

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker AI 中的推論選項
<a name="deploy-model-options"></a>

SageMaker AI 提供多個推論選項，方便您選擇最適合自己工作負載的選項：
+ [即時推論](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html)：*即時推論*非常適合具有低延遲或高輸送量需求的線上推論。針對持續性且完全受控的端點 (REST API) 使用即時推論，該端點可以處理持續流量，並由您選擇的執行個體類型提供支援。即時推論最多可支援 25 MB 的承載大小，一般回應的處理時間為 60 秒，串流回應則為 8 分鐘。
+ [無伺服器推論](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html)：當您出現間歇性或無法預測的流量模式時，*無伺服器推論*是理想的選擇。SageMaker AI 管理所有基礎架構，因此無需管理執行個體或擴展政策。您只需按實際用量付費，而非閒置時間付費。它可以支援最大 4 MB 的有效載荷大小和 60 秒的處理時間。
+ [批次轉換](https://docs.aws.amazon.com/sagemaker/latest/dg/batch-transform.html)：*批次轉換*適用於在大量資料預先可用且您不需要持續性端點時進行離線處理。您也可以使用批次轉換來預先處理資料集。它可以支援大小為 GB 的大小和處理時間 (以天為單位) 的大型資料集。
+ [非同步推論](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html)：當您想要將要求排入佇列，並具有較長處理時間的大型承載時，則適用*非同步推論*。非同步推論最多可支援 1 GB 的承載，以及長達一小時的長處理時間。當沒有要處理要求時，您也可以將端點縮減為 0。