

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Real-time 推断
<a name="realtime-endpoints"></a>

 Real-time 推理非常适合需要实时、交互式、低延迟的推理工作负载。您可以将模型部署到 SageMaker AI 托管服务，并获得可用于推理的终端节点。这些端点是完全托管的，并支持自动扩缩（请参阅[自动缩放 Amazon SageMaker 人工智能模型](endpoint-auto-scaling.md)）。您可以使用增强的指标监控终端节点上的单个实例和容器（请参阅[Amazon SageMaker AI 增强了推理终端节点的指标](monitoring-cloudwatch-enhanced-metrics.md)）。

**Topics**
+ [为实时推理部署模型](realtime-endpoints-deploy-models.md)
+ [调用模型进行实时推理](realtime-endpoints-test-endpoints.md)
+ [使用 OpenAI-compatible API 调用终端节点](realtime-endpoints-openai-compatible.md)
+ [了解如何查看、监控和管理 SageMaker 端点。](realtime-endpoints-manage.md)
+ [托管选项](realtime-endpoints-options.md)
+ [自动缩放 Amazon SageMaker 人工智能模型](endpoint-auto-scaling.md)
+ [实例存储卷](host-instance-storage.md)
+ [验证生产中的模型](model-validation.md)
+ [使用 Clarify 进行在线解释 SageMaker](clarify-online-explainability.md)
+ [使用实例池部署到多个实例类型](realtime-endpoints-heterogeneous.md)
+ [Fine-tune 带有适配器推理组件的模型](realtime-endpoints-adapt.md)