Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Real-time inférence
<a name="realtime-endpoints"></a>

 Real-time l'inférence est idéale pour les charges de travail d'inférence nécessitant une faible latence, une interaction en temps réel. Vous pouvez déployer votre modèle sur des services d'hébergement d' SageMaker IA et obtenir un point de terminaison pouvant être utilisé à des fins d'inférence. Ces points de terminaison sont entièrement gérés et prennent en charge la scalabilité automatique (voir [Mise à l'échelle automatique des modèles Amazon SageMaker AI](endpoint-auto-scaling.md)). Vous pouvez surveiller des instances et des conteneurs individuels sur vos points de terminaison à l'aide de métriques améliorées (voir[Mesures améliorées d'Amazon SageMaker AI pour les points de terminaison d'inférence](monitoring-cloudwatch-enhanced-metrics.md)).

**Topics**
+ [Déploiement de modèles pour l’inférence en temps réel](realtime-endpoints-deploy-models.md)
+ [Invocation de modèles pour une inférence en temps réel](realtime-endpoints-test-endpoints.md)
+ [Invoquer des points de terminaison avec des API OpenAI-compatible](realtime-endpoints-openai-compatible.md)
+ [Points de terminaison](realtime-endpoints-manage.md)
+ [Options d’hébergement](realtime-endpoints-options.md)
+ [Mise à l'échelle automatique des modèles Amazon SageMaker AI](endpoint-auto-scaling.md)
+ [Volumes de stockage d’instances](host-instance-storage.md)
+ [Validation de modèles en production](model-validation.md)
+ [Explicabilité en ligne avec Clarify SageMaker](clarify-online-explainability.md)
+ [Déployez sur plusieurs types d'instances avec des pools d'instances](realtime-endpoints-heterogeneous.md)
+ [Fine-tune modèles avec composants d'inférence d'adaptateurs](realtime-endpoints-adapt.md)