Real-time inférence

Real-time l'inférence est idéale pour les charges de travail d'inférence nécessitant une faible latence, une interaction en temps réel. Vous pouvez déployer votre modèle sur des services d'hébergement d' SageMaker IA et obtenir un point de terminaison pouvant être utilisé à des fins d'inférence. Ces points de terminaison sont entièrement gérés et prennent en charge la scalabilité automatique (voir Mise à l'échelle automatique des modèles Amazon SageMaker AI). Vous pouvez surveiller des instances et des conteneurs individuels sur vos points de terminaison à l'aide de métriques améliorées (voirMesures améliorées d'Amazon SageMaker AI pour les points de terminaison d'inférence).

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résolution des erreurs Inference Recommender

Déployer des modèles