Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Fonctionnalités prises en charge
Amazon SageMaker AI propose les quatre options suivantes pour déployer des modèles à des fins d'inférence.
-
Real-time inférence pour les charges de travail d'inférence avec des exigences en temps réel, interactives et à faible latence.
-
Transformation par lots pour une inférence hors ligne avec de grands jeux de données.
-
Inférence asynchrone pour une inférence en temps quasi réel avec des entrées volumineuses nécessitant des temps de prétraitement plus longs.
-
Inférence sans serveur pour les charges de travail d'inférence qui ont des périodes d'inactivité entre les pics de trafic.
Le tableau suivant récapitule les principales fonctionnalités de plateforme prises en charge par chaque option d'inférence. Il n'affiche pas les fonctionnalités qui peuvent être fournies par des cadres, des conteneurs Docker personnalisés ou via le chaînage de différents services AWS .
| Fonctionnalité | Real-time inférence | Transformation par lots | Inférence asynchrone | Inférence sans serveur | Conteneurs Docker |
|---|---|---|---|---|---|
| Prise en charge de la mise à l'échelle automatique | ✓ | N/A | ✓ | ✓ | N/A |
| Prise en charge GPU | ✓1 | ✓1 | ✓1 | 1P, préconçu, BYOC | |
| Modèle unique | ✓ | ✓ | ✓ | ✓ | N/A |
| Multi-model point de terminaison | ✓ | K-nn, XGBoost, Linear Learner, RCF, TensorFlow Apache MXnet, scikit-learn 2 PyTorch | |||
| Multi-container point de terminaison | ✓ | 1P, préconçu, Extend préconçu, BYOC | |||
| Pipeline d'inférence en série | ✓ | ✓ | 1P, préconçu, Extend préconçu, BYOC | ||
| Inference Recommender | ✓ | 1P, préconçu, Extend préconçu, BYOC | |||
| Prise en charge des liens privés | ✓ | ✓ | ✓ | N/A | |
| Support pour les capture/Model moniteurs de données | ✓ | ✓ | N/A | ||
| DLC pris en charge |
1P, préconçu, Extend préconçu, BYOC | 1P, préconçu, Extend préconçu, BYOC | 1P, préconçu, Extend préconçu, BYOC | 1P, préconçu, Extend préconçu, BYOC | N/A |
| Protocoles pris en charge | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) | N/A |
| Taille de la charge utile | < 6 Mo | ≤ 100 Mo | ≤ 1 Go | ≤ 4 Mo | |
| Encodage segmenté HTTP | Dépendant du cadre, 1P non pris en charge | N/A | Dépendant du cadre, 1P non pris en charge | Dépendant du cadre, 1P non pris en charge | N/A |
| Délai d'expiration de la demande | < 60 secondes | Jours | < 1 heure | < 60 secondes | N/A |
| Garde-fous de déploiement : déploiements blue/green | ✓ | N/A | ✓ | N/A | |
| Barrières de protection de déploiement : déploiements propagés | ✓ | N/A | ✓ | N/A | |
| Tests shadow | ✓ | N/A | |||
| Mise à échelle jusqu'à zéro | N/A | ✓ | ✓ | N/A | |
| Prise en charge des packages de modèles de marketplace | ✓ | ✓ | ✓ | N/A | |
| Prise en charge des clouds privés virtuels | ✓ | ✓ | ✓ | N/A | |
| Prise en charge de plusieurs variantes de production | ✓ | N/A | |||
| Isolement de réseau | ✓ | ✓ | N/A | ||
| Prise en charge du service parallèle de modèles | ✓3 | ✓ | ✓3 | ✓3 | |
| Chiffrement de volume | ✓ | ✓ | ✓ | ✓ | N/A |
| Client AWS KMS | ✓ | ✓ | ✓ | ✓ | N/A |
| Prise en charge des instances d | ✓ | ✓ | ✓ | N/A | |
| Prise en charge de inf1 | ✓ | ✓ |
Avec l' SageMaker IA, vous pouvez déployer un ou plusieurs modèles derrière un seul point de terminaison d'inférence pour une inférence en temps réel. Le tableau suivant récapitule les principales fonctionnalités prises en charge par les différentes options d'hébergement associées à l'inférence en temps réel.
| Fonctionnalité | Points de terminaison à modèle unique | Multi-model points de terminaison | Pipeline d'inférence en série | Multi-container points de terminaison |
|---|---|---|---|---|
| Prise en charge de la mise à l'échelle automatique | ✓ | ✓ | ✓ | ✓ |
| Prise en charge GPU | ✓1 | ✓ | ✓ | |
| Modèle unique | ✓ | ✓ | ✓ | ✓ |
| Multi-model points de terminaison | ✓ | ✓ | N/A | |
| Multi-container points de terminaison | ✓ | N/A | ||
| Pipeline d'inférence en série | ✓ | ✓ | N/A | |
| Inference Recommender | ✓ | |||
| Prise en charge des liens privés | ✓ | ✓ | ✓ | ✓ |
| Support pour les capture/Model moniteurs de données | ✓ | N/A | N/A | N/A |
| DLC pris en charge | 1P, préconçu, Extend préconçu, BYOC | K-nn, XGBoost, Linear Learner, RCF, TensorFlow Apache MXnet, scikit-learn 2 PyTorch | 1P, préconçu, Extend préconçu, BYOC | 1P, préconçu, Extend préconçu, BYOC |
| Protocoles pris en charge | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) |
| Taille de la charge utile | < 6 Mo | < 6 Mo | < 6 Mo | < 6 Mo |
| Délai d'expiration de la demande | < 60 secondes | < 60 secondes | < 60 secondes | < 60 secondes |
| Garde-fous de déploiement : déploiements blue/green | ✓ | ✓ | ✓ | ✓ |
| Barrières de protection de déploiement : déploiements propagés | ✓ | ✓ | ✓ | ✓ |
| Tests shadow | ✓ | |||
| Prise en charge des packages de modèles de marketplace | ✓ | |||
| Prise en charge des clouds privés virtuels | ✓ | ✓ | ✓ | ✓ |
| Prise en charge de plusieurs variantes de production | ✓ | ✓ | ✓ | |
| Isolement de réseau | ✓ | ✓ | ✓ | ✓ |
| Prise en charge du service parallèle de modèles | ✓ 3 | ✓ 3 | ||
| Chiffrement de volume | ✓ | ✓ | ✓ | ✓ |
| Client AWS KMS | ✓ | ✓ | ✓ | ✓ |
| Prise en charge des instances d | ✓ | ✓ | ✓ | ✓ |
| Prise en charge de inf1 | ✓ |
1 La disponibilité des types d'instances Amazon EC2 dépend de la AWS région. Pour connaître la disponibilité des instances spécifiques à AWS, consultez la tarification d'Amazon SageMaker AI
2 Pour utiliser un autre framework ou algorithme, utilisez le kit d'outils SageMaker AI Inference pour créer un conteneur prenant en charge les points de terminaison multimodèles.
3 Avec l' SageMaker IA, vous pouvez déployer de grands modèles (jusqu'à 500 Go) à des fins d'inférence. Vous pouvez configurer la surveillance de l'état du conteneur et les quotas d'expiration de téléchargement, jusqu'à 60 minutes. Vous aurez ainsi plus de temps pour télécharger et charger votre modèle et les ressources associées. Pour de plus amples informations, veuillez consulter SageMaker Paramètres des points de terminaison de l'IA pour l'inférence de grands modèles. Vous pouvez utiliser de grands modèles de conteneurs d'inférence