Comment ça marche Cas d’utilisation Tarification Régions prises en charge

Recommandations d'inférence basées sur l'IA générative optimisées

Amazon SageMaker AI prend désormais en charge les recommandations d'inférence, une fonctionnalité qui élimine l'optimisation manuelle et l'analyse comparative afin de fournir des performances d'inférence optimales. Au lieu de tester manuellement des combinaisons de types d'instances GPU, de conteneurs de service, de stratégies de parallélisme et de techniques d'optimisation, vous indiquez vos exigences en matière de modèle et de charge de travail, et l' SageMaker IA renvoie des configurations validées et prêtes à être déployées avec de véritables indicateurs de performance.

Les recommandations d'inférence analysent l'architecture de votre modèle, réduisent l'espace de configuration et appliquent des optimisations alignées sur les objectifs, telles que le décodage spéculatif pour le débit et le réglage du noyau pour la latence. En évaluant plusieurs types d'instances, vous pouvez sélectionner l'option la plus rentable pour votre charge de travail. Il compare chaque configuration à une infrastructure GPU réelle, afin que vous puissiez déployer en toute confiance et ajuster correctement vos dépenses d'inférence.

Comment ça marche

Il est très simple de commencer à utiliser les recommandations d'inférence, que ce soit par le biais d' SageMaker AI Studio ou des API d' SageMaker IA. Les étapes suivantes décrivent le flux de travail.

Préparez votre modèle. Pointez sur les artefacts du modèle dans Amazon S3 ou dans le registre des modèles SageMaker AI. Les recommandations d'inférence prennent en charge le format des HuggingFace points de contrôle avec SafeTensor des poids, y compris les modèles de base et les modèles personnalisés ou affinés.
Définissez votre charge de travail. Décrivez les modèles de trafic attendus, y compris les distributions de jetons d'entrée et de sortie et les niveaux de simultanéité. Vous pouvez utiliser des spécifications intégrées ou un ensemble de données représentatif d'Amazon S3.
Fixez-vous un objectif. Choisissez un objectif de performance unique : optimiser les coûts, minimiser la latence ou maximiser le débit. Sélectionnez jusqu'à trois types d'instances à comparer.
Passez en revue les résultats. SageMaker L'IA renvoie des configurations validées avec des indicateurs de performance réels : délai jusqu'au premier jeton (TTFT), latence entre les jetons, latence des demandes P50/P90/P99, débit et coût par configuration. Chaque configuration est prête pour le déploiement.
Déployez. Déployez la configuration choisie sur un point de terminaison d'inférence SageMaker AI en une seule action depuis SageMaker AI Studio ou par programmation via l'API.

Vous pouvez également comparer les points de production existants pour valider les performances actuelles ou les comparer aux nouvelles configurations.

Cas d’utilisation

Les cas d'utilisation courants des recommandations d'inférence sont les suivants.

Pre-deployment validation. Optimisez et évaluez un nouveau modèle avant de vous engager dans un déploiement en production. Validez les performances du modèle avant d'investir dans sa mise à l'échelle.
Tests de régression après les mises à jour. Validez les performances après une mise à jour du conteneur, une mise à niveau du framework ou la publication d'une bibliothèque de service. Vérifiez que votre configuration est toujours optimale avant de passer à la production.
Right-sizing lorsque les conditions changent. Lorsque les modèles de trafic changent ou que de nouveaux types d'instances deviennent disponibles, réexécutez les recommandations d'inférence en quelques heures plutôt que de relancer un processus manuel de plusieurs semaines.
Comparaison de modèles. Comparez les performances et le coût des différentes variantes de modèles selon les types d'instances afin de faire une sélection éclairée avant le déploiement en production.
Optimisation des coûts. Comparez les points de terminaison de production existants pour identifier l'infrastructure surprovisionnée. Utilisez les résultats pour ajuster et réduire les dépenses d'inférence récurrentes.

Tarification

Les recommandations d'inférence n'entraînent aucun frais de service supplémentaire. Vous pouvez utiliser les réservations ML existantes (plans de formation flexibles) sans frais de calcul supplémentaires, ou utiliser le calcul à la demande qui est provisionné automatiquement.

Régions prises en charge

Les recommandations d'inférence sont disponibles dans les AWS régions suivantes :

USA Est (Virginie du Nord)
USA Est (Ohio)
US West (Oregon)
Asie-Pacifique (Singapour)
Asie-Pacifique (Tokyo)
Europe (Francfort)
Europe (Irlande)

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Optimisation des inférences

Configuration de la configuration de la charge de travail