Notes de mise à jour SageMaker HyperPod d'Amazon Inference - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Notes de mise à jour SageMaker HyperPod d'Amazon Inference

Cette rubrique couvre les notes de publication qui suivent les mises à jour, les correctifs et les nouvelles fonctionnalités d'Amazon SageMaker HyperPod Inference. SageMaker HyperPod L'inférence vous permet de déployer et de faire évoluer des modèles d'apprentissage automatique sur vos HyperPod clusters avec une fiabilité digne de l'entreprise. Pour les versions générales, les mises à jour et les améliorations de la SageMaker HyperPod plateforme Amazon, consultezNotes de SageMaker HyperPod publication d'Amazon.

Pour plus d'informations sur les fonctionnalités SageMaker HyperPod d'inférence et les options de déploiement, consultezDéploiement de modèles sur Amazon SageMaker HyperPod.

SageMaker HyperPod Notes de mise à jour d'Inference : v3.0

Date de sortie : 23 février 2026

Récapitulatif

Inference Operator 3.0 introduit l'intégration du module complémentaire EKS pour une gestion simplifiée du cycle de vie, la prise en charge de l'affinité des nœuds pour un contrôle granulaire de la planification et un meilleur balisage des ressources. Les installations basées sur HELM existantes peuvent être migrées vers le module complémentaire EKS à l'aide du script de migration fourni. Mettez à jour votre rôle d'exécution d'opérateur d'inférence avec de nouvelles autorisations de balisage avant la mise à niveau.

Caractéristiques principales

  • Intégration du module complémentaire EKS : gestion du cycle de vie de niveau entreprise avec expérience d'installation simplifiée

  • Affinité des nœuds : contrôle de planification granulaire pour exclure les instances ponctuelles, privilégier les zones de disponibilité ou cibler les nœuds avec des étiquettes personnalisées

Pour obtenir des informations détaillées, notamment les conditions requises, les instructions de mise à niveau et les conseils de migration, consultez les sections ci-dessous.

Conditions préalables

Avant de mettre à niveau la version Helm vers la version 3.0, les clients doivent ajouter des autorisations de balisage supplémentaires à leur rôle d'opérateur d'inférence. Dans le cadre de l'amélioration du balisage et de la sécurité des ressources, l'opérateur d'inférence étiquette désormais les ressources ALB, S3 et ACM. Cette amélioration nécessite des autorisations supplémentaires dans le rôle d'exécution de l'opérateur d'inférence. Ajoutez les autorisations suivantes à votre rôle d'exécution d'opérateur d'inférence :

{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }

Mise à niveau vers la version 3.0

Si l'opérateur d'inférence est déjà installé via Helm, utilisez les commandes suivantes pour effectuer la mise à niveau :

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

Migration de Helm vers le module complémentaire EKS

Si l'opérateur d'inférence est installé via Helm avant la version 3.0, nous vous recommandons de migrer vers le module complémentaire EKS pour obtenir des mises à jour rapides sur les nouvelles fonctionnalités qui seront publiées pour Inference Operator. Ce script fait migrer l'opérateur d' SageMaker HyperPod inférence d'une installation basée sur HELM vers une installation du module complémentaire EKS.

Vue d'ensemble : le script prend un nom de cluster et une région comme paramètres, récupère la configuration d'installation Helm existante et migre vers le déploiement du module complémentaire EKS. Il crée de nouveaux rôles IAM pour l'opérateur d'inférence, le contrôleur ALB et l'opérateur KEDA.

Avant de migrer l'opérateur d'inférence, le script s'assure que les dépendances requises (pilote CSI S3, pilote CSI, gestionnaire de FSx certificats et serveur de mesures) existent. S'ils n'existent pas, il les déploie en tant que module complémentaire.

Une fois la migration du module complémentaire Inference Operator terminée, le script migre également S3 et les autres dépendances (ALB FSx, KEDA, cert-manager, metrics-server) si elles ont été initialement installées via le graphique Inference Operator Helm. --skip-dependencies-migrationÀ utiliser pour ignorer cette étape pour le pilote CSI S3, le pilote FSx CSI, le gestionnaire de certificats et le serveur de mesures. Notez que ALB et KEDA sont installés dans le cadre du module complémentaire dans le même espace de noms que l'opérateur d'inférence et seront migrés dans le cadre du module complémentaire d'opérateur d'inférence.

Important

Pendant la migration, ne déployez pas de nouveaux modèles car ils ne seront pas déployés tant que la migration ne sera pas terminée. Une fois que le module complémentaire Inference Operator est à l'état ACTIF, de nouveaux modèles peuvent être déployés. La migration prend généralement de 15 à 20 minutes, et elle peut être terminée en 30 minutes si seuls quelques modèles sont actuellement déployés.

Conditions préalables à la migration :

  • AWS CLI configuré avec les informations d'identification appropriées

  • kubectl configuré avec accès à votre cluster EKS

  • Casque installé

  • Installation Helm existante de hyperpod-inference-operator

Note

Les endpoints déjà en cours d'exécution ne seront pas interrompus pendant le processus de migration. Les terminaux existants continueront à gérer le trafic sans interruption tout au long de la migration.

Obtenir le script de migration :

git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration

Utilisation :

./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)

Options :

  • --cluster-name NAME— Nom du cluster EKS (obligatoire)

  • --region REGION— AWS région (obligatoire)

  • --helm-namespace NAMESPACE— Espace de noms dans lequel le graphique Helm est installé (par défaut : kube-system) (facultatif)

  • --s3-mountpoint-role-arn ARN— ARN du rôle IAM du pilote S3 Mountpoint CSI (facultatif)

  • --fsx-role-arn ARN— ARN du rôle IAM du pilote FSx CSI (facultatif)

  • --auto-approve— Ignorez les demandes de confirmation si cet indicateur est activé. step-by-stepet s'auto-approveexcluent mutuellement, si cela --auto-approve est indiqué, ne le spécifiez pas --step-by-step (facultatif)

  • --step-by-step— Faites une pause après chaque étape majeure pour passer en revue. Cela ne doit pas être mentionné s'--auto-approveil est déjà ajouté (facultatif)

  • --skip-dependencies-migration— Ignorez la migration des dépendances installées par HELM vers le module complémentaire. Car les dépendances n'ont PAS été installées via le graphique Inference Operator Helm, ou si vous souhaitez les gérer séparément. (facultatif)

Exemples :

Migration de base (migre les dépendances) :

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1

Approbation automatique sans invite :

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve

Ignorez la migration des dépendances pour FSx le point de montage S3, le gestionnaire de certificats et le serveur Metrics :

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration

Fournissez les rôles S3 et FSx IAM existants :

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Emplacement de sauvegarde :

Les sauvegardes sont stockées dans /tmp/hyperpod-migration-backup-<timestamp>/

Les sauvegardes permettent une migration et une restauration en toute sécurité :

  • Annulation en cas d'échec : si la migration échoue, le script peut automatiquement restaurer votre cluster à son état antérieur à la migration à l'aide des configurations sauvegardées

  • Piste d'audit : fournit un enregistrement complet de ce qui existait avant la migration à des fins de résolution des problèmes et de conformité

  • Référence de configuration : vous permet de comparer les configurations avant et après la migration

  • Restauration manuelle : si nécessaire, vous pouvez inspecter et restaurer manuellement des ressources spécifiques à partir du répertoire de sauvegarde

Annulation :

Si la migration échoue, le script demande une confirmation à l'utilisateur avant de lancer le rollback afin de rétablir l'état précédent.

SageMaker HyperPod Notes de mise à jour d'Inference : v2.3

Quoi de neuf

Cette version introduit de nouveaux champs facultatifs dans les définitions de ressources personnalisées (CRDs) afin d'améliorer la flexibilité de configuration du déploiement.

Fonctions

  • Types d'instances multiples

    • Fiabilité de déploiement améliorée : prend en charge les configurations de type multi-instance avec basculement automatique vers d'autres types d'instances lorsque les options préférées manquent de capacité

    • Planification intelligente des ressources : utilise l'affinité des nœuds Kubernetes pour hiérarchiser les types d'instances tout en garantissant le déploiement même lorsque les ressources préférées ne sont pas disponibles

    • Coûts et performances optimisés — Conserve vos préférences en matière de type d'instance et prévient les défaillances liées à la capacité lors des fluctuations du cluster

Correctifs de bogue

Les modifications apportées invocationEndpoint au champ dans la spécification du InferenceEndpointConfig prendront désormais effet :

  • Si le invocationEndpoint champ est corrigé ou mis à jour, les ressources dépendantes, telles que le Ingress Load Balancer SageMaker et le EndpointSageMakerEndpointRegistration, seront mises à jour avec normalisation.

  • La valeur de invocationEndpoint provided sera stockée telle quelle dans la InferenceEndpointConfig spécification elle-même. Lorsque cette valeur est utilisée pour créer un Load Balancer et, si elle est activée, un SageMaker point de terminaison, elle sera normalisée pour comporter une barre oblique en tête.

    • v1/chat/completionssera normalisé /v1/chat/completions pour leIngress, AWS Load Balancer et Endpoint. SageMaker Pour leSageMakerEndpointRegistration, il sera affiché dans ses spécifications sous v1/chat/completions la forme.

    • ///invokesera normalisé /invoke pour leIngress, AWS Load Balancer et Endpoint. SageMaker Pour leSageMakerEndpointRegistration, il sera affiché dans ses spécifications sous invoke la forme.

Installation de Helm :

Suivre : https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

Si vous vous concentrez uniquement sur l'installation de l'opérateur d'inférence, après l'étape 1Set Up Your Helm Environment, c'est-à-dire faites-lecd HyperPodHelmChart/charts/inference-operator. Puisque vous vous trouvez dans le répertoire des diagrammes des opérateurs d'inférence lui-même, dans les commandes, où que vous soyezhelm_chart/HyperPodHelmChart, remplacez par..

Passez à la version 2.3 de l'opérateur si celui-ci est déjà installé :

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3