View a markdown version of this page

HyperPod onglets dans Studio - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

HyperPod onglets dans Studio

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans HyperPodclusters (sous Compute) et consulter votre liste de clusters. Les clusters affichés contiennent des informations telles que les tâches, les métriques matérielles, les paramètres et les détails des métadonnées. Cette visibilité peut aider votre équipe à identifier le bon candidat pour vos charges de travail de pré-entraînement ou de peaufinage. Les sections suivantes fournissent des informations sur chaque type d’informations.

Tâches

Amazon SageMaker HyperPod fournit une vue des tâches de votre cluster. Les tâches sont des opérations ou des tâches envoyées au cluster. Il peut s’agir d’opérations de machine learning, telles que l’entraînement, l’exécution d’expériences ou l’inférence. La section suivante fournit des informations sur les tâches de votre HyperPod cluster.

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans des HyperPodclusters (sous Compute) et consulter les informations relatives aux tâches de votre cluster. Si vous rencontrez des problèmes lors de l’affichage des tâches, consultez Résolution des problèmes.

Le tableau des tâches inclut :

For Slurm clusters

Pour les clusters Slurm, les tâches actuellement présentes dans la file d’attente du planificateur de tâches Slurm sont indiquées dans le tableau. Les informations affichées pour chaque tâche incluent le nom de la tâche, son statut, son identifiant, sa partition, son temps d’exécution, ses nœuds, son créateur et les actions.

Pour obtenir une liste et des détails sur les tâches passées, utilisez la sacctcommande dans JupyterLab ou un terminal de l'éditeur de code. La commande sacct est utilisée pour afficher des informations historiques sur les tâches arrêtées ou terminées dans le système. Elle fournit des informations comptables, y compris l’utilisation des ressources des tâches telles que la mémoire et le statut de sortie.

Par défaut, tous les utilisateurs de Studio peuvent visualiser, gérer et interagir avec toutes les tâches Slurm disponibles. Pour restreindre les tâches consultables par les utilisateurs de Studio, consultez Restriction de l’affichage des tâches dans Studio pour les clusters Slurm.

For Amazon EKS clusters

Pour les clusters Amazon EKS, les tâches kubeflow (PyTorch, MPI, TensorFlow) sont indiquées dans le tableau. PyTorch les tâches sont affichées par défaut. Vous pouvez trier par PyTorch MPI et TensorFlow par type de tâche. Les informations affichées pour chaque tâche incluent le nom, le statut, l’espace de noms, la classe de priorité et l’heure de création de la tâche.

Par défaut, tous les utilisateurs peuvent visualiser les tâches dans tous les espaces de noms. Pour restreindre les espaces de noms Kubernetes visualisables accessibles aux utilisateurs de Studio, consultez Restriction de l’affichage des tâches dans Studio pour les clusters EKS. Si un utilisateur ne peut pas voir les tâches et qu’il est invité à fournir un espace de noms, il doit obtenir ces informations auprès de l’administrateur.

Métriques

Amazon SageMaker HyperPod fournit une vue des mesures d'utilisation de votre cluster Slurm ou Amazon EKS. Vous trouverez ci-dessous des informations sur les métriques de votre HyperPod cluster.

Vous devez installer le module complémentaire Amazon EKS afin d’afficher les métriques suivantes. Pour plus d'informations, consultez Installer le module complémentaire Amazon CloudWatch Observability EKS.

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans des HyperPodclusters (sous Compute) et consulter les détails des métriques de votre cluster. La page Métriques fournit une vue complète des métriques d’utilisation du cluster, y compris les métriques relatives au matériel, aux équipes et aux tâches. Cela inclut la disponibilité et l’utilisation du calcul, l’allocation et l’utilisation des équipes, ainsi que les informations sur l’exécution des tâches et les temps d’attente.

Settings

Amazon SageMaker HyperPod fournit une vue des paramètres de votre cluster. Vous trouverez ci-dessous des informations sur les paramètres de votre HyperPod cluster.

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans des HyperPodclusters (sous Compute) et consulter les informations de configuration de votre cluster. Les informations incluent ce qui suit :

  • Détails des instances, y compris l’ID de l’instance, le statut, le type d’instance et le groupe d’instances

  • Détails des groupes d’instances, y compris le nom, le type, le nombre et les informations de calcul des groupes d’instances

  • Détails de l’orchestration, y compris l’orchestrateur, la version et l’autorité de certification

  • Détails de la résilience du cluster

  • Détails de sécurité, y compris les sous-réseaux et les groupes de sécurité

IDE et ordinateurs portables

Amazon SageMaker HyperPod fournit une vue des espaces de développement exécutés sur votre cluster. Les espaces sont des environnements autonomes permettant d'exécuter des IDE JupyterLab ou des éditeurs de code directement sur votre cluster HyperPod EKS. Vous pouvez créer, configurer, démarrer, arrêter et ouvrir des espaces directement depuis Studio.

Dans Amazon SageMaker Studio, accédez à l'un de vos clusters en HyperPodclusters (sous Compute) et choisissez l'onglet IDE et blocs-notes.

Les principales fonctionnalités disponibles via Studio sont les suivantes :

  • Créez des espaces avec des paramètres de calcul, de stockage et d'image configurables via un formulaire guidé.

  • Affichez tous les espaces dans un tableau consultable indiquant le nom, le type d'application, le statut, le type d'accès, le stockage, les allocations de GPU et de vCPU.

  • Démarrez et arrêtez les espaces en un seul clic pour gérer les coûts de calcul.

  • Ouvrez des espaces directement dans le navigateur (JupyterLab ou l'éditeur de code) ou connectez-vous via un IDE distant. Pour de plus amples informations, veuillez consulter Accès à distance aux SageMaker espaces.

  • Supprimez les espaces dont vous n'avez plus besoin.

  • Sélectionnez des espaces de noms pour organiser les espaces par équipe avec des quotas de ressources et des paramètres de gouvernance.

  • Appliquez des modèles pour des configurations d'espace cohérentes entre les équipes.

Pour en savoir plus sur la création d’un domaine, consultez Guide de configuration d'Amazon SageMaker AI.

Conditions préalables

  • Installez le HyperPod module complémentaire sur votre cluster. Pour de plus amples informations, veuillez consulter Installez SageMaker AI Spaces Add-on.

  • Configurez votre cluster pour qu'il soit utilisé dans Studio. Pour de plus amples informations, veuillez consulter Configuration d’un cluster Amazon EKS dans Studio.

  • Pour activer les espaces privés entre utilisateurs ayant le même rôle d'exécution, vous devez vous assurer que l'ExecutionRoleSessionNameModeindicateur est défini surUSER_IDENTITY. Avec la fonctionnalité HyperPod Spaces, le nom d'utilisateur utilisé dans l'espace est automatiquement dérivé du contexte d'authentification de Studio, ce qui permet aux utilisateurs d'avoir une identité cohérente dans Studio et HyperPod Spaces sans avoir besoin de connexion supplémentaire.

    Pour les domaines Studio configurés en mode d'authentification IAM, le nom d'utilisateur Spaces est dérivé du nom de session du rôle IAM. Cela correspond à la session IAM utilisée pour lancer Studio, soit via la console de AWS gestion, soit via une URL de Studio présignée. Pour les domaines Studio configurés en mode d'authentification IAM Identity Center, le nom d'utilisateur Spaces est le nom d'utilisateur IAM Identity Center authentifié et nettoyé.

    Ce paramètre est défini par défaut pour les nouveaux domaines et peut être remplacé pour les anciens domaines. Ce paramètre peut également être remplacé pour chaque profil utilisateur. Pour de plus amples informations, veuillez consulter Rôle d'exécution Mode nom de session.

Comment ça marche

Une fois le module complémentaire installé et l'accès configuré, accédez à votre HyperPod cluster dans Studio et sélectionnez l'onglet IDE et blocs-notes pour voir l'interface de gestion des espaces.

Création d’un espace

Pour créer un nouvel espace, choisissez Créer un espace. Le formulaire de création permet de configurer les éléments suivants :

  • Espace de noms : sélectionnez l'espace de noms de votre équipe avec des quotas de ressources et des paramètres de gouvernance. Cela détermine votre allocation de calcul disponible.

  • Paramètres de l'espace :

    • Modèle : sélectionnez un modèle préconfiguré (par exemple, JupyterLab ou un éditeur de code) pour appliquer les paramètres par défaut.

    • Calcul : choisissez entre des configurations GPU et CPU avec un contrôle précis des GPU, des vCPU et de la mémoire.

    • Partition GPU : si le GPU fractionné est activé, vous pouvez choisir une partition à utiliser pour votre espace de travail.

    • Image : sélectionnez parmi les images de conteneur disponibles ou les images personnalisées configurées par votre administrateur.

    • Espace de stockage EBS : configurez le stockage persistant pour vos ordinateurs portables et vos données.

  • Gouvernance des tâches : lorsqu'ils sont activés pour l'espace de noms, les espaces s'intègrent à la gouvernance des HyperPod tâches pour la gestion des ressources et la planification des priorités. Pour de plus amples informations, veuillez consulter Gouvernance des tâches pour les espaces interactifs sur HyperPod.

Gestion des espaces

Le tableau des espaces fournit une vue consolidée de tous vos environnements, y compris le statut et les allocations de ressources.

Dans la colonne Actions, vous pouvez :

  • Arrêtez un espace de fonctionnement pour libérer des ressources de calcul tout en préservant vos données sur le stockage EBS.

  • Ouvrez l'espace de votre navigateur pour lancer l'interface Web JupyterLab ou Code Editor.

  • Connectez-vous à l'aide d'un IDE distant. Pour de plus amples informations, veuillez consulter Accès à distance aux SageMaker espaces.

Connexion à votre espace

Les espaces prennent en charge deux méthodes de connexion :

Accès à l'interface utilisateur Web

Choisissez Ouvrir dans le tableau des espaces pour lancer l'IDE directement dans votre navigateur. Cela ouvre une interface entièrement fonctionnelle JupyterLab ou une interface d'éditeur de code hébergée sur votre HyperPod cluster. Aucune installation logicielle locale n'est requise en dehors d'un navigateur Web. C'est idéal pour les itérations rapides, l'exploration sur un bloc-notes et le travail collaboratif. Pour activer l'accès à l'interface utilisateur Web sur votre cluster, consultezAccès au navigateur Web.

Connexion IDE à distance

Choisissez Ouvrir dans un IDE distant dans le tableau des espaces pour connecter votre IDE local à l'espace en cours d'exécution HyperPod. Cela fournit une connexion sécurisée sans que vous ayez à gérer les clés SSH ou à exposer le port 22. Vous bénéficiez de toute la puissance de votre environnement de développement local tout en exécutant du code sur un système de calcul en HyperPod cluster. Pour de plus amples informations, veuillez consulter Accès à distance aux SageMaker espaces.

Détails

Amazon SageMaker HyperPod fournit un aperçu des détails des métadonnées de votre cluster. Le paragraphe suivant fournit des informations sur la façon d'obtenir les détails de votre HyperPod cluster.

Dans Amazon SageMaker Studio, vous pouvez accéder à l'un de vos clusters dans des HyperPodclusters (sous Compute) et consulter les détails de votre cluster. Cela inclut les balises, les journaux et les métadonnées.