View a markdown version of this page

HyperPod pestañas en Studio - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

HyperPod pestañas en Studio

En Amazon SageMaker Studio, puede navegar hasta uno de sus clústeres en HyperPodclústeres (en Compute) y ver la lista de clústeres. Los clústeres que se muestran contienen información como tareas, métricas de hardware, configuración y detalles de los metadatos. Esta visibilidad puede ayudar a su equipo a identificar al candidato adecuado para sus cargas de trabajo previamente entrenadas o de refinamiento. En las siguientes secciones se presenta información acerca de cada tipo de información.

Tareas

Amazon SageMaker HyperPod proporciona una vista de las tareas del clúster. Las tareas son operaciones o trabajos que se envían al clúster. Pueden ser operaciones de machine learning, como el entrenamiento, la ejecución de experimentos o la inferencia. En la siguiente sección, se proporciona información sobre las tareas HyperPod del clúster.

En Amazon SageMaker Studio, puede ir a uno de sus clústeres en HyperPodclústeres (en Compute) y ver la información de tareas de su clúster. Si tiene problemas con la visualización de las tareas, consulte Resolución de problemas.

La tabla de tareas incluye:

For Slurm clusters

En el caso de los clústeres de Slurm, en la tabla se muestran las tareas que se encuentran actualmente en la cola del programador de trabajos de Slurm. La información que se muestra para cada tarea incluye el nombre de la tarea, el estado, el ID del trabajo, la partición, el tiempo de ejecución, los nodos, los elementos creados por y las acciones.

Para obtener una lista y detalles sobre los trabajos anteriores, usa el sacctcomando in JupyterLab o un terminal de editor de código. El comando sacct se usa para ver información histórica sobre los trabajos que han finalizado o están completos en el sistema. Proporciona información contable, incluido el uso de los recursos del trabajo, como la memoria y el estado de salida.

Todos los usuarios de Studio pueden ver, administrar e interactuar con todas las tareas disponibles de Slurm de forma predeterminada. Para restringir las tareas visibles a los usuarios de Studio, consulte Restricción de la vista de tareas en Studio para los clústeres de Slurm.

For Amazon EKS clusters

Para los clústeres de Amazon EKS, las tareas de kubeflow (PyTorch, MPI, TensorFlow) se muestran en la tabla. PyTorch las tareas se muestran de forma predeterminada. Puede ordenar por PyTorch MPI y por Tipo TensorFlow de tarea. De cada tarea se muestra el nombre, el estado, el espacio de nombres, la clase de prioridad y la hora de creación.

De manera predeterminada, todos los usuarios pueden ver los trabajos en todos los espacios de nombres. Para restringir los espacios de nombres de Kubernetes visibles disponibles para los usuarios de Studio, consulte Restricción de la vista de tareas en Studio para los clústeres de EKS. Si un usuario no puede ver las tareas y se le pide que proporcione un espacio de nombres, debe obtener esa información del administrador.

Métricas

Amazon SageMaker HyperPod proporciona una vista de las métricas de uso de sus clústeres de Slurm o Amazon EKS. A continuación, se proporciona información sobre las métricas de su HyperPod clúster.

Deberá instalar el complemento de Amazon EKS para ver las siguientes métricas. Para obtener más información, consulte Instalación del complemento Amazon CloudWatch Observability EKS.

En Amazon SageMaker Studio, puede ir a uno de sus clústeres en HyperPodclústeres (en Compute) y ver los detalles de las métricas de su clúster. Las métricas ofrecen una vista integral de las métricas de uso del clúster, incluidas las métricas de hardware, equipo y tareas. Esto incluye la disponibilidad y el uso de la computación, la asignación y utilización de los equipos y la información sobre el tiempo de ejecución y espera de las tareas.

Configuración

Amazon SageMaker HyperPod proporciona una vista de la configuración del clúster. A continuación, se proporciona información sobre la configuración del HyperPod clúster.

En Amazon SageMaker Studio, puede ir a uno de sus clústeres en HyperPodclústeres (en Compute) y ver la información de configuración de su clúster. La información incluye lo siguiente:

  • Detalles de las instancias, como el ID de la instancia, el estado, el tipo de instancia y el grupo de instancias.

  • Detalles de los grupos de instancias, como el nombre, el tipo, los recuentos y la información de computación del grupo de instancias.

  • Detalles de la orquestación, como el orquestador, la versión y la autoridad de certificación.

  • Detalles de la resiliencia del clúster.

  • Detalles de seguridad, como las subredes y los grupos de seguridad.

IDE y cuadernos

Amazon SageMaker HyperPod proporciona una vista de los espacios de desarrollo que se ejecutan en el clúster. Los espacios son entornos autónomos para ejecutar JupyterLab los IDE del editor de código directamente en su clúster de HyperPod EKS. Puede crear, configurar, iniciar, detener y abrir espacios directamente desde Studio.

En Amazon SageMaker Studio, navegue hasta uno de sus clústeres en HyperPodclústeres (en Compute) y elija la pestaña IDE y Notebooks.

Entre las principales funciones disponibles a través de Studio se incluyen las siguientes:

  • Cree espacios con ajustes de procesamiento, almacenamiento e imagen configurables mediante un formulario guiado.

  • Vea todos los espacios en una tabla con capacidad de búsqueda que muestre el nombre, el tipo de aplicación, el estado, el tipo de acceso, las asignaciones de almacenamiento, GPU y vCPU.

  • Inicie y detenga los espacios con un solo clic para administrar los costos de procesamiento.

  • Abre los espacios directamente en el navegador (JupyterLab o en el editor de código) o conéctate a través de un IDE remoto. Para obtener más información, consulte Acceso remoto a SageMaker Spaces.

  • Elimine los espacios que ya no sean necesarios.

  • Selecciona espacios de nombres para organizar los espacios por equipo con cuotas de recursos y configuraciones de gobierno.

  • Aplica plantillas para configurar los espacios de forma uniforme en todos los equipos.

Para obtener más información sobre cómo crear un dominio, consulte Guía para empezar a usar Amazon SageMaker AI.

Requisitos previos

  • Instala el HyperPod complemento en tu clúster. Para obtener más información, consulte Instale SageMaker AI Spaces Add-on.

  • Configura el clúster para usarlo en Studio. Para obtener más información, consulte Configuración de un clúster de Amazon EKS en Studio.

  • Para habilitar los espacios privados entre los usuarios con el mismo rol de ejecución, debes asegurarte de que el ExecutionRoleSessionNameMode indicador esté establecido enUSER_IDENTITY. Con la función HyperPod Spaces, el nombre de usuario utilizado en el espacio se deriva automáticamente del contexto de autenticación de Studio, lo que permite a los usuarios tener una identidad coherente en Studio y HyperPod Spaces sin necesidad de iniciar sesión adicional.

    En el caso de los dominios de Studio configurados en el modo de autenticación de IAM, el nombre de usuario de Spaces se deriva del nombre de la sesión del rol de IAM. Corresponde a la sesión de IAM utilizada para iniciar Studio, ya sea a través de la consola de AWS administración o a través de una URL de Studio prefirmada. Para los dominios de Studio configurados en el modo de autenticación del Centro de Identidad de IAM, el nombre de usuario de Spaces es el nombre de usuario del Centro de Identidad de IAM autenticado y saneado.

    Se establece de forma predeterminada para los dominios nuevos y se puede anular para los dominios más antiguos. Esta configuración también se puede anular para cada perfil de usuario. Para obtener más información, consulte Función de ejecución (modo de nombre de sesión).

Funcionamiento

Una vez instalado el complemento y configurado el acceso, navegue hasta el HyperPod clúster en Studio y seleccione la pestaña IDE y blocs de notas para ver la interfaz de administración de espacios.

Creación de un espacio

Para crear un espacio nuevo, selecciona Crear espacio. El formulario de creación le permite configurar lo siguiente:

  • Espacio de nombres: selecciona el espacio de nombres de tu equipo con las cuotas de recursos y la configuración de gobierno. Esto determina la asignación de cómputo disponible.

  • Configuración del espacio:

    • Plantilla: seleccione una plantilla preconfigurada (por ejemplo, JupyterLab o un editor de código) para aplicar la configuración predeterminada.

    • Computación: elija entre configuraciones de GPU y CPU con un control detallado de las GPU, las vCPU y la memoria.

    • Partición de GPU: si la GPU fraccional está habilitada, puedes elegir una partición para usarla en tu espacio de trabajo.

    • Imagen: seleccione entre las imágenes de contenedor disponibles o las imágenes personalizadas configuradas por su administrador.

    • Almacenamiento de espacio en EBS: configure el almacenamiento persistente para sus blocs de notas y sus datos.

  • Gobernanza de tareas: cuando están habilitados para el espacio de nombres, los espacios se integran con la gobernanza de HyperPod tareas para la administración de recursos y la programación de prioridades. Para obtener más información, consulte La gobernanza de las tareas de Interactive Spaces está en HyperPod.

Gestión de espacios

La tabla de espacios proporciona una vista consolidada de todos sus entornos, incluidos el estado y las asignaciones de recursos.

En la columna Acciones, puede:

  • Detenga un espacio en ejecución para liberar recursos de cómputo y, al mismo tiempo, conservar sus datos en el almacenamiento de EBS.

  • Abra el espacio en su navegador para abrir la interfaz web JupyterLab o el editor de código.

  • Conéctese mediante un IDE remoto. Para obtener más información, consulte Acceso remoto a SageMaker Spaces.

Conectarse a su espacio

Los espacios admiten dos métodos de conexión:

Acceso a la interfaz de usuario web

Seleccione Abrir en la tabla de espacios para iniciar el IDE directamente en su navegador. Esto abre una interfaz completamente funcional JupyterLab o de editor de código alojada en su HyperPod clúster. No se requiere la instalación de software local más allá de un navegador web. Esto es ideal para realizar iteraciones rápidas, explorar desde un portátil y trabajar en colaboración. Para habilitar el acceso a la interfaz de usuario web en su clúster, consulte. Acceso desde el navegador web

Conexión IDE remota

Seleccione Abrir en IDE remoto en la tabla de espacios para conectar su IDE local al espacio en el que se está ejecutando HyperPod. Esto proporciona una conexión segura sin necesidad de administrar las claves SSH ni exponer el puerto 22. Obtiene toda la potencia de su entorno de desarrollo local mientras ejecuta el código en la computación en HyperPod clúster. Para obtener más información, consulte Acceso remoto a SageMaker Spaces.

Details

Amazon SageMaker HyperPod proporciona una vista de los detalles de los metadatos del clúster. El siguiente párrafo proporciona información sobre cómo obtener los detalles HyperPod del clúster.

En Amazon SageMaker Studio, puede ir a uno de sus clústeres en HyperPodclústeres (en Compute) y ver los detalles de su clúster. Esto incluye las etiquetas, los registros y los metadatos.