View a markdown version of this page

Observabilidad - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Observabilidad

Supervisión estándar de Kubernetes

Puedes monitorear Spaces con herramientas estándar de Kubernetes, como describir y registrar. kubectl kubectl

Supervisar el estado del espacio

# List all Spaces with status kubectl get workspace -A # Get detailed information about a specific Space kubectl describe workspace <workspace-name>

Visualización de registros de espacio

# View workspace container logs kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace # View SSM agent sidecar logs (for remote IDE connectivity) kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar # Follow logs in real-time kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f

Comprensión de las condiciones del espacio

Los espacios presentan cuatro tipos de condiciones en su estado:

  • Disponible: True cuando el espacio está listo para su uso. Todos los recursos necesarios (módulos, servicios, almacenamiento) están funcionando y en buen estado.

  • Progresivo: True cuando el Espacio se está creando, actualizando o conciliando. Transiciones a False una vez estable.

  • Degradado: True cuando se detectan errores con los recursos del espacio. Consulta el mensaje de estado para obtener más información.

  • Detenido: True cuando el estado de espacio deseado está establecido enStopped. Los módulos están cerrados, pero se conservan el almacenamiento y la configuración.

CloudWatch Integración de registros

Puede instalar el complemento de CloudWatch registro para enviar los registros de Space a Amazon CloudWatch Logs para una administración y retención de registros centralizadas. Esto permite la agregación de registros en varios clústeres y la integración con CloudWatch Insights para consultas y análisis. Todos los kubectl registros disponibles anteriormente se pueden consultar CloudWatch con este complemento.

Referencia:. https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.html

HyperPod Observabilidad Add-on

El complemento de SageMaker HyperPod observabilidad proporciona paneles de control completos para monitorear la utilización de los recursos espaciales. Tras instalar el complemento, puede ver el uso de memoria y CPU de Space en la pestaña Tareas de la HyperPod consola, que muestra las métricas en los paneles de Grafana gestionados por Amazon.

Referencia: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-observability-addon.html

Métricas clave disponibles:

  • Utilización de CPU y memoria por espacio

  • Métricas de GPU (si corresponde)