CloudWatch métricas para puntos finales multimodelo respaldados por la CPU CloudWatch métricas para despliegues de puntos finales multimodelo con GPU

CloudWatch Métricas para despliegues de Multi-Model terminales

Amazon SageMaker AI proporciona métricas para los puntos de conexión para que pueda supervisar la tasa de aciertos de la memoria caché, el número de modelos cargados y los tiempos de espera de los modelos para cargarse, descargarse y cargarse en un punto final multimodelo. Algunas de las métricas son diferentes para los puntos finales multimodelo respaldados por CPU y GPU, por lo que en las siguientes secciones se describen las CloudWatch métricas de Amazon que puede usar para cada tipo de punto final multimodelo.

Para obtener más información sobre las métricas, consulte las métricas de carga del modelo de Multi-Model punto final y las métricas de las instancias del modelo de Multi-Model punto final en. Métricas de Amazon SageMaker AI en Amazon CloudWatch Per-model no se admiten las métricas.

CloudWatch métricas para puntos finales multimodelo respaldados por la CPU

Puede supervisar las siguientes métricas en puntos de conexión multimodelo respaldados por CPU.

El espacio de AWS/SageMaker nombres incluye el siguiente modelo de métricas de carga de las llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta la referencia GetMetricStatisticsde la CloudWatch API de Amazon.

Multi-Model Métricas de carga del modelo de punto final

Métrica	Description (Descripción)
`ModelLoadingWaitTime`	El intervalo de tiempo que una solicitud de invocación ha esperado a que se descargue o cargue el modelo de destino, o ambos, para realizar la inferencia. Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`ModelUnloadingTime`	El intervalo de tiempo que tardó en descargar el modelo a través de la llamada a la API `UnloadModel` del contenedor. Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`ModelDownloadingTime`	El intervalo de tiempo que se tardó en descargar el modelo de Amazon Simple Storage Service (Amazon S3). Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`ModelLoadingTime`	El intervalo de tiempo que tardó en cargar el modelo a través de la llamada a la API `LoadModel` del contenedor. Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`ModelCacheHit`	El número de solicitudes `InvokeEndpoint` enviadas al punto de conexión multimodelo para el que ya se ha cargado el modelo. La estadística Promedio muestra la proporción de solicitudes para las que el modelo ya se ha cargado. Unidades: ninguna Estadísticas válidas: Average, Sum, Sample Count.

Dimensiones de las métricas de carga del modelo de Multi-Model punto final

Dimensión	Description (Descripción)
`EndpointName, VariantName`	Filtra las métricas de invocación de punto de conexión para una `ProductionVariant` del punto de conexión y la variante especificados.

Los espacios de nombres /aws/sagemaker/Endpoints contienen las siguientes métricas de instancia de las llamadas a InvokeEndpoint.

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta la referencia GetMetricStatisticsde la CloudWatch API de Amazon.

Multi-Model Métricas de instancias del modelo de punto final

Métrica	Description (Descripción)
`LoadedModelCount`	El número de modelos cargados en los contenedores del punto de conexión multimodelo. Esta métrica se emite por instancia. La estadística Promedio con un período de 1 minuto indica el número medio de modelos cargados por instancia. La estadística Suma indica el número total de modelos cargados en todas las instancias del punto de conexión. Los modelos de los que realiza el seguimiento de esta métrica no son necesariamente únicos porque un modelo puede cargarse en varios contenedores en el punto de conexión. Unidades: ninguna Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`CPUUtilization`	La suma de la utilización de cada núcleo individual de la CPU. La utilización de la CPU de cada núcleo oscila entre 0 y 100. Por ejemplo, si hay cuatro CPU, la `CPUUtilization` puede oscilar entre 0 % y 400 %. Para las variantes de punto de conexión, el valor es la suma de la utilización de la CPU de los contenedores principales y suplementarios en la instancia. Unidad: porcentaje
`MemoryUtilization`	El porcentaje de memoria que utilizan los contenedores en una instancia. Este valor oscila del 0 % al 100 %. Para las variantes de punto de conexión, el valor es la suma de la utilización de la memoria de los contenedores principales y suplementarios en la instancia. Unidad: porcentaje
`DiskUtilization`	El porcentaje de espacio en disco usado por los contenedores en una instancia. Este valor oscila del 0 % al 100 %. Para las variantes de punto de conexión, el valor es la suma de la utilización del espacio en disco de los contenedores principales y suplementarios en la instancia. Unidad: porcentaje

CloudWatch métricas para despliegues de puntos finales multimodelo con GPU

Puede supervisar las siguientes métricas en puntos de conexión multimodelo respaldados por GPU.

El espacio de AWS/SageMaker nombres incluye las siguientes métricas de carga del modelo de las llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta la referencia GetMetricStatisticsde la CloudWatch API de Amazon.

Multi-Model Métricas de carga del modelo de punto final

Métrica	Description (Descripción)
`ModelLoadingWaitTime`	El intervalo de tiempo que una solicitud de invocación ha esperado a que se descargue o cargue el modelo de destino, o ambos, para realizar la inferencia. Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`ModelUnloadingTime`	El intervalo de tiempo que tardó en descargar el modelo a través de la llamada a la API `UnloadModel` del contenedor. Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`ModelDownloadingTime`	El intervalo de tiempo que se tardó en descargar el modelo de Amazon Simple Storage Service (Amazon S3). Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`ModelLoadingTime`	El intervalo de tiempo que tardó en cargar el modelo a través de la llamada a la API `LoadModel` del contenedor. Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`ModelCacheHit`	El número de solicitudes `InvokeEndpoint` enviadas al punto de conexión multimodelo para el que ya se ha cargado el modelo. La estadística Promedio muestra la proporción de solicitudes para las que el modelo ya se ha cargado. Unidades: ninguna Estadísticas válidas: Average, Sum, Sample Count.

Dimensiones de las métricas de carga del modelo de Multi-Model punto final

Dimensión	Description (Descripción)
`EndpointName, VariantName`	Filtra las métricas de invocación de punto de conexión para una `ProductionVariant` del punto de conexión y la variante especificados.

Los espacios de nombres /aws/sagemaker/Endpoints contienen las siguientes métricas de instancia de las llamadas a InvokeEndpoint.

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta la referencia GetMetricStatisticsde la CloudWatch API de Amazon.

Multi-Model Métricas de instancias del modelo de punto final

Métrica	Description (Descripción)
`LoadedModelCount`	El número de modelos cargados en los contenedores del punto de conexión multimodelo. Esta métrica se emite por instancia. La estadística Promedio con un período de 1 minuto indica el número medio de modelos cargados por instancia. La estadística Suma indica el número total de modelos cargados en todas las instancias del punto de conexión. Los modelos de los que realiza el seguimiento de esta métrica no son necesariamente únicos porque un modelo puede cargarse en varios contenedores en el punto de conexión. Unidades: ninguna Estadísticas válidas: Average, Sum, Min, Max, Sample Count.
`CPUUtilization`	La suma de la utilización de cada núcleo individual de la CPU. La utilización de la CPU de cada núcleo oscila entre 0 y 100. Por ejemplo, si hay cuatro CPU, la `CPUUtilization` puede oscilar entre 0 % y 400 %. Para las variantes de punto de conexión, el valor es la suma de la utilización de la CPU de los contenedores principales y suplementarios en la instancia. Unidad: porcentaje
`MemoryUtilization`	El porcentaje de memoria que utilizan los contenedores en una instancia. Este valor oscila del 0 % al 100 %. Para las variantes de punto de conexión, el valor es la suma de la utilización de la memoria de los contenedores principales y suplementarios en la instancia. Unidad: porcentaje
`GPUUtilization`	El porcentaje de unidades de GPU usadas por los contenedores en una instancia. El valor puede oscilar entre 0 y 100, y se multiplica por el número de GPU. Por ejemplo, si hay cuatro GPU, la `GPUUtilization` puede oscilar entre 0 % y 400 %. Para las variantes de punto de conexión, el valor es la suma de la utilización de la GPU de los contenedores principales y suplementarios en la instancia. Unidad: porcentaje
`GPUMemoryUtilization`	El porcentaje de memoria de GPU que utilizan los contenedores en una instancia. El valor oscila entre 0 y 100, y se multiplica por el número de GPU. Por ejemplo, si hay cuatro GPU, la `GPUMemoryUtilization` puede oscilar entre 0 % y 400 %. Para las variantes de punto de conexión, el valor es la suma de la utilización de la memoria de la GPU de los contenedores principales y suplementarios en la instancia. Unidad: porcentaje
`DiskUtilization`	El porcentaje de espacio en disco usado por los contenedores en una instancia. Este valor oscila del 0 % al 100 %. Para las variantes de punto de conexión, el valor es la suma de la utilización del espacio en disco de los contenedores principales y suplementarios en la instancia. Unidad: porcentaje

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Seguridad

Establezca el SageMaker comportamiento de almacenamiento en caché del modelo de punto final multimodelo de IA