Funcionamiento Casos de uso Precios Regiones admitidas

Recomendaciones de inferencia de IA generativa optimizadas

Amazon SageMaker AI ahora admite las recomendaciones de inferencia, una capacidad que elimina la optimización manual y la evaluación comparativa para ofrecer un rendimiento de inferencia óptimo. En lugar de probar manualmente combinaciones de tipos de instancias de GPU, contenedores de servicio, estrategias de paralelismo y técnicas de optimización, usted proporciona sus requisitos de modelo y carga de trabajo, y la SageMaker IA devuelve configuraciones validadas y listas para la implementación con métricas de rendimiento reales.

Las recomendaciones de inferencia analizan la arquitectura del modelo, reducen el espacio de configuración y aplican optimizaciones alineadas con los objetivos, como la decodificación especulativa para el rendimiento y el ajuste del núcleo para la latencia. Al evaluar varios tipos de instancias, puede seleccionar la opción más rentable para su carga de trabajo. Compara cada configuración con una infraestructura de GPU real, para que puedas implementarla con confianza y calcular correctamente tus gastos de inferencia.

Funcionamiento

Empezar con las recomendaciones de inferencia es sencillo, ya sea a través de SageMaker AI Studio o de las SageMaker API de IA. En los siguientes pasos se describe el flujo de trabajo.

Prepare el modelo. Señale los artefactos del modelo en Amazon S3 o SageMaker AI Model Registry. Las recomendaciones de inferencia admiten el formato de HuggingFace puntos de control con SafeTensor pesos, incluidos los modelos base y los modelos personalizados o ajustados.
Defina su carga de trabajo. Describa los patrones de tráfico esperados, incluidas las distribuciones de los tokens de entrada y salida y los niveles de simultaneidad. Puede utilizar especificaciones en línea o un conjunto de datos representativo de Amazon S3.
Establezca su objetivo. Elija un único objetivo de rendimiento: optimice los costes, minimice la latencia o maximice el rendimiento. Seleccione hasta tres tipos de instancias para compararlos.
Revise los resultados. SageMaker La IA devuelve configuraciones validadas con métricas de rendimiento reales: el tiempo transcurrido hasta el primer token (TTFT), la latencia entre los tokens, la latencia de las solicitudes P50/P90/P99, el rendimiento y el coste por configuración. Cada configuración está lista para su implementación.
Implemente. Implemente la configuración elegida en un punto final de inferencia de SageMaker IA con una sola acción desde SageMaker AI Studio o mediante programación a través de la API.

También puedes comparar los puntos finales de producción existentes para validar el rendimiento actual o compararlos con las nuevas configuraciones.

Casos de uso

Los siguientes son casos de uso comunes para las recomendaciones de inferencia.

Pre-deployment validación. Optimice y compare un nuevo modelo antes de comprometerse con una implementación de producción. Valide el rendimiento del modelo antes de invertir en escalarlo.
Pruebas de regresión después de las actualizaciones. Valide el rendimiento tras una actualización de un contenedor, una actualización de un marco o una versión de la biblioteca de servicio. Confirme que su configuración sigue siendo óptima antes de pasar a producción.
Right-sizing cuando las condiciones cambien. Cuando los patrones de tráfico cambien o haya nuevos tipos de instancias disponibles, vuelva a ejecutar las recomendaciones de inferencia en cuestión de horas en lugar de reiniciar un proceso manual que dura semanas.
Comparación de modelos. Compare el rendimiento y el coste de las distintas variantes del modelo en los distintos tipos de instancias para realizar una selección fundamentada antes del despliegue en producción.
Optimización de costos: Compare los puntos finales de producción existentes para identificar la infraestructura sobreaprovisionada. Utilice los resultados para dimensionar correctamente y reducir el gasto en inferencias recurrentes.

Precios

Las recomendaciones de inferencia no tienen ninguna tarifa de servicio adicional. Puede utilizar las reservas de aprendizaje automático (planes de formación flexibles) existentes sin coste informático adicional, o utilizar la informática bajo demanda que se aprovisiona automáticamente.

Regiones admitidas

Las recomendaciones de inferencia están disponibles en las siguientes regiones: AWS

Este de EE. UU. (Norte de Virginia)
Este de EE. UU. (Ohio)
Oeste de EE. UU. (Oregón)
Asia-Pacífico (Singapur)
Asia-Pacífico (Tokio)
Europa (Fráncfort)
Europa (Irlanda)

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Optimización de inferencias

Configure la configuración de la carga de trabajo