Real-time inferencia

Real-time la inferencia es ideal para cargas de trabajo de inferencia en las que se requieren requisitos de baja latencia, interactivos y en tiempo real. Puede implementar su modelo en los servicios de alojamiento de SageMaker IA y obtener un punto final que pueda usarse para realizar inferencias. Estos puntos de conexión están totalmente gestionados y admiten autoescalado (consulte Escalado automático de los modelos de Amazon SageMaker AI). Puede monitorear instancias y contenedores individuales en sus puntos finales con métricas mejoradas (consulteMétricas mejoradas de Amazon SageMaker AI para puntos finales de inferencia).

Temas

Implementación de modelos para inferencia en tiempo real
Invocación de modelos para realizar inferencias en tiempo real
Invoque puntos finales con API OpenAI-compatible
Puntos de conexión
Opciones de alojamiento
Escalado automático de los modelos de Amazon SageMaker AI
Volúmenes de almacén de instancias
Validación de modelos en producción
Explicabilidad en línea con Clarify SageMaker
Implemente en varios tipos de instancias con grupos de instancias
Fine-tune modelos con componentes de inferencia de adaptadores

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Solucionar los errores del Recomendador de inferencias

Implementación de modelos