Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Opciones de inferencia en Amazon AI SageMaker
<a name="deploy-model-options"></a>

SageMaker La IA ofrece varias opciones de inferencia para que pueda elegir la que mejor se adapte a su carga de trabajo:
+ [Real-Time Inferencia: la Real-time](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html) *inferencia* es ideal para las inferencias en línea que tienen requisitos de baja latencia o alto rendimiento. Utilice la inferencia en tiempo real para un punto final persistente y totalmente gestionado (API REST) que pueda gestionar un tráfico sostenido, con el respaldo del tipo de instancia que elija. Real-time La inferencia admite cargas útiles de hasta 25 MB y tiempos de procesamiento de 60 segundos para las respuestas normales y de 8 minutos para las respuestas en streaming.
+ [Inferencia sin servidor: la inferencia](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html) *sin servidor es ideal cuando hay patrones* de tráfico intermitentes o impredecibles. SageMaker La IA gestiona toda la infraestructura subyacente, por lo que no es necesario gestionar las instancias ni las políticas de escalado. Solo pagará por lo que utilice y no por el tiempo de inactividad. Puede admitir cargas útiles de hasta 4 MB y tiempos de procesamiento de hasta 60 segundos.
+ [Transformación por lotes](https://docs.aws.amazon.com/sagemaker/latest/dg/batch-transform.html): la *Transformación por lotes* es adecuada para el procesamiento fuera de línea cuando existen grandes cantidades de datos disponibles por adelantado y no se necesita un punto de conexión persistente. También puede utilizar la transformación por lotes para preprocesar conjuntos de datos. Puede admitir conjuntos de datos grandes con tamaños de GB y tiempos de procesamiento de días.
+ [Inferencia asíncrona](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html): la *Inferencia asíncrona* es ideal cuando se quiere poner en cola las solicitudes y disponer de grandes cargas útiles con tiempos de procesamiento prolongados. La inferencia asíncrona admite cargas útiles de hasta 1 GB y tiempos de procesamiento prolongados de hasta una hora. También puede reducir verticalmente el punto de conexión a 0 cuando no haya solicitudes que procesar.