

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Hospedaje de modelos FAQs
<a name="hosting-faqs"></a>

Consulte las siguientes preguntas frecuentes para obtener respuestas a las preguntas más frecuentes sobre SageMaker AI Inference Hosting.

## Alojamiento general
<a name="hosting-faqs-general"></a>

Los siguientes artículos de preguntas frecuentes responden a preguntas generales comunes sobre la inferencia de SageMaker IA.

### P: ¿Qué opciones de implementación ofrece Amazon SageMaker AI?
<a name="hosting-faqs-general-1"></a>

R: Después de crear y entrenar modelos, Amazon SageMaker AI ofrece cuatro opciones para implementarlos para que pueda empezar a hacer predicciones. La inferencia en tiempo real es adecuada para cargas de trabajo con requisitos de latencia de milisegundos, tamaños de carga útil de hasta 25 MB y tiempos de procesamiento de hasta 60 segundos para las respuestas regulares y 8 segundos para las respuestas de transmisión. La transformación por lotes es ideal para realizar predicciones sin conexión en grandes lotes de datos que están disponibles por adelantado. La inferencia asíncrona está diseñada para cargas de trabajo que no requieren una latencia inferior a un segundo, tamaños de carga útil de hasta 1 GB y tiempos de procesamiento de hasta 60 minutos. Con la inferencia sin servidor, puede implementar rápidamente modelos de machine learning para realizar inferencias sin tener que configurar ni administrar la infraestructura subyacente, y solo paga por la capacidad de cómputo utilizada para procesar las solicitudes de inferencia, lo que resulta ideal para cargas de trabajo intermitentes.

### P: ¿Cómo elijo una opción de implementación de modelos en SageMaker IA?
<a name="hosting-faqs-general-2"></a>

Si desea procesar las solicitudes en lotes, puede elegir la transformación por lotes. De lo contrario, si desea recibir inferencias para cada solicitud a su modelo, es posible que prefiera elegir la inferencia asíncrona, la inferencia sin servidor o la inferencia en tiempo real. Puede elegir la inferencia asíncrona si tiene tiempos de procesamiento prolongados o grandes cargas útiles y desea poner en cola las solicitudes. Puede elegir la inferencia sin servidor si su carga de trabajo tiene tráfico impredecible o intermitente. Puede elegir la inferencia en tiempo real si tiene un tráfico constante y necesita una latencia menor y uniforme para sus solicitudes.

### P: He oído que la inferencia mediante SageMaker IA es cara. ¿Cuál es la mejor forma de optimizar mis costos a la hora de alojar modelos?
<a name="hosting-faqs-general-3"></a>

R: Para optimizar sus costos con SageMaker AI Inference, debe elegir la opción de alojamiento adecuada para su caso de uso. También puede utilizar funciones de inferencia como [Amazon SageMaker AI Savings Plans](https://aws.amazon.com/savingsplans/ml-pricing/), la optimización de modelos con [SageMaker Neo](https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html), puntos de conexión [multimodelo y puntos de conexión multicontenedor](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html)[, o el escalado automático.](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html) Para obtener consejos sobre cómo optimizar los costos de inferencia, consulte [Prácticas recomendadas de optimización de costos de inferencia](inference-cost-optimization.md).

### P: ¿Por qué debo usar Amazon SageMaker Inference Recommender?
<a name="hosting-faqs-general-4"></a>

R: Debe utilizar Amazon SageMaker Inference Recommender si necesita recomendaciones para la configuración correcta de los puntos de conexión a fin de mejorar el rendimiento y reducir los costes. Anteriormente, los científicos de datos que deseaban implementar sus modelos tenían que realizar pruebas de rendimiento manuales para seleccionar la configuración adecuada del punto de conexión. En primer lugar, tenían que seleccionar el tipo de instancia de machine learning adecuada entre los más de 70 tipos de instancias disponibles en función de los requisitos de recursos de sus modelos y las cargas útiles de muestra, y luego optimizar el modelo para tener en cuenta los diferentes tipos de hardware. Luego tenían que realizar pruebas de carga exhaustivas para comprobar que se cumplían los requisitos de latencia y rendimiento y que los costos eran bajos. El recomendador de inferencias elimina esta complejidad al ayudarle a hacer lo siguiente: 
+ Comience en cuestión de minutos con una recomendación de instancias.
+ Realice pruebas de carga en todos los tipos de instancias para obtener recomendaciones sobre la configuración de sus puntos de conexión en cuestión de horas. 
+ Ajuste automáticamente los parámetros del servidor de contenedores y modelos, y realice optimizaciones de modelos para un tipo de instancia determinado.

### P: ¿Qué es un servidor de modelos?
<a name="hosting-faqs-general-5"></a>

R: Los puntos de enlace de SageMaker IA son puntos de enlace HTTP REST que utilizan un servidor web en contenedores, que incluye un servidor modelo. Estos contenedores se encargan de cargar y atender las solicitudes de un modelo de machine learning. Implementan un servidor web que responde a `/invocations` y `/ping` en el puerto 8080.

Los servidores modelo más comunes incluyen TensorFlow Serving TorchServe y Multi Model Server. SageMaker Los contenedores AI Framework tienen estos servidores modelo integrados.

### P: ¿Qué es Bring Your Own Container con Amazon SageMaker AI?
<a name="hosting-faqs-general-6"></a>

R: Todo en SageMaker AI Inference está en contenedores. SageMaker La IA proporciona contenedores gestionados para marcos populares como TensorFlow, y SKlearn. HuggingFace Para obtener una lista completa y actualizada de esas imágenes, consulte [Imágenes disponibles](https://github.com/aws/deep-learning-containers/blob/master/available_images.md).

 A veces, hay marcos personalizados para los que es posible que necesite crear un contenedor. Este enfoque se conoce como *Bring Your Own Container* o *BYOC*. Con el enfoque BYOC, usted proporciona la imagen de Docker para configurar su marco o biblioteca. A continuación, inserta la imagen en Amazon Elastic Container Registry (Amazon ECR) para poder utilizarla con IA. SageMaker 

Como alternativa, en lugar de crear una imagen desde cero, puede ampliar un contenedor. Puede tomar una de las imágenes base que proporciona la SageMaker IA y añadir sus dependencias sobre ella en su Dockerfile.

### P: ¿Debo entrenar mis modelos en SageMaker IA para alojarlos en SageMaker puntos finales de IA?
<a name="hosting-faqs-general-7"></a>

R: La SageMaker IA ofrece la posibilidad de crear tu propio modelo de marco entrenado que hayas formado fuera de la SageMaker IA e implementarlo en cualquiera de las opciones de alojamiento de SageMaker IA.

SageMaker La IA requiere empaquetar el modelo en un `model.tar.gz` archivo y tener una estructura de directorios específica. Cada marco tiene su propia estructura de modelo (consulte la siguiente pregunta para ver ejemplos de estructuras). Para obtener más información, consulte la documentación del SDK de SageMaker Python para [TensorFlow[PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#bring-your-own-model)](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/deploying_tensorflow_serving.html#deploying-directly-from-model-artifacts), y [MXNet](https://sagemaker.readthedocs.io/en/stable/frameworks/mxnet/using_mxnet.html#deploy-endpoints-from-model-data).

Si bien puede elegir entre imágenes de marco prediseñadas TensorFlow, como PyTorch, y MXNet alojar su modelo entrenado, también puede crear su propio contenedor para alojar sus modelos entrenados en puntos finales de SageMaker IA. Para ver un tutorial, consulte el ejemplo del cuaderno de Jupyter: [Creación de su propio contenedor de algoritmos](https://github.com/aws/amazon-sagemaker-examples/blob/main/advanced_functionality/scikit_bring_your_own/scikit_bring_your_own.ipynb).

### P: ¿Cómo debo estructurar mi modelo si quiero implementarlo en SageMaker IA pero no entrenarme en SageMaker IA?
<a name="hosting-faqs-general-8"></a>

R: La SageMaker IA requiere que los artefactos del modelo se compriman en un `.tar.gz` archivo o en un *tarball*. SageMaker La IA extrae automáticamente este `.tar.gz` archivo al `/opt/ml/model/` directorio de su contenedor. El tarball no debe contener symlinks ni archivos innecesarios. Si utilizas uno de los contenedores del framework, por ejemplo, o TensorFlow PyTorch, el contenedor MXNet, espera que tu estructura TAR sea la siguiente: 

**TensorFlow**

```
model.tar.gz/
             |--[model_version_number]/
                                       |--variables
                                       |--saved_model.pb
            code/
                |--inference.py
                |--requirements.txt
```

**PyTorch**

```
model.tar.gz/
             |- model.pth
             |- code/
                     |- inference.py
                     |- requirements.txt  # only for versions 1.3.1 and higher
```

**MXNet**

```
model.tar.gz/
            |- model-symbol.json
            |- model-shapes.json
            |- model-0000.params
            |- code/
                    |- inference.py
                    |- requirements.txt # only for versions 1.6.0 and higher
```

### P: Al invocar un punto final de SageMaker IA, puedo proporcionar un tipo `Accept` MIME `ContentType` y. ¿Cuál se utiliza para identificar el tipo de datos que se envía y recibe?
<a name="hosting-faqs-general-10"></a>

R: `ContentType` es el tipo MIME de los datos de entrada en el cuerpo de la solicitud (el tipo MIME de los datos que se envían a su punto de conexión). El servidor de modelos utiliza el `ContentType` para determinar si puede gestionar el tipo proporcionado o no.

`Accept` es el tipo MIME de la respuesta de inferencia (el tipo MIME de los datos que devuelve su punto de conexión). El servidor de modelos utiliza el tipo `Accept` para determinar si puede gestionar la devolución del tipo proporcionado o no.

Los tipos MIME más comunes incluyen `text/csv`, `application/json`, y `application/jsonlines`.

### P: ¿Cuáles son los formatos de datos compatibles con la inferencia de SageMaker IA?
<a name="hosting-faqs-general-12"></a>

R: SageMaker La IA transfiere cualquier solicitud al contenedor del modelo sin modificarla. El contenedor debe contener la lógica necesaria para deserializar la solicitud. Para obtener información sobre los formatos definidos para los algoritmos integrados, consulte [Formatos de datos comunes para la inferencia](https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-inference.html). Si está creando su propio contenedor o utilizando un contenedor de SageMaker AI Framework, puede incluir la lógica para aceptar el formato de solicitud que prefiera.

Del mismo modo, la SageMaker IA también devuelve la respuesta sin modificarla y, a continuación, el cliente debe deserializarla. En el caso de los algoritmos integrados, devuelven las respuestas en formatos específicos. Si está creando su propio contenedor o utilizando un contenedor de SageMaker AI Framework, puede incluir la lógica para devolver una respuesta en el formato que elija.

### P: ¿Cómo puedo invocar mi punto de conexión con datos binarios, como vídeos o imágenes?
<a name="hosting-faqs-general-11"></a>

Utilice la llamada a la API [Invoke Endpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) para hacer inferencias a su punto de conexión.

Al pasar la entrada como carga útil a la API `InvokeEndpoint`, debe proporcionar el tipo de datos de entrada correcto que espera el modelo. Al transferir una carga útil a la llamada a la API `InvokeEndpoint`, los bytes de la solicitud se reenvían directamente al contenedor del modelo. Por ejemplo, para una imagen, puede utilizar `application/jpeg` para el `ContentType` y asegurarse de que su modelo pueda realizar inferencias con este tipo de datos. Esto se aplica a JSON, CSV, vídeo o cualquier otro tipo de entrada con la que pueda estar trabajando.

Otro factor que tener en cuenta son los límites de tamaño de la carga útil. Los límites de carga útil son de 25 MB para los puntos de conexión en tiempo real y de 4 MB para los puntos de conexión sin servidor. Puede dividir el vídeo en varios fotogramas e invocar el punto de conexión con cada fotograma de forma individual. Como alternativa, si su caso de uso lo permite, puede enviar todo el vídeo de la carga útil mediante un punto de conexión asíncrono, que admita cargas útiles de hasta 1 GB.

Para ver un ejemplo que muestra cómo ejecutar la inferencia por visión artificial en vídeos de gran tamaño con la inferencia asíncrona, consulte esta [entrada de blog](https://aws.amazon.com/blogs/machine-learning/run-computer-vision-inference-on-large-videos-with-amazon-sagemaker-asynchronous-endpoints/).

## Inferencia en tiempo real
<a name="hosting-faqs-real-time"></a>

Los siguientes artículos de preguntas frecuentes responden a preguntas frecuentes sobre la inferencia en tiempo real de SageMaker IA.

### P: ¿Cómo creo un punto final de SageMaker IA?
<a name="hosting-faqs-real-time-1"></a>

R: Puede crear un punto final AWS de SageMaker IA mediante herramientas compatibles AWS SDKs, como el SDK de SageMaker Python Consola de administración de AWS AWS CloudFormation, el y el. AWS Cloud Development Kit (AWS CDK)

Hay tres entidades clave en la creación de puntos finales: un modelo de SageMaker IA, una configuración de puntos finales de SageMaker IA y un punto final de SageMaker IA. El modelo de SageMaker IA apunta hacia los datos y la imagen del modelo que está utilizando. La configuración del punto de conexión define las variantes de producción, que pueden incluir el tipo de instancia y el número de instancias. A continuación, puede utilizar la llamada a la API [create\$1endpoint](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_endpoint) o la llamada [.deploy ()](https://sagemaker.readthedocs.io/en/stable/api/inference/model.html) para que la SageMaker IA cree un punto final con los metadatos de la configuración de su modelo y punto final.

### P: ¿Necesito usar el SDK de SageMaker Python para los create/invoke puntos finales?
<a name="hosting-faqs-real-time-2"></a>

R: No, puedes usar los distintos AWS SDKs (consulta [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#API_runtime_InvokeEndpoint_SeeAlso](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#API_runtime_InvokeEndpoint_SeeAlso) para ver si están disponibles SDKs) o incluso llamar directamente a la web APIs correspondiente.

### P: ¿Cuál es la diferencia entre los puntos de conexión multimodelo (MME) y los servidores multimodelo (MMS)?
<a name="hosting-faqs-real-time-3"></a>

R: Un punto final multimodelo es una opción de inferencia en tiempo real que SageMaker ofrece la IA. Con los puntos de conexión multimodelo, puede alojar miles de modelos en un punto de conexión. [El servidor multimodelo](https://github.com/awslabs/multi-model-server) es un marco de código abierto para ofrecer modelos de machine learning. Proporciona las capacidades de administración de modelos y front-end HTTP requeridas por los puntos de conexión multimodelo para alojar varios modelos dentro de un único contenedor, cargar y descargar modelos del contenedor dinámicamente y realizar inferencia en un modelo cargado especificado.

### P: ¿Cuáles son las diferentes arquitecturas de implementación de modelos compatibles con la inferencia en tiempo real?
<a name="hosting-faqs-real-time-4"></a>

R: SageMaker La inferencia en tiempo real mediante IA es compatible con diversas arquitecturas de despliegue de modelos, como terminales multimodelo, terminales multicontenedor y canalizaciones de inferencia en serie. 

[Puntos de conexión multimodelo (MME)](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html): un MME permite a los clientes implementar miles de modelos hiperpersonalizados de forma rentable. Todos los modelos se implementan en una flota de recursos compartidos. El MME funciona mejor cuando los modelos tienen un tamaño y una latencia similares y pertenecen al mismo marco de ML. Estos puntos de conexión son ideales para cuando no es necesario llamar al mismo modelo en todo momento. Puede cargar los modelos respectivos de forma dinámica en el punto final de la IA para atender su solicitud SageMaker .

Terminales [multicontenedor (MCE): el MCE permite a los clientes implementar 15 contenedores diferentes con diversos marcos y funcionalidades de aprendizaje automático sin necesidad de arranques en frío y utilizando solo un punto final](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html). SageMaker Puede invocar directamente estos contenedores. Un MCE es ideal para cuando quiera guardar todos los modelos en la memoria.

[Canalizaciones de inferencia en serie (SIP)](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipelines.html): puede utilizar una SIP para encadenar de 2 a 15 contenedores en un único punto de conexión. Una SIP resulta especialmente adecuada para combinar el preprocesamiento y la inferencia de modelos en un punto de conexión y para operaciones de baja latencia.

## Inferencia sin servidor
<a name="hosting-faqs-serverless"></a>

Los siguientes elementos de preguntas frecuentes responden a preguntas frecuentes sobre Amazon SageMaker Serverless Inference.

### P: ¿Qué es Amazon SageMaker Serverless Inference?
<a name="hosting-faqs-serverless-1"></a>

R: [Implemente modelos con Amazon SageMaker Serverless Inference](serverless-endpoints.md) es una opción de provisión de modelos sin servidor diseñada específicamente que facilita la implementación y el escalado de los modelos de ML. Los puntos de conexión de inferencias sin servidor inician automáticamente los recursos de computación y los amplían y reducen en función del tráfico, lo que elimina la necesidad de elegir tipos de instancias, ejecutar capacidades aprovisionadas o administrar el escalado. Puede especificar los requisitos de memoria para su punto de conexión sin servidor. Solo paga por la duración de la ejecución del código de inferencia y la cantidad de datos procesados, no por los períodos de inactividad.

### P: ¿Por qué debo utilizar la inferencia sin servidor?
<a name="hosting-faqs-serverless-2"></a>

R: La inferencia sin servidor simplifica la experiencia del desarrollador al eliminar la necesidad de aprovisionar la capacidad por adelantado y administrar las políticas de escalado. La inferencia sin servidor puede escalar instantáneamente de decenas a miles de inferencias en cuestión de segundos en función de los patrones de uso, lo que la hace ideal para aplicaciones de machine learning con tráfico intermitente o impredecible. Por ejemplo, un servicio de chatbot que utiliza una empresa de procesamiento de nóminas experimenta un aumento de las consultas al final del mes, mientras que el tráfico es intermitente durante el resto del mes. En estos casos, el aprovisionamiento de instancias durante todo el mes no resulta rentable, ya que se acaba pagando por los períodos de inactividad.

La inferencia sin servidor ayuda a abordar este tipo de casos de uso al proporcionarle un escalado automático y rápido desde el primer momento sin necesidad de pronosticar el tráfico por adelantado ni de administrar las políticas de escalado. Además, solo paga por el tiempo de computación necesario para ejecutar el código de inferencia y para el procesamiento de datos, lo que lo hace ideal para cargas de trabajo con tráfico intermitente.

### P: ¿Cómo elijo el tamaño de memoria adecuado para mi punto de conexión sin servidor?
<a name="hosting-faqs-serverless-3"></a>

R: Su punto de conexión sin servidor tiene un tamaño de RAM mínimo de 1024 MB (1 GB) y el tamaño máximo de RAM que puede elegir es de 6144 MB (6 GB). Los tamaños de memoria que puede elegir son 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB. La inferencia sin servidor asigna automáticamente los recursos de procesamiento proporcionales a la memoria que seleccione. Si elige un tamaño de memoria más grande, su contenedor tiene acceso a más v. CPUs

Seleccione el tamaño de memoria de su punto de conexión de acuerdo con el tamaño de su modelo. Por lo general, el tamaño de la memoria debe ser al menos tan grande como el tamaño del modelo. Es posible que tengas que realizar una evaluación comparativa para elegir la memoria adecuada para tu modelo en función de tu latencia SLAs. Los incrementos de tamaño de memoria tienen precios diferentes; consulta la [página de SageMaker precios de Amazon](https://aws.amazon.com/sagemaker/pricing/) para obtener más información.

## Transformación por lotes
<a name="hosting-faqs-batch"></a>

Los siguientes artículos de preguntas frecuentes responden a preguntas frecuentes sobre SageMaker AI Batch Transform.

### P: ¿Cómo divide mis datos la transformación por lotes?
<a name="hosting-faqs-batch-1"></a>

R: Para formatos de archivo específicos, como CSV, Recordio y SageMaker AI TFRecord, puede dividir sus datos en minilotes de un solo registro o de varios registros y enviarlos como carga útil a su contenedor de modelos. Cuando el valor de `[BatchStrategy](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#sagemaker-CreateTransformJob-request-BatchStrategy)` es`MultiRecord`, SageMaker AI envía el número máximo de registros en cada solicitud, hasta el límite. `MaxPayloadInMB` Cuando el valor de `BatchStrategy` es`SingleRecord`, SageMaker AI envía registros individuales en cada solicitud.

### P: ¿Cuál es el tiempo de espera máximo para la transformación por lotes y el límite de carga útil de un solo registro?
<a name="hosting-faqs-batch-2"></a>

R: El tiempo de espera máximo para la transformación por lotes es de 3600 segundos. El [tamaño máximo de la carga útil](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#sagemaker-CreateTransformJob-request-MaxPayloadInMB) de un registro (por minilote) es de 100 MB.

### P: ¿Cómo puedo acelerar un trabajo de transformación por lotes?
<a name="hosting-faqs-batch-3"></a>

R: Si está utilizando la API `[CreateTransformJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html)`, puede reducir el tiempo necesario para completar los trabajos de transformación por lotes utilizando valores óptimos para parámetros como `[MaxPayloadInMB](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-MaxPayloadInMB)`, `[MaxConcurrentTransforms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-MaxConcurrentTransforms)` o `[BatchStrategy](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-BatchStrategy)`. El valor ideal para `MaxConcurrentTransforms` es igual al número de procesos de computación en el trabajo de transformación por lotes. Si utiliza la consola SageMaker AI, puede especificar estos valores de parámetros óptimos en la sección **Configuración adicional de la página de configuración** del **trabajo de transformación por lotes**. SageMaker La IA encuentra automáticamente los ajustes de parámetros óptimos para los algoritmos integrados. Para los algoritmos personalizados, proporcione estos valores a través de un punto de conexión [execution-parameters](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-batch-code.html#your-algorithms-batch-code-how-containe-serves-requests).

### P: ¿Cuáles son los formatos de datos compatibles de forma nativa con la transformación por lotes?
<a name="hosting-faqs-batch-4"></a>

R: La transformación por lotes es compatible con CSV y JSON.

## Inferencia asíncrona
<a name="hosting-faqs-async"></a>

Los siguientes artículos de preguntas frecuentes responden a preguntas generales comunes sobre la inferencia asincrónica de la SageMaker IA.

### P: ¿Qué es Amazon SageMaker Asynchronous Inference?
<a name="hosting-faqs-async-1"></a>

R: La inferencia asíncrona pone en cola las solicitudes de inferencia entrantes y las procesa de forma asíncrona. Esta opción es ideal para solicitudes con cargas útiles grandes o tiempos de procesamiento prolongados que deben procesarse a medida que llegan. Si lo desea, puede configurar los ajustes de escalado automático para reducir verticalmente el recuento de instancias a cero cuando no se estén procesando solicitudes de forma activa. 

### P: ¿Cómo puedo escalar mis puntos de conexión a 0 cuando no haya tráfico?
<a name="hosting-faqs-async-2"></a>

R: Amazon SageMaker AI admite el escalado automático (escalado automático) de su punto final asíncrono. El escalado automático ajusta dinámicamente el número de instancias aprovisionadas para un modelo en respuesta a los cambios en su carga de trabajo. A diferencia de otros modelos hospedados que admite la SageMaker IA, con la inferencia asíncrona también puede reducir a cero las instancias de puntos finales asíncronos. Las solicitudes que se reciben cuando no hay ninguna instancia se ponen en cola para su procesamiento cuando el punto de conexión escale verticalmente. Para obtener más información, consulte [Escalado automático de un punto de conexión asíncrono](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-autoscale.html).

Amazon SageMaker Serverless Inference también se reduce automáticamente a cero. No lo verá porque la SageMaker IA logra escalar sus puntos de conexión sin servidor, pero si no hay tráfico, se aplica la misma infraestructura.