Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# SageMaker Parámetros de punto final de IA para inferencia de modelos grandes
<a name="large-model-inference-hosting"></a>

 Puede personalizar los siguientes parámetros para facilitar la inferencia de modelos grandes (LMI) de baja latencia con IA: SageMaker 
+  **Tamaño máximo del volumen de Amazon EBS en la instancia (`VolumeSizeInGB`)**: si el tamaño del modelo es superior a 30 GB y utiliza una instancia sin disco local, debe aumentar este parámetro para que sea ligeramente mayor que el tamaño del modelo. 
+  **Cuota de tiempo de espera de las comprobaciones de estado (`ContainerStartupHealthCheckTimeoutInSeconds`)**: si tu contenedor está configurado correctamente y los CloudWatch registros indican que se ha agotado el tiempo de espera de las comprobaciones de estado, debes aumentar esta cuota para que el contenedor tenga tiempo suficiente para responder a las comprobaciones de estado. 
+  **Cuota de tiempo de espera de descarga del modelo (`ModelDataDownloadTimeoutInSeconds`)**: si el tamaño del modelo es superior a 40 GB, debe aumentar esta cuota para disponer de tiempo suficiente para descargar el modelo de Amazon S3 a la instancia. 

El siguiente fragmento de código muestra cómo configurar mediante programación los parámetros mencionados. {{italicized placeholder text}}Sustitúyala en el ejemplo por tu propia información. 

```
import boto3

aws_region = "{{aws-region}}"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "{{endpoint-name}}"

# Create an endpoint config name.
endpoint_config_name = "{{endpoint-config-name}}"

# The name of the model that you want to host.
model_name = "{{the-name-of-your-model}}"

instance_type = "{{instance-type}}"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "{{variant1}}", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": {{1}}, # Number of instances to launch initially.
            "VolumeSizeInGB": {{256}}, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": {{1800}}, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": {{1800}}, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)
```

 Para obtener más información sobre las claves de `ProductionVariants`, consulte [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html). 

Para ver ejemplos que demuestran cómo lograr inferencias de baja latencia con modelos grandes, consulte los ejemplos de [inferencias generativas de IA en Amazon SageMaker AI en](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main) el repositorio aws-samples. GitHub