

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# SageMaker Parâmetros de endpoint de IA para inferência de modelos grandes
<a name="large-model-inference-hosting"></a>

 Você pode personalizar os seguintes parâmetros para facilitar a inferência de modelos grandes (LMI) de baixa latência com IA: SageMaker 
+  **Tamanho máximo do volume do Amazon EBS na instância (`VolumeSizeInGB`)**: se o tamanho do modelo for maior que 30 GB e você estiver usando uma instância sem um disco local, aumente esse parâmetro para um pouco maior que o tamanho do seu modelo. 
+  **Cota de tempo limite da verificação de saúde (`ContainerStartupHealthCheckTimeoutInSeconds`)** — Se o contêiner estiver configurado corretamente e os CloudWatch registros indicarem um tempo limite da verificação de saúde, você deverá aumentar essa cota para que o contêiner tenha tempo suficiente para responder às verificações de saúde. 
+  **Cota de tempo limite de download do modelo (`ModelDataDownloadTimeoutInSeconds`)**: se o tamanho do seu modelo for maior que 40 GB, você deverá aumentar essa cota para fornecer tempo suficiente para baixar o modelo do Amazon S3 para a instância. 

O trecho de código a seguir demonstra como configurar programaticamente os parâmetros mencionados acima. Substitua o {{italicized placeholder text}} no exemplo por suas próprias informações. 

```
import boto3

aws_region = "{{aws-region}}"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "{{endpoint-name}}"

# Create an endpoint config name.
endpoint_config_name = "{{endpoint-config-name}}"

# The name of the model that you want to host.
model_name = "{{the-name-of-your-model}}"

instance_type = "{{instance-type}}"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "{{variant1}}", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": {{1}}, # Number of instances to launch initially.
            "VolumeSizeInGB": {{256}}, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": {{1800}}, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": {{1800}}, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)
```

 Para obter mais informações sobre as chaves de `ProductionVariants`, consulte [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html). 

Para exemplos que demonstram como obter inferência de baixa latência com modelos grandes, consulte [Exemplos de inferência de IA generativa na Amazon SageMaker AI no repositório](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main) aws-samples. GitHub 