Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d'une configuration de point de terminaison
<a name="async-inference-create-endpoint-create-endpoint-config"></a>

Une fois que vous avez un modèle, créez une configuration de point de terminaison avec [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html). Les services d'hébergement Amazon SageMaker AI utilisent cette configuration pour déployer des modèles. Dans la configuration, vous identifiez un ou plusieurs modèles, créés à l'aide de with [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html), pour déployer les ressources que vous souhaitez qu'Amazon SageMaker AI fournisse. Spécifiez l'objet `AsyncInferenceConfig` et fournissez un emplacement Amazon S3 de sortie pour `OutputConfig`. Vous pouvez éventuellement spécifier des rubriques [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) sur lesquelles envoyer des notifications concernant les résultats de prédiction. Pour plus d’informations sur les rubriques Amazon SNS, consultez [Configuration d’Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-configuring.html).

L'exemple suivant montre comment créer une configuration de point de terminaison à l'aide du kit AWS SDK pour Python (Boto3) :

```
import datetime
from time import gmtime, strftime

# Create an endpoint config name. Here we create one based on the date  
# so it we can search endpoints based on creation time.
endpoint_config_name = f"XGBoostEndpointConfig-{strftime('%Y-%m-%d-%H-%M-%S', gmtime())}"

# The name of the model that you want to host. This is the name that you specified when creating the model.
model_name='<The_name_of_your_model>'

create_endpoint_config_response = sagemaker_client.create_endpoint_config(
    EndpointConfigName=endpoint_config_name, # You will specify this name in a CreateEndpoint request.
    # List of ProductionVariant objects, one for each model that you want to host at this endpoint.
    ProductionVariants=[
        {
            "VariantName": "variant1", # The name of the production variant.
            "ModelName": model_name, 
            "InstanceType": "ml.m5.xlarge", # Specify the compute instance type.
            "InitialInstanceCount": 1 # Number of instances to launch initially.
        }
    ],
    AsyncInferenceConfig={
        "OutputConfig": {
            # Location to upload response outputs when no location is provided in the request.
            "S3OutputPath": f"s3://{s3_bucket}/{bucket_prefix}/output"
            # (Optional) specify Amazon SNS topics
            "NotificationConfig": {
                "SuccessTopic": "arn:aws:sns:aws-region:account-id:topic-name",
                "ErrorTopic": "arn:aws:sns:aws-region:account-id:topic-name",
            }
        },
        "ClientConfig": {
            # (Optional) Specify the max number of inflight invocations per instance
            # If no value is provided, Amazon SageMaker will choose an optimal value for you
            "MaxConcurrentInvocationsPerInstance": 4
        }
    }
)

print(f"Created EndpointConfig: {create_endpoint_config_response['EndpointConfigArn']}")
```

Dans l'exemple susmentionné, vous spécifiez les clés suivantes pour `OutputConfig` pour le champ `AsyncInferenceConfig` :
+ `S3OutputPath` : l'emplacement pour charger les sorties de réponse lorsqu'aucun emplacement n'est fourni dans la requête.
+ `NotificationConfig` : (facultatif) les rubriques SNS qui vous envoient des notifications lorsqu'une requête d'inférence réussit (`SuccessTopic`) ou échoue (`ErrorTopic`).

Vous pouvez également spécifier l'argument facultatif suivant pour `ClientConfig` dans le champ `AsyncInferenceConfig` :
+ `MaxConcurrentInvocationsPerInstance`: (Facultatif) Le nombre maximum de demandes simultanées envoyées par le client SageMaker AI au conteneur modèle.