

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Résultats des recommandations
<a name="inference-recommender-interpret-results"></a>

Le résultat de chaque tâche Inference Recommender inclut `InstanceType`, `InitialInstanceCount` et `EnvironmentParameters`, qui sont des paramètres de variables d’environnement ajustés pour votre conteneur afin d’améliorer sa latence et son débit. Les résultats incluent également des métriques de performances et de coûts telles que `MaxInvocations`, `ModelLatency`, `CostPerHour`, `CostPerInference`, `CpuUtilization` et `MemoryUtilization`.

Dans le tableau ci-dessous, nous fournissons une description de ces métriques. Ces métriques peuvent vous aider à affiner votre recherche pour trouver la configuration de point de terminaison la mieux adaptée à votre cas d’utilisation. Par exemple, si votre motivation est la performance globale en termes de prix en mettant l’accent sur le débit, vous devez vous concentrer sur `CostPerInference`. 


| Métrique | Description | Cas d’utilisation | 
| --- | --- | --- | 
|  `ModelLatency`  |  Intervalle de temps nécessaire à un modèle pour répondre tel qu'il est vu par l' SageMaker IA. Cet intervalle inclut le temps de communication local pris pour envoyer la requête et pour récupérer la réponse du conteneur d’un modèle et le temps nécessaire pour terminer l’inférence dans le conteneur. Unités : millisecondes  | Charges de travail sensibles à la latence, telles que la diffusion d’annonces et les diagnostics médicaux | 
|  `MaximumInvocations`  |  Le nombre maximum de demandes `InvokeEndpoint` envoyées à un point de terminaison de modèle en une minute. Unités : aucune  | Charges de travail axées sur le débit, telles que le traitement vidéo ou l’inférence par lots | 
|  `CostPerHour`  |  Le coût horaire estimé pour votre point de terminaison en temps réel. Unités : dollars américains  | Charges de travail sensibles aux coûts sans délais de latence | 
|  `CostPerInference`  |  Le coût horaire estimé par appel d’inférence pour votre point de terminaison en temps réel. Unités : dollars américains  | Optimiser le rapport prix-performance global en mettant l’accent sur le débit | 
|  `CpuUtilization`  |  Utilisation prévue du processeur pour un nombre maximal d’appels par minute pour l’instance de point de terminaison. Unités : pourcentage  | Comprendre l’état de santé de l’instance lors de l’analyse comparative en ayant une visibilité sur l’utilisation du processeur principal de l’instance | 
|  `MemoryUtilization`  |  Utilisation prévue de la mémoire pour un nombre maximal d’appels par minute pour l’instance de point de terminaison. Unités : pourcentage  | Comprendre l’état de santé de l’instance lors de l’analyse comparative en ayant une visibilité sur l’utilisation de la mémoire principale de l’instance | 

Dans certains cas, vous souhaiterez peut-être explorer d'autres [métriques SageMaker AI Endpoint Invocation](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-endpoint-invocation), telles que`CPUUtilization`. Les résultats de chaque tâche Inference Recommender incluent les noms des points de terminaison générés lors du test de charge. Vous pouvez l'utiliser CloudWatch pour consulter les journaux de ces points de terminaison même après leur suppression.

L'image suivante est un exemple de CloudWatch mesures et de graphiques que vous pouvez consulter pour un seul point de terminaison à partir du résultat de vos recommandations. Le résultat de cette recommandation provient d’une tâche par défaut. Pour interpréter les valeurs scalaires à partir des résultats des recommandations, elles sont basées sur le moment où le graphe Invocations commence à se stabiliser pour la première fois. Par exemple, la valeur `ModelLatency` signalée se trouve au début du plateau autour de `03:00:31`.

![\[Graphiques pour CloudWatch les métriques.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/inference-recommender-cw-metrics.png)


Pour une description complète des CloudWatch métriques utilisées dans les graphiques précédents, voir [SageMaker AI Endpoint Invocation metrics](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-endpoint-invocation).

Vous pouvez également consulter les métriques de performances telles que `ClientInvocations` et `NumberOfUsers` publiées par Inference Recommender dans l’espace de noms `/aws/sagemaker/InferenceRecommendationsJobs`. Pour obtenir la liste complète des métriques et des descriptions publiées par Inference Recommender, consultez [SageMaker Indicateurs des emplois Inference Recommender](monitoring-cloudwatch.md#cloudwatch-metrics-inference-recommender).

Consultez le bloc-notes [Amazon SageMaker Inference Recommender - CloudWatch Metrics](https://github.com/aws/amazon-sagemaker-examples/blob/main/sagemaker-inference-recommender/tensorflow-cloudwatch/tf-cloudwatch-inference-recommender.ipynb) Jupyter dans le référentiel [amazon-sagemaker-examples](https://github.com/aws/amazon-sagemaker-examples)Github pour découvrir comment utiliser le AWS SDK pour Python (Boto3) afin d'explorer les métriques de vos points de terminaison. CloudWatch 