

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Formation ponctuelle gérée dans Amazon SageMaker AI
<a name="model-managed-spot-training"></a>

Amazon SageMaker AI facilite la formation de modèles d'apprentissage automatique à l'aide d'instances Amazon EC2 Spot gérées. L'entraînement d'instances Spot gérées peut optimiser le coût d'entraînement des modèles jusqu'à 90 % par rapport aux instances à la demande. SageMaker L'IA gère les interruptions de Spot en votre nom. 

L'entraînement d'instances Spot gérées utilise une instance Spot Amazon EC2 pour exécuter des tâches d'entraînement au lieu d'instances à la demande. Vous pouvez spécifier les tâches de formation qui utilisent des instances ponctuelles et une condition d'arrêt qui indique la durée pendant laquelle l' SageMaker IA attend qu'une tâche s'exécute à l'aide d'instances ponctuelles Amazon EC2. Les métriques et les journaux générés lors des entraînements sont disponibles dans CloudWatch. 

Le réglage automatique des modèles Amazon SageMaker AI, également connu sous le nom de réglage des hyperparamètres, peut utiliser un entraînement ponctuel géré. Pour plus d'informations sur le réglage automatique de modèle, consultez [Réglage automatique du modèle grâce à l' SageMaker IA](automatic-model-tuning.md).

Les instances Spot peuvent être interrompues, suite à quoi les tâches mettent plus de temps à démarrer ou à se terminer. Vous pouvez configurer votre tâche de formation ponctuelle gérée pour utiliser des points de contrôle. SageMaker L'IA copie les données des points de contrôle depuis un chemin local vers Amazon S3. Lorsque la tâche est redémarrée, SageMaker AI copie les données d'Amazon S3 dans le chemin local. La tâche d'entraînement peut ensuite reprendre à partir du dernier point de contrôle au lieu de redémarrer depuis le début. Pour en savoir plus sur les points de contrôle, consultez [Points de contrôle dans Amazon AI SageMaker](model-checkpoints.md).

**Note**  
À moins que votre stage de formation ne soit terminé rapidement, nous vous recommandons d'utiliser le point de contrôle avec une formation ponctuelle gérée. SageMaker Les algorithmes intégrés à l'IA et les algorithmes du marché qui ne sont pas des points `MaxWaitTimeInSeconds` de contrôle sont actuellement limités à 3 600 secondes (60 minutes). 

Pour utiliser l'entraînement Spot géré, créez une tâche d'entraînement. Définissez `EnableManagedSpotTraining` sur `True` et spécifiez `MaxWaitTimeInSeconds`. `MaxWaitTimeInSeconds` doit être supérieur à `MaxRuntimeInSeconds`. Pour de plus amples informations sur la création d'une tâche de formation, veuillez consulter [DescribeTrainingJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html). 

Vous pouvez calculer les économies générées par l'utilisation de l'entraînement Spot géré à l'aide de la formule `(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100`. Par exemple, si la valeur `BillableTimeInSeconds` est égale à 100 et `TrainingTimeInSeconds` à 500, cela signifie que votre tâche d'entraînement a duré 500 secondes, mais que vous n'avez été facturé que pour 100 secondes. Vos économies sont de (1 - (100 / 500)) \* 100 = 80 %.

Pour savoir comment exécuter des tâches de formation sur des instances SageMaker ponctuelles Amazon AI et comment fonctionne la formation ponctuelle gérée et réduit le temps facturable, consultez les exemples de carnets de notes suivants :
+ [Entraînement ponctuel géré avec TensorFlow](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-python-sdk/managed_spot_training_tensorflow_estimator/managed_spot_training_tensorflow_estimator.html)
+ [Entraînement Spot géré avec PyTorch](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training/blob/main/pytorch_managed_spot_training_checkpointing/pytorch_managed_spot_training_checkpointing.ipynb)
+ [Entraînement d'instances Spot gérées avec XGBoost](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/xgboost_abalone/xgboost_managed_spot_training.html)
+ [Entraînement d'instances Spot gérées avec MXNet](https://github.com/aws/amazon-sagemaker-examples-community/blob/215215eb25b40eadaf126d055dbb718a245d7603/training/sagemaker-debugger/mxnet-spot-training-with-sagemakerdebugger.ipynb#L41)
+ [ GitHub Référentiel d'exemples de formations ponctuelles gérées par Amazon SageMaker AI](https://github.com/aws-samples/amazon-sagemaker-managed-spot-training)