

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Formation sans point de contrôle sur Amazon SageMaker HyperPod
<a name="sagemaker-eks-checkpointless"></a>

La formation sans points de contrôle sur Amazon SageMaker HyperPod permet une reprise plus rapide en cas de défaillance de l'infrastructure de formation. La documentation suivante vous aide à démarrer avec une formation sans points de contrôle et à affiner les modèles. NeMo-supported 

La formation Checkpointless comporte les prérequis suivants :
+ [Commencer à utiliser le support Amazon EKS dans SageMaker HyperPod](sagemaker-hyperpod-eks-prerequisites.md)
+ [Installation de l’opérateur d’entraînement](sagemaker-eks-operator-install.md). Vous devez installer la version v1.2.0 ou supérieure.

 La formation sur Checkpointless SageMaker HyperPod est basée sur le guide de l'[utilisateur du NVIDIA NeMo Framework](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager). Vous pouvez exécuter un entraînement sans point de contrôle avec des recettes SageMaker HyperPod prédéfinies. Si vous les connaissez NeMo, le processus d'utilisation des recettes d'entraînement sans point de contrôle est similaire. Avec des modifications mineures, vous pouvez commencer à entraîner un modèle à l'aide de fonctionnalités d'entraînement sans points de contrôle qui vous permettent de récupérer rapidement après des erreurs d'entraînement.

Les HyperPod recettes suivantes sont préconfigurées avec des optimisations d'entraînement sans point de contrôle. Vous pouvez spécifier vos chemins de données dans le cadre de la recette et utiliser le script de lancement associé pour exécuter l'entraînement (voir le guide de démarrage rapide ci-dessous) :


| Modèle | Method | Size | Nœuds | Instance | Accélérateur | Formule | Script | didacticiel | 
| --- | --- | --- | --- | --- | --- | --- | --- | --- | 
| PERTE D'ÉNERGIE | Exemple de réglage complet | 120 b | 16 | p5.48xlarge | GPU H100 | [lien](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_full_fine_tuning.yaml) | [lien](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_full_fine_tuning.sh) | [lien](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-finetune.html) | 
| PERTE D'ÉNERGIE | LoRA-example | 120 b | 2 | p5.48xlarge | GPU H100 | [lien](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_lora.yaml) | [lien](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_lora.sh) | [lien](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft.html) | 
| Lama 3 | Exemple de préentraînement | 70b | 16 | p5.48xlarge | GPU H100 | [lien](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/training/llama/checkpointless_llama3_70b_pretrain.yaml) | [lien](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_pretrain.sh) | [lien](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-pretraining-llama3.html) | 
| Lama 3 | LoRA-example | 70b | 2 | p5.48xlarge | GPU H100 | [lien](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/llama/checkpointless_llama3_70b_lora.yaml) | [lien](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_lora.sh) | [lien](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft-llama.html) | 

Le guide de démarrage rapide suivant propose des didacticiels sur l'utilisation de recettes d'entraînement sans point de contrôle :

**Exemples de mise en route**
+ [Tutoriels - Amazon SageMaker HyperPod Checkpointless Full Finetuning GPT OSS 120b](sagemaker-eks-checkpointless-recipes-finetune.md)
+ [Tutoriels - Amazon SageMaker HyperPod Checkpointless PEFT-LoRA GPT OSS 120b](sagemaker-eks-checkpointless-recipes-peft.md)
+ [Tutoriels - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b](sagemaker-eks-checkpointless-recipes-pretraining-llama3.md)
+ [Tutoriels - Amazon SageMaker HyperPod Checkpointless PEFT-LoRA Llama 3 70b](sagemaker-eks-checkpointless-recipes-peft-llama.md)

Si vous souhaitez pré-entraîner ou peaufiner des modèles personnalisés, consultez. [Tutoriels - Modèles personnalisés de préentraînement ou de réglage précis d'Amazon SageMaker HyperPod Checkpointless](sagemaker-eks-checkpointless-recipes-custom.md)

Pour en savoir plus sur l'intégration de composants spécifiques de formation sans point de contrôle,. [HyperPod fonctionnalités d'entraînement sans point de contrôle](sagemaker-eks-checkpointless-features.md)