Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Tutoriel : Création d'un flux de travail d'apprentissage end-to-end automatique dans SageMaker Canvas
<a name="canvas-end-to-end-machine-learning-workflow"></a>

Ce didacticiel vous guide tout au long d'un flux de travail d'apprentissage end-to-end automatique (ML) à l'aide d'Amazon SageMaker Canvas. SageMaker Canvas est une interface visuelle sans code que vous pouvez utiliser pour préparer des données et pour former et déployer des modèles de machine learning. Dans le cadre de ce didacticiel, vous utilisez un jeu de données des taxis de New York pour entraîner un modèle qui prédit le montant de la course pour un trajet donné. Vous acquérez une expérience pratique des tâches clés du ML, telles que l'évaluation de la qualité des données et la résolution des problèmes liés aux données, la division des données en ensembles de formation et de test, la formation et l'évaluation de modèles, l'établissement de prédictions et le déploiement de votre modèle entraîné, le tout dans l' SageMaker application Canvas.

**Important**  
Ce didacticiel part du principe que vous ou votre administrateur avez créé un AWS compte. Pour plus d'informations sur la création d'un AWS compte, voir [Mise en route : Êtes-vous un AWS utilisateur pour la première fois ?](https://docs.aws.amazon.com/accounts/latest/reference/welcome-first-time-user.html)

## Configuration
<a name="canvas-tutorial-setting-up"></a>

Un domaine Amazon SageMaker AI est un endroit centralisé pour gérer tous vos environnements et ressources Amazon SageMaker AI. Un domaine agit comme une limite virtuelle pour votre travail dans le domaine de l' SageMaker IA, en isolant et en contrôlant l'accès à vos ressources d'apprentissage automatique (ML). 

Pour commencer à utiliser Amazon SageMaker Canvas, vous ou votre administrateur devez accéder à la console SageMaker AI et créer un domaine Amazon SageMaker AI. Un domaine dispose des ressources de stockage et de calcul nécessaires pour exécuter SageMaker Canvas. Au sein du domaine, vous configurez SageMaker Canvas pour accéder à vos compartiments Amazon S3 et déployer des modèles. Utilisez la procédure suivante pour configurer un domaine rapide et créer une application SageMaker Canvas.

**Pour configurer SageMaker Canvas**

1. Accédez à la [console SageMaker AI](https://console.aws.amazon.com/sagemaker).

1. Dans le menu de navigation de gauche, choisissez SageMaker Canvas.

1. Choisissez **Créer un domaine SageMaker AI**.

1. Choisissez **Set up (Configurer)**. La configuration du domaine peut prendre quelques minutes.

La procédure précédente utilisait une configuration rapide du domaine. Vous pouvez effectuer une configuration avancée pour contrôler tous les aspects de la configuration du compte, y compris les autorisations, les intégrations et le chiffrement. Pour plus d’informations sur une configuration personnalisée, consultez [Utiliser une configuration personnalisée pour Amazon SageMaker AI](onboard-custom.md).

Par défaut, la configuration rapide du domaine vous donne les autorisations nécessaires pour déployer des modèles. Si vous avez configuré des autorisations personnalisées via un domaine standard et que vous devez accorder manuellement des autorisations de déploiement de modèles, consultez [Gestion des autorisations](canvas-deploy-model.md#canvas-deploy-model-prereqs).

## Création de flux
<a name="canvas-tutorial-flow-creation"></a>

Amazon SageMaker Canvas est une plateforme d'apprentissage automatique qui permet aux utilisateurs de créer, de former et de déployer des modèles d'apprentissage automatique sans expertise approfondie en matière de codage ou d'apprentissage automatique. L'une des fonctionnalités puissantes d'Amazon SageMaker Canvas est la possibilité d'importer et de travailler avec de grands ensembles de données provenant de diverses sources, telles qu'Amazon S3.

Pour ce didacticiel, nous utilisons le jeu de données des taxis de New York pour prévoir le montant du tarif pour chaque trajet à l'aide d'un flux de données Amazon SageMaker Canvas Data Wrangler. La procédure suivante décrit les étapes à suivre pour importer une version modifiée du jeu de données des taxis de New York dans un flux de données.

**Note**  
Pour améliorer le traitement, SageMaker Canvas importe un échantillon de vos données. Par défaut, il échantillonne 50 000 lignes sélectionnées de manière aléatoire.

**Pour importer le jeu de données des taxis de New York**

1. Sur la page d'accueil de SageMaker Canvas, choisissez **Data Wrangler**.

1. Choisissez **Importer les données**.

1. Sélectionnez **Tabulaire**.

1. Choisissez la boîte à outils située à côté de la source de données.

1. Sélectionnez **Amazon S3** dans le menu déroulant.

1. Pour **Point de terminaison S3 en entrée**, spécifiez `s3://amazon-sagemaker-data-wrangler-documentation-artifacts/canvas-single-file-nyc-taxi-dataset.csv`

1. Choisissez **Aller**.

1. Cochez la case en regard du jeu de données.

1. Choisissez **Prévisualiser les données**.

1. Choisissez **Enregistrer**.

## Rapport d’informations et de qualité des données 1 (échantillon)
<a name="canvas-tutorial-data-quality-insights-report-1"></a>

Après avoir importé un ensemble de données dans Amazon SageMaker Canvas, vous pouvez générer un rapport Data Quality and Insights à partir d'un échantillon de données. Utilisez-le pour fournir des informations précieuses sur le jeu de données. Ce rapport effectue les actions suivantes :
+ Il évalue l’exhaustivité du jeu de données.
+ Il identifie les valeurs manquantes et les valeurs aberrantes.

Il peut identifier d’autres problèmes potentiels susceptibles d’avoir un impact sur les performances du modèle. Il évalue également le pouvoir prédictif de chaque caractéristique par rapport à la variable cible, ce qui vous permet d’identifier les caractéristiques les plus pertinentes pour le problème que vous essayez de résoudre.

Nous pouvons utiliser les informations fournies par le rapport pour prédire le montant de la course. En spécifiant la colonne **Montant de la course** comme variable cible et en sélectionnant **Régression** comme type de problème, le rapport analysera la pertinence du jeu de données dans le cadre de la prédiction de valeurs continues telles que les montants des courses. Le rapport doit révéler que des fonctionnalités telles que **année** et **heure\$1de\$1la\$1journée** ont un faible pouvoir prédictif pour la variable cible choisie, vous fournissant ainsi des informations précieuses.

Utilisez la procédure suivante pour obtenir un rapport d’informations et de qualité des données d’un échantillon de 50 000 lignes du jeu de données.

**Pour obtenir un rapport sur un échantillon**

1. Choisissez **Obtenir des informations sur les données** dans la fenêtre contextuelle située à côté du nœud **Types de données**.

1. Pour **Nom de l’analyse**, spécifiez un nom pour le rapport.

1. Pour **Type de problème**, choisissez **Régression**.

1. Pour **Colonne cible**, choisissez **Montant de la course**.

1. Choisissez **Créer**.

Vous pouvez consulter le rapport d’informations et de qualité des données d’un échantillon de vos données. Le rapport indique que les fonctionnalités **année** et **heure\$1de\$1la\$1journée** ne permettent pas de prédire la variable cible, **Montant de la course**.

En haut de la navigation, choisissez le nom du flux de données pour y revenir.

## Suppression de l’année et de l’heure de la journée
<a name="canvas-tutorial-drop-year-and-hour-of-day"></a>

Nous utilisons les informations issues du rapport pour supprimer les colonnes **année** et **heure\$1de\$1la\$1journée** afin de simplifier l’espace des caractéristiques et d’améliorer potentiellement les performances du modèle.

Amazon SageMaker Canvas fournit une interface conviviale et des outils permettant d'effectuer de telles transformations de données.

Suivez la procédure suivante pour supprimer les colonnes **year** et **hour\$1of\$1day** du jeu de données des taxis de New York à l'aide de l'outil Data Wrangler d'Amazon Canvas. SageMaker 

1. Choisissez l’icône à côté de **Types de données**.

1. Choisissez **Ajouter une étape**.

1. Dans la barre de recherche, saisissez **Supprimer une colonne**.

1. Choisissez **Manage Columns** (Gérer les colonnes).

1. Choisissez **Supprimer une colonne**.

1. Pour **Colonnes à supprimer**, sélectionnez les colonnes **année** et **heure\$1de\$1la\$1journée**.

1. Choisissez **Aperçu** pour voir comment votre transformation modifie vos données.

1. Choisissez **Ajouter**.

Vous pouvez utiliser la procédure précédente comme base pour ajouter toutes les autres transformations dans SageMaker Canvas.

## Rapport d’informations et de qualité des données 2 (jeu de données complet)
<a name="canvas-tutorial-data-quality-insights-report-2"></a>

Pour le rapport d’informations précédent, nous avons utilisé un échantillon du jeu de données sur les taxis de New York. Pour notre deuxième rapport, nous effectuons une analyse exhaustive du jeu de données complet afin d’identifier les problèmes potentiels ayant une incidence sur les performances du modèle.

Utilisez la procédure suivante pour créer un rapport d’informations et de qualité des données d’un jeu de données complet.

**Pour obtenir un rapport sur le jeu de données complet**

1. Choisissez l’icône en regard du nœud **Supprimer des colonnes**.

1. Choisissez **Obtenir des informations sur les données**.

1. Pour **Nom de l’analyse**, spécifiez un nom pour le rapport.

1. Pour **Type de problème**, choisissez **Régression**.

1. Pour **Colonne cible**, choisissez **Montant de la course**.

1. Pour **Taille des données**, choisissez **Jeu de données complet**.

1. Choisissez **Créer**.

Voici une image tirée du rapport d’informations :

![\[Les données Lignes dupliquées, Cible biaisée et Score de modèle rapide très faible sont répertoriées en tant qu’informations.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/canvas-tutorial-dqi-insights.png)


Elle montre les problèmes suivants :
+ Lignes dupliquées.
+ Cible biaisée

Les lignes dupliquées peuvent entraîner une fuite de données, le modèle étant exposé aux mêmes données pendant l’entraînement et les tests. Elles peuvent conduire à des métriques de performances trop optimistes. La suppression des lignes dupliquées garantit que le modèle est entraîné sur des instances uniques, ce qui réduit le risque de fuite de données et améliore la capacité du modèle à être généralisé.

La distribution des variables d’une cible biaisée, dans ce cas, la colonne **Montant de la course**, peut donner lieu à des classes déséquilibrées, le modèle pouvant être biaisé en faveur de la classe majoritaire. Cela peut entraîner de mauvaises performances pour les classes minoritaires, ce qui est particulièrement problématique dans les scénarios où il est important de prédire avec précision les instances rares ou sous-représentées.

## Résolution des problèmes de qualité des données
<a name="canvas-tutorial-addressing-data-quality-issues"></a>

Pour résoudre ces problèmes et préparer le jeu de données pour la modélisation, vous pouvez rechercher les transformations suivantes et les appliquer :

1. Supprimez les doublons à l’aide de la transformation **Gérer les lignes**.

1. **Gérez les valeurs aberrantes** dans la colonne **Montant de la course** en utilisant les **Écarts-types aberrants numériques robustes**.

1. **Gérez les valeurs aberrantes** dans les colonnes **Distance de la course** et **Durée de la course** en utilisant les **Écarts-types aberrants numériques**.

1. Utilisez l’**Encodage catégoriel** pour encoder les colonnes **ID du code tarifaire**, **Type de paiement**, **Indicateur supplémentaire** et **Indicateur de péage** au format Float.

En cas de doute sur la façon d’appliquer une transformation, consultez [Suppression de l’année et de l’heure de la journée](#canvas-tutorial-drop-year-and-hour-of-day).

En résolvant ces problèmes de qualité des données et en appliquant les transformations appropriées, vous pouvez améliorer la pertinence du jeu de données pour la modélisation.

## Vérification de la qualité des données et de l’exactitude du modèle rapide
<a name="canvas-tutorial-verifying-data-quality-and-quick-model-accuracy"></a>

Après avoir appliqué les transformations pour résoudre les problèmes de qualité des données, tels que la suppression des doublons de lignes, nous créons notre rapport final sur la qualité des données et les informations. Ce rapport contribue à vérifier que les transformations appliquées ont résolu les problèmes et que le jeu de données est désormais dans un état approprié pour la modélisation.

Lors de l’examen du rapport final sur la qualité des données et les informations, vous devez vous attendre à ce qu’aucun problème majeur de qualité des données ne soit signalé. Le rapport doit indiquer que :
+ la variable cible n’est plus biaisée ;
+ il n’y a pas de valeurs aberrantes ni de doublons de lignes.

En outre, le rapport doit fournir un score de modèle rapide basé sur un modèle de référence entraîné sur le jeu de données transformé. Ce score sert d’indicateur initial de l’exactitude et des performances potentielles du modèle.

Utilisez la procédure suivante pour créer le rapport d’informations et de qualité des données.

**Pour créer un rapport d’informations et de qualité des données**

1. Choisissez l’icône en regard du nœud **Supprimer des colonnes**.

1. Choisissez **Obtenir des informations sur les données**.

1. Pour **Nom de l’analyse**, spécifiez un nom pour le rapport.

1. Pour **Type de problème**, choisissez **Régression**.

1. Pour **Colonne cible**, choisissez **Montant de la course**.

1. Pour **Taille des données**, choisissez **Jeu de données complet**.

1. Choisissez **Créer**.

## Division des données en jeux de données d’entraînement et de test
<a name="canvas-tutorial-split-data"></a>

Pour entraîner un modèle et évaluer ses performances, nous utilisons la transformation **Fractionner les données** pour diviser les données en jeux de données d’entraînement et de test.

Par défaut, SageMaker Canvas utilise une division aléatoire, mais vous pouvez également utiliser les types de divisions suivants :
+ Ordonné
+ Stratifié
+ Fractionner par clé

Vous pouvez modifier le **pourcentage de fractionnement** ou ajouter des fractionnements.

Pour ce didacticiel, utilisez tous les paramètres par défaut de fractionnement. Vous devez double-cliquer sur le jeu de données pour afficher son nom. Le jeu de données d’entraînement porte le nom **Jeu de données (Entraînement)**.

À côté du nœud **Encodage ordinal**, appliquez la transformation **Fractionner les données**.

## Entraînement d’un modèle
<a name="canvas-tutorial-train-model"></a>

Après avoir fractionné vos données, vous pouvez entraîner un modèle. Ce modèle apprend à partir des motifs présents dans vos données. Vous pouvez l’utiliser pour effectuer des prédictions ou dévoiler des informations.

SageMaker Canvas propose à la fois des versions rapides et des versions standard. Utilisez une génération standard pour entraîner le modèle le plus performant sur vos données.

Avant de commencer à entraîner un modèle, vous devez d'abord exporter le jeu de données d'apprentissage en tant que jeu de données SageMaker Canvas.

**Pour exporter votre jeu de données**

1. À côté du nœud du jeu de données d’entraînement, choisissez l’icône et sélectionnez **Exporter**.

1. Sélectionnez le jeu de **données SageMaker Canvas**.

1. Choisissez **Exporter** pour exporter le jeu de données.

Après avoir créé un jeu de données, vous pouvez entraîner un modèle sur le jeu de données SageMaker Canvas que vous avez créé. Pour plus d’informations sur l’entraînement d’un modèle, consultez [Création d'un modèle de prédiction numérique ou catégorielle personnalisé](canvas-build-model-how-to.md#canvas-build-model-numeric-categorical).

## Évaluation du modèle et réalisation de prédictions
<a name="canvas-tutorial-evaluate-model-and-make-predictions"></a>

Après avoir entraîné votre modèle de machine learning, il est essentiel d’évaluer ses performances pour vous assurer qu’il répond à vos exigences et qu’il fonctionne correctement sur des données inédites. Amazon SageMaker Canvas fournit une interface conviviale permettant d'évaluer la précision de votre modèle, de revoir ses prévisions et de mieux comprendre ses forces et ses faiblesses. Vous pouvez utiliser ces informations pour prendre des décisions éclairées concernant son déploiement et les domaines potentiels d’amélioration.

Utilisez la procédure suivante pour évaluer un modèle avant de le déployer.

**Pour évaluer un modèle**

1. Choisissez **Mes modèles**.

1. Choisissez le modèle que vous avez créé.

1. Sous **Versions**, sélectionnez la version correspondant au modèle.

Vous pouvez maintenant visualiser les métriques d’évaluation des modèles.

Une fois que vous avez évalué le modèle, vous pouvez effectuer des prédictions sur de nouvelles données. Nous utilisons le jeu de données de test que nous avons créé.

Pour utiliser l'ensemble de données de test pour les prédictions, nous devons le convertir en un ensemble de données SageMaker Canvas. Le jeu de données SageMaker Canvas est dans un format que le modèle peut interpréter.

Utilisez la procédure suivante pour créer un jeu de données SageMaker Canvas à partir du jeu de données de test.

**Pour créer un jeu de données SageMaker Canvas**

1. À côté du jeu de données **Jeu de données (Test)**, choisissez la case d’option.

1. Sélectionnez **Exporter**.

1. Sélectionnez le jeu de **données SageMaker Canvas**.

1. Pour **Nom du jeu de données**, spécifiez un nom pour le jeu de données.

1. Cliquez sur **Exporter**.

Utilisez la procédure suivante pour effectuer des prédictions. Cela suppose que vous êtes toujours sur la page **Analyser**.

**Pour effectuer des prédictions sur le jeu de données de test**

1. Choisissez **Prédire**.

1. Choisissez **Manuel**.

1. Sélectionnez le jeu de données que vous avez exporté.

1. Choisissez **Générer des prédictions**.

1. Lorsque SageMaker Canvas a fini de générer des prédictions, sélectionnez l'icône à droite du jeu de données.

1. Choisissez **Aperçu** pour afficher les prédictions.

## Déployer un modèle
<a name="canvas-tutorial-deploy-a-model"></a>

Après avoir évalué votre modèle, vous pouvez le déployer sur un point de terminaison. Vous pouvez envoyer des demandes au point de terminaison pour obtenir des prédictions.

Utilisez la procédure suivante pour déployer un modèle. Cela suppose que vous êtes toujours sur la page **Prédire**.

**Pour déployer un modèle**

1. Choisissez **Déployer**.

1. Choisissez **Créer un déploiement**.

1. Choisissez **Déployer**.

## Nettoyage
<a name="canvas-tutorial-cleaning-up"></a>

Vous avez maintenant terminé ce didacticiel. Pour éviter des frais ultérieurs, supprimez les ressources que vous n’utilisez pas.

Utilisez la procédure suivante pour supprimer le point de terminaison que vous avez créé. Cela suppose que vous êtes toujours sur la page **Déployer**.

**Pour supprimer un point de terminaison**

1. Choisissez la case d’option située à droite de votre déploiement.

1. Sélectionnez **Supprimer le déploiement**.

1. Sélectionnez **Delete (Supprimer)**.

Après avoir supprimé le déploiement, supprimez les ensembles de données que vous avez créés dans SageMaker Canvas. Utilisez la procédure suivante pour supprimer les jeux de données.

**Pour supprimer les jeux de données**

1. Choisissez **Jeux de données** dans le volet de navigation de gauche.

1. Sélectionnez le jeu de données que vous avez analysé et le jeu de données synthétique utilisé pour les prédictions.

1. Sélectionnez **Delete (Supprimer)**.

Pour éviter d'encourir des frais supplémentaires, vous devez vous déconnecter de SageMaker Canvas. Pour de plus amples informations, veuillez consulter [Déconnexion d'Amazon SageMaker Canvas](canvas-log-out.md).