Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration de la détection des anomalies dans les jobs AWS Glue ETL
Pour commencer à détecter les anomalies dans AWS Glue Studio, ouvrez une tâche AWS Glue Studio et cliquez sur Evaluate Data Quality Transform.
En activant cette fonctionnalité, AWS Glue Data Quality analysera vos données au fil du temps afin de détecter les anomalies. Elle fournit des statistiques et des observations précieuses sur vos données, vous permettant de prendre des mesures en cas d’anomalie identifiée.
Consultez la documentation sur la détection des anomalies pour comprendre le fonctionnement interne de cette fonctionnalité.
Activation de la détection des anomalies
Pour activer la détection d’anomalies dans AWS Glue Studio :
-
Choisissez le nœud Qualité des données dans votre tâche, puis cliquez sur l’onglet Détection des anomalies. Activez l’option Activer la détection des anomalies.
-
Définissez les données à surveiller pour détecter les anomalies en choisissant Ajouter un analyseur. Vous pouvez remplir deux champs : statistiques et données.
-
Les statistiques sont des informations sur la forme et les autres propriétés de vos données. Vous pouvez sélectionner une ou plusieurs statistiques à la fois ou sélectionner Toutes les statistiques. Les statistiques incluent : l'exhaustivité, l'unicité, la moyenne, la somme StandardDeviation, l'entropie DistinctValuesCount, UniqueValueRatio etc. Pour plus de détails, consultez la documentation sur les analyseurs.
-
Les données sont les colonnes de votre jeu de données. Vous pouvez choisir toutes les colonnes ou des colonnes individuelles.
-
-
Choisissez Ajouter une zone de détection d’anomalies pour enregistrer vos modifications. Lorsque vous avez créé des analyseurs, vous pouvez les consulter dans la section Portée de la détection d’anomalies.
Vous pouvez également utiliser le menu Actions pour modifier vos analyseurs, ou choisir l’onglet Éditeur de jeu de règles et modifier l’analyseur directement dans le bloc-notes de l’éditeur de jeu de règles. Vous verrez les analyseurs que vous avez enregistrés juste en dessous de toutes les règles que vous avez créées.
Rules = [ ] Analyzers = [ Completeness “id” ]
Une fois l'ensemble de règles et les analyseurs mis à jour configurés, AWS Glue Data Quality surveille en permanence les flux de données entrants. Le service peut signaler des anomalies potentielles par le biais d’alertes ou d’arrêts de tâches, en fonction de vos paramètres. Cette surveillance proactive permet de garantir la qualité et l’intégrité des données dans l’ensemble de vos pipelines de données.
Dans la section suivante, vous apprendrez comment surveiller efficacement les anomalies identifiées par le système. Vous apprendrez également à consulter et à analyser les statistiques de données recueillies par AWS Glue Data Quality. En outre, vous apprendrez à fournir des commentaires au modèle de machine learning qui alimente la fonctionnalité de détection des anomalies. Cette boucle de rétroaction est essentielle pour améliorer la précision du modèle et garantir qu’il peut détecter efficacement les anomalies conformes aux exigences spécifiques de votre entreprise et à vos modèles de données.