View a markdown version of this page

Enrichissement des jeux - Amazon Quick

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Enrichissement des jeux

L'enrichissement des ensembles de données est une fonctionnalité d'Amazon Quick Sight qui permet aux auteurs d'ensembles de données d'ajouter des métadonnées sémantiques riches à leurs ensembles de données. En fournissant des descriptions, des instructions personnalisées et des métadonnées structurées, vous vous assurez que les consommateurs et les AI-powered agents comprennent ce que représente un ensemble de données et comment l'utiliser.

Présentation de l'enrichissement des jeux de

L'enrichissement des ensembles de données permet aux auteurs et aux professionnels de l'édition d'annoter des ensembles de données avec un contexte sémantique à la fois au niveau du jeu de données et au niveau des colonnes. Ces métadonnées relient les données brutes au contexte commercial. Il s'adresse à deux publics :

  • Consommateurs de jeux de données (autres auteurs, professionnels de la lecture) : bénéficiez d'un meilleur contexte commercial concernant le contenu de chaque ensemble de données, son objectif et les cas d'utilisation appropriés.

  • Agents IA — Recevez des informations contextuelles plus riches pour générer des requêtes et des interprétations plus précises lorsque vous répondez à des questions grâce aux questions-réponses sur les ensembles de données.

Composants d'enrichissement des jeux de données

Dataset-level enrichissement

Important

N'ajoutez pas d'informations sensibles dans les champs Description du jeu de données ou Instructions personnalisées. Ces informations sont visibles par tous les utilisateurs de jeux de données.

Description du jeu de données

Un résumé au niveau de l'entreprise de ce que représente l'ensemble de données, de sa portée et de son utilisation prévue. Cette description est visible par tous les utilisateurs de jeux de données dans l'interface utilisateur, ce qui les aide à comprendre rapidement l'objectif de l'ensemble de données. Longueur maximale : 5 000 caractères.

Instructions personnalisées

Free-form instructions textuelles spécifiquement consommées par les agents de l'IA. Ces instructions guident l'IA sur la façon d'interpréter, d'interroger et de raisonner à propos de l'ensemble de données. Longueur maximale : 5 000 caractères.

Téléchargement de fichiers

Vous pouvez télécharger un seul fichier au format YAML, JSON ou TXT contenant des métadonnées sémantiques de qualité catalogue exportées depuis des outils tiers (par exemple, Databricks, dbt ou Alation). Cela permet d'intégrer des centaines de définitions de colonnes, de règles métier et de calculs de mesures en un seul téléchargement, éliminant ainsi la saisie manuelle colonne par colonne. Longueur maximale : 50 000 caractères.

Column-level enrichissement

Dossiers

Organisez les colonnes en groupes logiques pour faciliter la navigation et la compréhension.

Description de la colonne

Une description lisible par l'homme de ce que représente chaque colonne, de ses valeurs valides et de sa signification commerciale. Longueur maximale : 500 caractères.

Remarques supplémentaires

Contexte supplémentaire pour chaque colonne, tel que les considérations relatives à la qualité des données, les tableaux connexes ou les modèles d'analyse courants. Longueur maximale : 2 000 caractères.

Avantages de l'enrichissement des ensembles de données

  • Questions et réponses plus précises sur les ensembles de AI-powered données — Un contexte sémantique plus riche aide les agents d'intelligence artificielle à générer des requêtes et des interprétations SQL plus précises, ce qui permet d'obtenir des réponses nettement meilleures.

  • Meilleure compréhension pour les consommateurs — Les descriptions et les métadonnées aident tous les utilisateurs de l'entreprise à comprendre ce que contiennent les ensembles de données et comment les utiliser correctement.

  • Redimensionner les métadonnées à partir de catalogues externes : le téléchargement de fichiers permet aux auteurs d'intégrer des métadonnées riches provenant d'outils de catalogue tiers en une seule opération, plutôt que de saisir manuellement les définitions colonne par colonne.

Autorisations et exigences

Les auteurs et les professionnels de l'auteur disposant de licences Enterprise peuvent enrichir tous les jeux de données qu'ils possèdent ou gèrent.

Accès à l'enrichissement des jeux de

Pour accéder à Dataset Enrichment, procédez comme suit.

  1. Enregistrez votre ensemble de données dans l'expérience de préparation des données.

  2. Choisissez l'onglet Output.

  3. Entrez la description du jeu de données et les instructions personnalisées, ou téléchargez un fichier de métadonnées sémantiques.

Rédaction d'instructions personnalisées efficaces

Les instructions personnalisées sont l'élément le plus important de l'enrichissement des ensembles de données. Ils guident directement les agents d'IA sur la façon d'interpréter et d'interroger un ensemble de données. Vous trouverez ci-dessous des exemples d'instructions personnalisées efficaces et inefficaces.

Bonnes instructions personnalisées

Exemple 1 — Ensemble de données sur les recettes

This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.

Pourquoi c'est efficace :

  • Clarifie les termes ambigus (recettes nettes par rapport aux recettes brutes)

  • Définit la méthodologie de calcul

  • Spécifie la devise et les exclusions

  • Fournit des conseils sur la manière d'utiliser correctement des champs spécifiques

Exemple 2 — Ensemble de données clients

Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.

Pourquoi c'est efficace :

  • Définit la logique métier et les seuils

  • Explique les acronymes et les méthodologies

  • Met en garde contre les problèmes de qualité des données

  • Guide un filtrage approprié pour une analyse précise

Instructions personnalisées inefficaces

Exemple — Ensemble de données clients

Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.

Pourquoi c'est inefficace :

  • Décrit ce qui ressort déjà clairement des noms de colonnes

  • Ne fournit aucun contexte commercial ni aucune définition

  • N'offre aucune indication sur la qualité des données, les calculs ou l'utilisation appropriée

  • N'aide pas l'IA à distinguer des concepts similaires

Principes clés pour rédiger de bonnes instructions personnalisées

  • Clarifier les ambiguïtés — Définissez les termes qui peuvent être interprétés de multiples façons.

  • Expliquer la logique métier — Documenter les calculs, les seuils et les catégorisations.

  • Fournissez le contexte : incluez les unités, les périodes, les devises et le champ d'application.

  • Utilisation du guide — Expliquez les champs à utiliser pour des analyses spécifiques.

  • Avertir des cas extrêmes : notez les problèmes de qualité des données, les enregistrements de tests ou les cas particuliers.

  • Soyez précis — Utilisez des exemples concrets et un langage précis.

Deux approches de l'enrichissement sémantique

UI-based Annotation manuelle

Les auteurs de jeux de données ajoutent directement des descriptions de jeux de données et de colonnes ainsi que des instructions personnalisées via l'interface Quick Sight. Quick Sight affiche les descriptions en évidence dans l'interface utilisateur, aidant ainsi tous les utilisateurs à comprendre le contenu des ensembles de données, les définitions des colonnes et les cas d'utilisation appropriés.

Téléchargement de fichiers depuis des catalogues externes

Les auteurs de jeux de données peuvent exporter des métadonnées sémantiques à partir de catalogues externes et joindre un fichier par jeu de données au format YAML, JSON ou TXT via l'API ou l'interface utilisateur. Bien que ces informations soient utilisées par les modèles d'IA plutôt que affichées dans l'interface utilisateur, elles permettent d'obtenir des métadonnées de niveau catalogue à grande échelle.

La couche de consommation : questions-réponses sur les ensembles de données

Les questions-réponses sur les ensembles de données sont la couche de consommation qui utilise les métadonnées d'enrichissement des ensembles de données. Il permet aux utilisateurs de poser des questions ouvertes en langage naturel directement sur les ensembles de données auxquels ils ont accès, sans avoir besoin de tableaux de bord prédéfinis ou de rubriques configurées manuellement.

L'agent AI utilise le contexte enrichi de la manière suivante :

  • Découverte des actifs : l'agent utilise les descriptions des ensembles de données et les métadonnées sémantiques pour identifier le jeu de données adapté à la question de l'utilisateur.

  • Text-to-SQL génération — Des instructions personnalisées, des descriptions de colonnes et des métadonnées téléchargées aident l'IA à générer des requêtes SQL plus précises.

  • Réponses gouvernées : toutes les réponses respectent les Row-Level règles de sécurité (RLS) et Column-Level de sécurité (CLS).

Sans enrichissement, l'agent d'intelligence artificielle ne peut travailler que sur les noms de colonnes et les types de données, qui sont souvent ambigus. Grâce à l'enrichissement, l'agent reçoit le contexte commercial complet nécessaire pour :

  • Désambiguïser des domaines et des concepts similaires

  • Appliquez les bons calculs et filtres

  • Comprendre les seuils et les catégorisations spécifiques à l'entreprise

  • Exclure les données de test et traiter les cas extrêmes de manière appropriée

Après avoir ajouté un contexte sémantique à un ensemble de données, les utilisateurs peuvent le référencer dans les questions-réponses et l'interroger via le chat. L'agent d'intelligence artificielle utilise les métadonnées ajoutées pour fournir des réponses plus précises.

Résumé

L'enrichissement des ensembles de données ajoute des métadonnées sémantiques aux ensembles de données à des fins AI-powered d'analyse. En investissant quelques minutes dans l'ajout de descriptions, d'instructions personnalisées et de fichiers de métadonnées, les auteurs de jeux de données peuvent améliorer la précision des AI-powered questions-réponses tout en rendant leurs ensembles de données plus compréhensibles et accessibles à tous les consommateurs de l'entreprise.