As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Enriquecimento do conjunto de dados
O enriquecimento de conjuntos de dados é um recurso do Amazon Quick Sight que permite que autores de conjuntos de dados adicionem metadados semânticos ricos a seus conjuntos de dados. Ao fornecer descrições, instruções personalizadas e metadados estruturados, você garante que tanto os consumidores quanto os AI-powered agentes humanos entendam o que um conjunto de dados representa e como usá-lo.
Visão geral do enriquecimento do conjunto de dados
O enriquecimento do conjunto de dados permite que autores e profissionais façam anotações em conjuntos de dados com contexto semântico, tanto no nível do conjunto de dados quanto no nível da coluna. Esses metadados conectam dados brutos ao contexto comercial. Ele atende a dois públicos:
-
Consumidores de conjuntos de dados (outros autores, leitores profissionais) — Obtenha um melhor contexto comercial sobre o que cada conjunto de dados contém, sua finalidade e casos de uso apropriados.
-
Agentes de IA — Receba informações contextuais mais ricas para gerar consultas e interpretações mais precisas ao responder perguntas por meio de perguntas e respostas do conjunto de dados.
Componentes de enriquecimento do conjunto de dados
Dataset-level enriquecimento
Importante
Não adicione informações confidenciais aos campos Descrição do conjunto de dados ou Instruções personalizadas. Essas informações são visíveis para todos os visualizadores do conjunto de dados.
- Descrição do conjunto de dados
-
Um resumo em nível comercial do que o conjunto de dados representa, seu escopo e uso pretendido. Essa descrição é visível para todos os consumidores do conjunto de dados na interface do usuário, ajudando-os a entender rapidamente a finalidade do conjunto de dados. Tamanho máximo: 5.000 caracteres.
- Instruções personalizadas
-
Free-form instruções de texto consumidas especificamente por agentes de IA. Essas instruções orientam a IA sobre como interpretar, consultar e raciocinar sobre o conjunto de dados. Tamanho máximo: 5.000 caracteres.
- Upload de arquivo
-
Você pode fazer upload de um único arquivo no formato YAML, JSON ou TXT contendo metadados semânticos de nível de catálogo exportados de ferramentas de terceiros (por exemplo, Databricks, dbt ou Alation). Isso permite que centenas de definições de colunas, regras de negócios e cálculos de métricas sejam inseridas em um único upload, eliminando a entrada manual coluna por coluna. Tamanho máximo: 50.000 caracteres.
Column-level enriquecimento
- Pastas
-
Organize as colunas em agrupamentos lógicos para facilitar a navegação e a compreensão.
- Descrição da coluna
-
Uma descrição legível por humanos do que cada coluna representa, seus valores válidos e o significado comercial. Tamanho máximo: 500 caracteres.
- Notas adicionais
-
Contexto suplementar para cada coluna, como considerações sobre qualidade de dados, tabelas relacionadas ou padrões de análise comuns. Tamanho máximo: 2.000 caracteres.
Benefícios do enriquecimento do conjunto de dados
-
Perguntas e respostas mais precisas sobre AI-powered conjuntos de dados — Um contexto semântico mais rico ajuda os agentes de IA a gerar consultas e interpretações SQL mais precisas, levando a respostas significativamente melhores.
-
Melhor compreensão para os consumidores — As descrições e os metadados ajudam todos os usuários da organização a entender o que os conjuntos de dados contêm e como usá-los corretamente.
-
Dimensione metadados de catálogos externos — O upload de arquivos permite que os autores tragam metadados ricos de ferramentas de catálogos de terceiros em uma única operação, em vez de inserir manualmente as definições coluna por coluna.
Permissões e requisitos
Autores e autores profissionais com licenças corporativas podem enriquecer qualquer conjunto de dados que possuam ou gerenciem.
Acessando o enriquecimento do conjunto de dados
Para acessar o enriquecimento do conjunto de dados, conclua as etapas a seguir.
-
Salve seu conjunto de dados na experiência de preparação de dados.
-
Escolha a guia Output.
-
Insira a descrição do conjunto de dados e as instruções personalizadas ou faça o upload de um arquivo de metadados semânticos.
Escrevendo instruções personalizadas eficazes
As instruções personalizadas são o componente mais impactante do enriquecimento do conjunto de dados. Eles orientam diretamente os agentes de IA sobre como interpretar e consultar um conjunto de dados. Veja a seguir exemplos de instruções personalizadas eficazes e ineficazes.
Boas instruções personalizadas
Exemplo 1 — Conjunto de dados de receita
This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.
Por que é eficaz:
-
Esclarece termos ambíguos (receita líquida versus receita bruta)
-
Define a metodologia de cálculo
-
Especifica a moeda e as exclusões
-
Fornece orientação sobre como usar campos específicos corretamente
Exemplo 2 — Conjunto de dados do cliente
Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.
Por que é eficaz:
-
Define a lógica e os limites de negócios
-
Explica siglas e metodologias
-
Adverte sobre considerações sobre qualidade de dados
-
Orienta a filtragem adequada para uma análise precisa
Instruções personalizadas ineficazes
Exemplo — Conjunto de dados do cliente
Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.
Por que é ineficaz:
-
Descreve o que já é óbvio nos nomes das colunas
-
Não fornece contexto ou definições de negócios
-
Não oferece orientação sobre qualidade de dados, cálculos ou uso adequado
-
Não ajuda a IA a distinguir entre conceitos semelhantes
Princípios fundamentais para escrever boas instruções personalizadas
-
Esclareça ambigüidades — defina termos que possam ter várias interpretações.
-
Explique a lógica de negócios — documente cálculos, limites e categorizações.
-
Forneça contexto — inclua unidades, períodos de tempo, moedas e escopo.
-
Uso do guia — Explique quais campos usar para análises específicas.
-
Avise sobre casos extremos — observe problemas de qualidade de dados, registros de testes ou casos especiais.
-
Seja específico — use exemplos concretos e linguagem precisa.
Duas abordagens para o enriquecimento semântico
Anotação manual UI-based
Os autores do conjunto de dados adicionam diretamente descrições de conjuntos de dados e colunas e instruções personalizadas por meio da interface do Quick Sight. O Quick Sight exibe descrições com destaque na interface do usuário, ajudando todos os usuários a entender o conteúdo do conjunto de dados, as definições das colunas e os casos de uso apropriados.
Upload de arquivos de catálogos externos
Os autores do conjunto de dados podem exportar metadados semânticos de catálogos externos e anexar um arquivo por conjunto de dados no formato YAML, JSON ou TXT por meio da API ou da interface do usuário. Embora essas informações sejam usadas por modelos de IA em vez de exibidas na interface do usuário, elas permitem metadados de nível de catálogo em grande escala.
A camada de consumo: perguntas e respostas sobre o conjunto de dados
As perguntas e respostas do conjunto de dados são a camada de consumo que usa metadados de enriquecimento do conjunto de dados. Ele permite que os usuários façam perguntas abertas em linguagem natural diretamente nos conjuntos de dados aos quais têm acesso, sem precisar de painéis pré-criados ou tópicos configurados manualmente.
O agente de IA usa contexto enriquecido das seguintes maneiras:
-
Descoberta de ativos — o agente usa descrições do conjunto de dados e metadados semânticos para identificar o conjunto de dados certo para a pergunta do usuário.
-
Text-to-SQL geração — Instruções personalizadas, descrições de colunas e metadados enviados orientam a IA na geração de consultas SQL mais precisas.
-
Respostas controladas — Todas as respostas respeitam as Row-Level regras de Segurança (RLS) e Column-Level Segurança (CLS).
Sem enriquecimento, o agente de IA só tem nomes de colunas e tipos de dados com os quais trabalhar, que geralmente são ambíguos. Com o enriquecimento, o agente recebe todo o contexto comercial necessário para:
-
Elimine a ambiguidade de campos e conceitos semelhantes
-
Aplique cálculos e filtros corretos
-
Entenda os limites e categorizações específicos da empresa
-
Exclua dados de teste e trate casos extremos de forma adequada
Depois de adicionar contexto semântico a um conjunto de dados, os usuários podem referenciar o conjunto de dados em perguntas e respostas e consultá-lo por meio do chat. O agente de IA consome os metadados adicionados para fornecer respostas mais precisas.
Resumo
O enriquecimento do conjunto de dados adiciona metadados semânticos aos conjuntos de dados para análise. AI-powered Ao investir alguns minutos na adição de descrições, instruções personalizadas e arquivos de metadados, os autores de conjuntos de dados podem melhorar a precisão das perguntas e AI-powered respostas e, ao mesmo tempo, tornar seus conjuntos de dados mais compreensíveis e acessíveis a todos os consumidores em toda a organização.