Visão geral do Componentes Benefícios Permissões Acessando o enriquecimento do conjunto de dados Escrevendo instruções personalizadas eficazes Duas abordagens para o enriquecimento semântico Perguntas e respostas sobre o conjunto de dados Resumo

Enriquecimento do conjunto de dados

O enriquecimento de conjuntos de dados é um recurso do Amazon Quick Sight que permite que autores de conjuntos de dados adicionem metadados semânticos ricos a seus conjuntos de dados. Ao fornecer descrições, instruções personalizadas e metadados estruturados, você garante que tanto os consumidores quanto os AI-powered agentes humanos entendam o que um conjunto de dados representa e como usá-lo.

Visão geral do enriquecimento do conjunto de dados

O enriquecimento do conjunto de dados permite que autores e profissionais façam anotações em conjuntos de dados com contexto semântico, tanto no nível do conjunto de dados quanto no nível da coluna. Esses metadados conectam dados brutos ao contexto comercial. Ele atende a dois públicos:

Consumidores de conjuntos de dados (outros autores, leitores profissionais) — Obtenha um melhor contexto comercial sobre o que cada conjunto de dados contém, sua finalidade e casos de uso apropriados.
Agentes de IA — Receba informações contextuais mais ricas para gerar consultas e interpretações mais precisas ao responder perguntas por meio de perguntas e respostas do conjunto de dados.

Componentes de enriquecimento do conjunto de dados

Dataset-level enriquecimento

Importante

Não adicione informações confidenciais aos campos Descrição do conjunto de dados ou Instruções personalizadas. Essas informações são visíveis para todos os visualizadores do conjunto de dados.

Descrição do conjunto de dados: Um resumo em nível comercial do que o conjunto de dados representa, seu escopo e uso pretendido. Essa descrição é visível para todos os consumidores do conjunto de dados na interface do usuário, ajudando-os a entender rapidamente a finalidade do conjunto de dados. Tamanho máximo: 5.000 caracteres.
Instruções personalizadas: Free-form instruções de texto consumidas especificamente por agentes de IA. Essas instruções orientam a IA sobre como interpretar, consultar e raciocinar sobre o conjunto de dados. Tamanho máximo: 5.000 caracteres.
Upload de arquivo: Você pode fazer upload de um único arquivo no formato YAML, JSON ou TXT contendo metadados semânticos de nível de catálogo exportados de ferramentas de terceiros (por exemplo, Databricks, dbt ou Alation). Isso permite que centenas de definições de colunas, regras de negócios e cálculos de métricas sejam inseridas em um único upload, eliminando a entrada manual coluna por coluna. Tamanho máximo: 50.000 caracteres.

Column-level enriquecimento

Pastas: Organize as colunas em agrupamentos lógicos para facilitar a navegação e a compreensão.
Descrição da coluna: Uma descrição legível por humanos do que cada coluna representa, seus valores válidos e o significado comercial. Tamanho máximo: 500 caracteres.
Notas adicionais: Contexto suplementar para cada coluna, como considerações sobre qualidade de dados, tabelas relacionadas ou padrões de análise comuns. Tamanho máximo: 2.000 caracteres.

Benefícios do enriquecimento do conjunto de dados

Perguntas e respostas mais precisas sobre AI-powered conjuntos de dados — Um contexto semântico mais rico ajuda os agentes de IA a gerar consultas e interpretações SQL mais precisas, levando a respostas significativamente melhores.
Melhor compreensão para os consumidores — As descrições e os metadados ajudam todos os usuários da organização a entender o que os conjuntos de dados contêm e como usá-los corretamente.
Dimensione metadados de catálogos externos — O upload de arquivos permite que os autores tragam metadados ricos de ferramentas de catálogos de terceiros em uma única operação, em vez de inserir manualmente as definições coluna por coluna.

Permissões e requisitos

Autores e autores profissionais com licenças corporativas podem enriquecer qualquer conjunto de dados que possuam ou gerenciem.

Acessando o enriquecimento do conjunto de dados

Para acessar o enriquecimento do conjunto de dados, conclua as etapas a seguir.

Salve seu conjunto de dados na experiência de preparação de dados.
Escolha a guia Output.
Insira a descrição do conjunto de dados e as instruções personalizadas ou faça o upload de um arquivo de metadados semânticos.

Escrevendo instruções personalizadas eficazes

As instruções personalizadas são o componente mais impactante do enriquecimento do conjunto de dados. Eles orientam diretamente os agentes de IA sobre como interpretar e consultar um conjunto de dados. Veja a seguir exemplos de instruções personalizadas eficazes e ineficazes.

Boas instruções personalizadas

Exemplo 1 — Conjunto de dados de receita


This dataset contains net revenue after returns and discounts, calculated
on an accrual basis. Revenue is recognized at the point of sale for retail
transactions and upon delivery confirmation for B2B orders. All figures are
in USD. The 'revenue' column specifically excludes taxes, shipping fees,
and promotional credits. For year-over-year comparisons, use the
'fiscal_year' field rather than 'calendar_year' as our fiscal year runs
April–March.

Por que é eficaz:

Esclarece termos ambíguos (receita líquida versus receita bruta)
Define a metodologia de cálculo
Especifica a moeda e as exclusões
Fornece orientação sobre como usar campos específicos corretamente

Exemplo 2 — Conjunto de dados do cliente


Customer status definitions: 'Active' = purchased within last 12 months;
'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months
inactive. The 'customer_segment' field uses RFM analysis (Recency,
Frequency, Monetary). 'Lifetime_value' is calculated as total historical
spend, not predictive LTV. When analyzing customer counts, always filter
out 'is_test_account = true' to exclude internal test data.

Por que é eficaz:

Define a lógica e os limites de negócios
Explica siglas e metodologias
Adverte sobre considerações sobre qualidade de dados
Orienta a filtragem adequada para uma análise precisa

Instruções personalizadas ineficazes

Exemplo — Conjunto de dados do cliente


Contains customer information including names, addresses, purchase history,
and other details. Use this for customer analysis.

Por que é ineficaz:

Descreve o que já é óbvio nos nomes das colunas
Não fornece contexto ou definições de negócios
Não oferece orientação sobre qualidade de dados, cálculos ou uso adequado
Não ajuda a IA a distinguir entre conceitos semelhantes

Princípios fundamentais para escrever boas instruções personalizadas

Esclareça ambigüidades — defina termos que possam ter várias interpretações.
Explique a lógica de negócios — documente cálculos, limites e categorizações.
Forneça contexto — inclua unidades, períodos de tempo, moedas e escopo.
Uso do guia — Explique quais campos usar para análises específicas.
Avise sobre casos extremos — observe problemas de qualidade de dados, registros de testes ou casos especiais.
Seja específico — use exemplos concretos e linguagem precisa.

Duas abordagens para o enriquecimento semântico

Anotação manual UI-based

Os autores do conjunto de dados adicionam diretamente descrições de conjuntos de dados e colunas e instruções personalizadas por meio da interface do Quick Sight. O Quick Sight exibe descrições com destaque na interface do usuário, ajudando todos os usuários a entender o conteúdo do conjunto de dados, as definições das colunas e os casos de uso apropriados.

Upload de arquivos de catálogos externos

Os autores do conjunto de dados podem exportar metadados semânticos de catálogos externos e anexar um arquivo por conjunto de dados no formato YAML, JSON ou TXT por meio da API ou da interface do usuário. Embora essas informações sejam usadas por modelos de IA em vez de exibidas na interface do usuário, elas permitem metadados de nível de catálogo em grande escala.

A camada de consumo: perguntas e respostas sobre o conjunto de dados

As perguntas e respostas do conjunto de dados são a camada de consumo que usa metadados de enriquecimento do conjunto de dados. Ele permite que os usuários façam perguntas abertas em linguagem natural diretamente nos conjuntos de dados aos quais têm acesso, sem precisar de painéis pré-criados ou tópicos configurados manualmente.

O agente de IA usa contexto enriquecido das seguintes maneiras:

Descoberta de ativos — o agente usa descrições do conjunto de dados e metadados semânticos para identificar o conjunto de dados certo para a pergunta do usuário.
Text-to-SQL geração — Instruções personalizadas, descrições de colunas e metadados enviados orientam a IA na geração de consultas SQL mais precisas.
Respostas controladas — Todas as respostas respeitam as Row-Level regras de Segurança (RLS) e Column-Level Segurança (CLS).

Sem enriquecimento, o agente de IA só tem nomes de colunas e tipos de dados com os quais trabalhar, que geralmente são ambíguos. Com o enriquecimento, o agente recebe todo o contexto comercial necessário para:

Elimine a ambiguidade de campos e conceitos semelhantes
Aplique cálculos e filtros corretos
Entenda os limites e categorizações específicos da empresa
Exclua dados de teste e trate casos extremos de forma adequada

Depois de adicionar contexto semântico a um conjunto de dados, os usuários podem referenciar o conjunto de dados em perguntas e respostas e consultá-lo por meio do chat. O agente de IA consome os metadados adicionados para fornecer respostas mais precisas.

Resumo

O enriquecimento do conjunto de dados adiciona metadados semânticos aos conjuntos de dados para análise. AI-powered Ao investir alguns minutos na adição de descrições, instruções personalizadas e arquivos de metadados, os autores de conjuntos de dados podem melhorar a precisão das perguntas e AI-powered respostas e, ao mesmo tempo, tornar seus conjuntos de dados mais compreensíveis e acessíveis a todos os consumidores em toda a organização.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Perguntas frequentes

Descrever dados