

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Enriquecimiento del conjunto de datos
<a name="dataset-enrichment"></a>

El enriquecimiento de conjuntos de datos es una capacidad de Amazon Quick Sight que permite a los autores de conjuntos de datos añadir metadatos semánticos enriquecidos a sus conjuntos de datos. Al proporcionar descripciones, instrucciones personalizadas y metadatos estructurados, se asegura de que tanto los consumidores como los AI-powered agentes humanos entiendan lo que representa un conjunto de datos y cómo usarlo.

## Descripción general del enriquecimiento del conjunto de datos
<a name="dataset-enrichment-overview"></a>

El enriquecimiento de conjuntos de datos permite a los autores y a los profesionales de los autores anotar los conjuntos de datos con un contexto semántico tanto a nivel de conjunto de datos como a nivel de columna. Estos metadatos conectan los datos sin procesar con el contexto empresarial. Sirve a dos públicos:
+ **Consumidores de conjuntos de datos (otros autores, lectores profesionales)**: obtenga un mejor contexto empresarial sobre el contenido de cada conjunto de datos, su propósito y los casos de uso adecuados.
+ **Agentes de IA**: reciba información contextual más detallada para generar consultas e interpretaciones más precisas al responder a las preguntas mediante las preguntas y respuestas sobre el conjunto de datos.

## Componentes de enriquecimiento del conjunto de datos
<a name="dataset-enrichment-includes"></a>

### Dataset-level enriquecimiento
<a name="dataset-level-enrichment"></a>

**importante**  
No añada información confidencial a los campos **Descripción del conjunto** de datos o **Instrucciones personalizadas**. Esta información es visible para todos los espectadores del conjunto de datos.

**Descripción del conjunto de datos**  
Un resumen a nivel empresarial de lo que representa el conjunto de datos, su alcance y su uso previsto. Esta descripción es visible para todos los consumidores del conjunto de datos en la interfaz de usuario, lo que les ayuda a comprender rápidamente el propósito del conjunto de datos. Longitud máxima: 5000 caracteres.

**Instrucciones personalizadas**  
Free-form instrucciones de texto consumidas específicamente por los agentes de IA. Estas instrucciones guían a la IA sobre cómo interpretar, consultar y razonar sobre el conjunto de datos. Longitud máxima: 5000 caracteres.

**Carga de archivos**  
Puede cargar un único archivo en formato YAML, JSON o TXT que contenga metadatos semánticos de calidad de catálogo exportados desde herramientas de terceros (por ejemplo, Databricks, dbt o Alation). Esto permite incorporar cientos de definiciones de columnas, reglas de negocio y cálculos de métricas en una sola carga, lo que elimina la introducción manual columna por columna. Longitud máxima: 50 000 caracteres.

### Column-level enriquecimiento
<a name="column-level-enrichment"></a>

**Carpetas**  
Organice las columnas en agrupaciones lógicas para facilitar la navegación y la comprensión.

**Descripción de la columna**  
Una descripción legible para los humanos de lo que representa cada columna, sus valores válidos y su significado empresarial. Longitud máxima: 500 caracteres.

**Notas adicionales**  
Contexto complementario para cada columna, como consideraciones sobre la calidad de los datos, tablas relacionadas o patrones de análisis comunes. Longitud máxima: 2000 caracteres.

## Ventajas del enriquecimiento de los conjuntos de datos
<a name="dataset-enrichment-benefits"></a>
+ **Preguntas y respuestas más precisas sobre los AI-powered conjuntos de datos: un** contexto semántico más rico ayuda a los agentes de IA a generar consultas e interpretaciones de SQL más precisas, lo que conduce a respuestas significativamente mejores.
+ **Mejor comprensión para los consumidores**: las descripciones y los metadatos ayudan a todos los usuarios de la organización a comprender qué contienen los conjuntos de datos y cómo usarlos correctamente.
+ **Amplíe los metadatos de catálogos externos**: la carga de archivos permite a los autores incorporar metadatos enriquecidos de herramientas de catálogos de terceros con una sola operación, en lugar de introducir manualmente las definiciones columna por columna.

## Permisos y requisitos
<a name="dataset-enrichment-permissions"></a>

Los autores y los profesionales de la creación con licencias empresariales pueden enriquecer cualquier conjunto de datos que posean o administren.

## Acceder al enriquecimiento de conjuntos de datos
<a name="dataset-enrichment-access"></a>

Para acceder al enriquecimiento del conjunto de datos, complete los siguientes pasos.

1. Guarde el conjunto de datos en la experiencia de preparación de datos.

1. Elija la pestaña **Output (Salida)**.

1. Introduzca la **descripción del conjunto** de datos y **las instrucciones personalizadas**, o cargue un archivo de metadatos semánticos.

## Redactar instrucciones personalizadas eficaces
<a name="dataset-enrichment-custom-instructions"></a>

Las instrucciones personalizadas son el componente más impactante del enriquecimiento de conjuntos de datos. Orientan directamente a los agentes de IA sobre cómo interpretar y consultar un conjunto de datos. Los siguientes son ejemplos de instrucciones personalizadas eficaces e ineficaces.

### Buenas instrucciones personalizadas
<a name="custom-instructions-good-examples"></a>

**Ejemplo 1: conjunto de datos de ingresos**

```
This dataset contains net revenue after returns and discounts, calculated
on an accrual basis. Revenue is recognized at the point of sale for retail
transactions and upon delivery confirmation for B2B orders. All figures are
in USD. The 'revenue' column specifically excludes taxes, shipping fees,
and promotional credits. For year-over-year comparisons, use the
'fiscal_year' field rather than 'calendar_year' as our fiscal year runs
April–March.
```

Por qué es eficaz:
+ Aclara los términos ambiguos (ingresos netos frente a ingresos brutos)
+ Define la metodología de cálculo
+ Especifica la moneda y las exclusiones
+ Proporciona orientación sobre cómo usar campos específicos correctamente

**Ejemplo 2: conjunto de datos de clientes**

```
Customer status definitions: 'Active' = purchased within last 12 months;
'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months
inactive. The 'customer_segment' field uses RFM analysis (Recency,
Frequency, Monetary). 'Lifetime_value' is calculated as total historical
spend, not predictive LTV. When analyzing customer counts, always filter
out 'is_test_account = true' to exclude internal test data.
```

Por qué es eficaz:
+ Define la lógica empresarial y los umbrales
+ Explica las siglas y las metodologías
+ Advierte sobre aspectos relacionados con la calidad de los datos
+ Guía el filtrado adecuado para un análisis preciso

### Instrucciones personalizadas ineficaces
<a name="custom-instructions-bad-example"></a>

**Ejemplo: conjunto de datos de clientes**

```
Contains customer information including names, addresses, purchase history,
and other details. Use this for customer analysis.
```

Por qué no es efectivo:
+ Describe lo que ya es obvio en los nombres de las columnas
+ No proporciona ningún contexto empresarial ni definiciones
+ No ofrece orientación sobre la calidad de los datos, los cálculos o el uso adecuado
+ No ayuda a la IA a distinguir conceptos similares

### Principios clave para escribir buenas instrucciones personalizadas
<a name="custom-instructions-principles"></a>
+ **Aclare las ambigüedades**: defina términos que puedan tener múltiples interpretaciones.
+ **Explique la lógica empresarial**: documente los cálculos, los umbrales y las categorizaciones.
+ **Proporcione contexto**: incluya unidades, períodos de tiempo, divisas y alcance.
+ **Guía de uso**: explique qué campos usar para análisis específicos.
+ **Advierta sobre casos extremos**: anote los problemas de calidad de los datos, los registros de pruebas o los casos especiales.
+ **Sea específico**: utilice ejemplos concretos y un lenguaje preciso.

## Dos enfoques para el enriquecimiento semántico
<a name="dataset-enrichment-approaches"></a>

### Anotación manual UI-based
<a name="enrichment-manual-annotation"></a>

Los autores de conjuntos de datos añaden directamente descripciones de conjuntos de datos y columnas e instrucciones personalizadas a través de la interfaz Quick Sight. Quick Sight muestra las descripciones de forma destacada en la interfaz de usuario, lo que ayuda a todos los usuarios a entender el contenido del conjunto de datos, las definiciones de las columnas y los casos de uso adecuados.

### Carga de archivos desde catálogos externos
<a name="enrichment-file-upload"></a>

Los autores de conjuntos de datos pueden exportar metadatos semánticos de catálogos externos y adjuntar un archivo por conjunto de datos en formato YAML, JSON o TXT a través de la API o la interfaz de usuario. Si bien los modelos de IA utilizan esta información en lugar de mostrarla en la interfaz de usuario, permite obtener metadatos a nivel de catálogo a escala.

## La capa de consumo: preguntas y respuestas sobre el conjunto de datos
<a name="dataset-enrichment-qna"></a>

Las preguntas y respuestas sobre el conjunto de datos son la capa de consumo que utiliza los metadatos del enriquecimiento del conjunto de datos. Permite a los usuarios formular preguntas abiertas en lenguaje natural directamente sobre los conjuntos de datos a los que tienen acceso, sin necesidad de paneles prediseñados ni temas configurados manualmente.

El agente de IA utiliza el contexto enriquecido de las siguientes maneras:
+ **Descubrimiento de activos**: el agente utiliza descripciones de conjuntos de datos y metadatos semánticos para identificar el conjunto de datos correcto para la pregunta del usuario.
+ **Text-to-SQL generación**: las instrucciones personalizadas, las descripciones de las columnas y los metadatos cargados guían a la IA a la hora de generar consultas SQL más precisas.
+ **Respuestas gobernadas**: todas las respuestas respetan las reglas de Row-Level seguridad (RLS) y Column-Level seguridad (CLS).

Sin el enriquecimiento, el agente de IA solo tiene nombres de columnas y tipos de datos con los que trabajar, que suelen ser ambiguos. Con el enriquecimiento, el agente recibe todo el contexto empresarial necesario para:
+ Desambiguar campos y conceptos similares
+ Aplique los cálculos y filtros correctos
+ Comprenda los umbrales y las categorizaciones específicos de la empresa
+ Excluya los datos de las pruebas y gestione los casos extremos de forma adecuada

Tras añadir el contexto semántico a un conjunto de datos, los usuarios pueden hacer referencia al conjunto de datos en las preguntas y respuestas y consultarlo a través del chat. El agente de IA consume los metadatos añadidos para ofrecer respuestas más precisas.

## Resumen
<a name="dataset-enrichment-summary"></a>

El enriquecimiento de conjuntos de datos agrega metadatos semánticos a los conjuntos de datos para su análisis. AI-powered Al invertir unos minutos en añadir descripciones, instrucciones personalizadas y archivos de metadatos, los autores de los conjuntos de datos pueden mejorar la precisión de las preguntas y AI-powered respuestas y, al mismo tiempo, hacer que sus conjuntos de datos sean más comprensibles y accesibles para todos los consumidores de la organización.