Ikhtisar Komponen-komponen Manfaat Izin Mengakses Pengayaan Dataset Menulis instruksi kustom yang efektif Dua pendekatan untuk pengayaan semantik Tanya Jawab Dataset Ringkasan

Pengayaan Dataset

Dataset Enrichment adalah kemampuan di Amazon Quick Sight yang memungkinkan pembuat kumpulan data untuk menambahkan metadata semantik yang kaya ke kumpulan data mereka. Dengan memberikan deskripsi, instruksi khusus, dan metadata terstruktur, Anda memastikan bahwa konsumen dan AI-powered agen manusia memahami apa yang diwakili oleh kumpulan data dan bagaimana menggunakannya.

Ikhtisar Pengayaan Dataset

Dataset Enrichment memungkinkan penulis dan penulis profesional untuk membubuhi keterangan kumpulan data dengan konteks semantik di tingkat dataset dan tingkat kolom. Metadata ini menghubungkan data mentah dengan konteks bisnis. Ini melayani dua audiens:

Konsumen Dataset (Penulis lain, Pro Pembaca) - Dapatkan konteks bisnis yang lebih baik tentang isi setiap kumpulan data, tujuannya, dan kasus penggunaan yang sesuai.
Agen AI — Menerima informasi kontekstual yang lebih kaya untuk menghasilkan kueri dan interpretasi yang lebih akurat saat menjawab pertanyaan melalui Tanya Jawab Dataset.

Komponen Dataset Enrichment

Dataset-level pengayaan

penting

Jangan menambahkan informasi sensitif ke kolom Deskripsi Set Data atau Petunjuk Kustom. Informasi ini dapat dilihat oleh semua pemirsa kumpulan data.

Deskripsi Dataset: Ringkasan tingkat bisnis tentang apa yang diwakili oleh kumpulan data, ruang lingkupnya, dan tujuan penggunaannya. Deskripsi ini dapat dilihat oleh semua konsumen kumpulan data di UI, membantu mereka memahami tujuan kumpulan data dengan cepat. Panjang maksimum: 5.000 karakter.
Instruksi Kustom: Free-form instruksi teks yang secara khusus dikonsumsi oleh agen AI. Instruksi ini memandu AI tentang cara menafsirkan, menanyakan, dan alasan tentang kumpulan data. Panjang maksimum: 5.000 karakter.
Unggah File: Anda dapat mengunggah satu file dalam format YAMG, JSON, atau TXT yang berisi metadata semantik kelas katalog yang diekspor dari alat pihak ketiga (misalnya, Databricks, dbt, atau Alation). Hal ini memungkinkan ratusan definisi kolom, aturan bisnis, dan perhitungan metrik untuk dicerna dalam satu unggahan — menghilangkan entri kolom demi kolom manual. Panjang maksimum: 50.000 karakter.

Column-level pengayaan

Folder: Atur kolom ke dalam pengelompokan logis untuk navigasi dan pemahaman yang lebih mudah.
Deskripsi Kolom: Deskripsi yang dapat dibaca manusia tentang apa yang diwakili oleh setiap kolom, nilai-nilai validnya, dan makna bisnis. Panjang maksimum: 500 karakter.
Catatan Tambahan: Konteks tambahan untuk setiap kolom, seperti pertimbangan kualitas data, tabel terkait, atau pola analisis umum. Panjang maksimum: 2.000 karakter.

Manfaat Pengayaan Dataset

Tanya Jawab AI-powered Set Data yang lebih akurat — Konteks semantik yang lebih kaya membantu agen AI menghasilkan kueri dan interpretasi SQL yang lebih tepat, yang mengarah ke jawaban yang jauh lebih baik.
Pemahaman yang lebih baik bagi konsumen — Deskripsi dan metadata membantu semua pengguna di seluruh organisasi memahami kumpulan data apa yang terkandung dan cara menggunakannya dengan benar.
Skala metadata dari katalog eksternal — Pengunggahan File memungkinkan penulis untuk membawa metadata kaya dari alat katalog pihak ketiga dalam satu operasi, daripada memasukkan definisi kolom demi kolom secara manual.

Izin dan persyaratan

Penulis dan penulis profesional dengan lisensi Enterprise dapat memperkaya kumpulan data apa pun yang mereka miliki atau kelola.

Mengakses Pengayaan Dataset

Untuk mengakses Dataset Enrichment, selesaikan langkah-langkah berikut.

Simpan dataset Anda dalam pengalaman persiapan data.
Pilih tab Output.
Masukkan Deskripsi Set Data dan Petunjuk Kustom, atau unggah file metadata semantik.

Menulis instruksi kustom yang efektif

Instruksi Kustom adalah komponen yang paling berdampak dari Pengayaan Dataset. Mereka secara langsung memandu agen AI tentang cara menafsirkan dan menanyakan kumpulan data. Berikut ini adalah contoh instruksi kustom yang efektif dan tidak efektif.

Instruksi kustom yang baik

Contoh 1 - Dataset Pendapatan


This dataset contains net revenue after returns and discounts, calculated
on an accrual basis. Revenue is recognized at the point of sale for retail
transactions and upon delivery confirmation for B2B orders. All figures are
in USD. The 'revenue' column specifically excludes taxes, shipping fees,
and promotional credits. For year-over-year comparisons, use the
'fiscal_year' field rather than 'calendar_year' as our fiscal year runs
April–March.

Mengapa ini efektif:

Mengklarifikasi istilah yang ambigu (pendapatan bersih vs kotor)
Mendefinisikan metodologi perhitungan
Menentukan mata uang dan pengecualian
Memberikan panduan tentang cara menggunakan bidang tertentu dengan benar

Contoh 2 — Dataset Pelanggan


Customer status definitions: 'Active' = purchased within last 12 months;
'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months
inactive. The 'customer_segment' field uses RFM analysis (Recency,
Frequency, Monetary). 'Lifetime_value' is calculated as total historical
spend, not predictive LTV. When analyzing customer counts, always filter
out 'is_test_account = true' to exclude internal test data.

Mengapa ini efektif:

Mendefinisikan logika bisnis dan ambang batas
Menjelaskan akronim dan metodologi
Memperingatkan tentang pertimbangan kualitas data
Panduan penyaringan yang tepat untuk analisis yang akurat

Instruksi kustom yang tidak efektif

Contoh - Dataset Pelanggan


Contains customer information including names, addresses, purchase history,
and other details. Use this for customer analysis.

Mengapa tidak efektif:

Menjelaskan apa yang sudah jelas dari nama kolom
Tidak memberikan konteks atau definisi bisnis
Tidak menawarkan panduan tentang kualitas data, perhitungan, atau penggunaan yang tepat
Tidak membantu AI membedakan antara konsep serupa

Prinsip utama untuk menulis instruksi kustom yang baik

Klarifikasi ambiguitas — Tentukan istilah yang dapat memiliki banyak interpretasi.
Jelaskan logika bisnis — Perhitungan dokumen, ambang batas, dan kategorisasi.
Menyediakan konteks — Sertakan unit, periode waktu, mata uang, dan ruang lingkup.
Penggunaan panduan — Jelaskan bidang mana yang akan digunakan untuk analisis spesifik.
Peringatkan tentang kasus tepi - Perhatikan masalah kualitas data, catatan pengujian, atau kasus khusus.
Jadilah spesifik — Gunakan contoh konkret dan bahasa yang tepat.

Dua pendekatan untuk pengayaan semantik

UI-based Anotasi manual

Penulis kumpulan data secara langsung menambahkan deskripsi kumpulan data dan kolom serta instruksi khusus melalui antarmuka Quick Sight. Quick Sight menampilkan deskripsi secara jelas di UI, membantu semua pengguna memahami konten kumpulan data, definisi kolom, dan kasus penggunaan yang sesuai.

Unggah file dari katalog eksternal

Penulis kumpulan data dapat mengekspor metadata semantik dari katalog eksternal dan melampirkan file per kumpulan data dalam format YAMB, JSON, atau TXT melalui API atau UI. Meskipun informasi ini digunakan oleh model AI daripada ditampilkan di UI, ini memungkinkan metadata tingkat katalog dalam skala besar.

Lapisan konsumsi: Tanya Jawab Dataset

Tanya Jawab Dataset adalah lapisan konsumsi yang menggunakan metadata Pengayaan Dataset. Ini memungkinkan pengguna untuk mengajukan pertanyaan bahasa alami terbuka secara langsung terhadap kumpulan data yang dapat mereka akses - tanpa memerlukan dasbor pra-bangun atau topik yang dikonfigurasi secara manual.

Agen AI menggunakan konteks yang diperkaya dengan cara berikut:

Penemuan aset — Agen menggunakan deskripsi kumpulan data dan metadata semantik untuk mengidentifikasi kumpulan data yang tepat untuk pertanyaan pengguna.
Text-to-SQL pembuatan — Instruksi khusus, deskripsi kolom, dan metadata yang diunggah memandu AI dalam menghasilkan kueri SQL yang lebih akurat.
Tanggapan yang diatur — Semua tanggapan menghormati aturan Row-Level Keamanan (RLS) dan Column-Level Keamanan (CLS).

Tanpa pengayaan, agen AI hanya memiliki nama kolom dan tipe data untuk digunakan - yang seringkali ambigu. Dengan pengayaan, agen menerima konteks bisnis lengkap yang diperlukan untuk:

Singkirkan bidang dan konsep serupa
Terapkan perhitungan dan filter yang benar
Memahami ambang batas dan kategorisasi khusus bisnis
Kecualikan data uji dan tangani kasus tepi dengan tepat

Setelah Anda menambahkan konteks semantik ke kumpulan data, pengguna dapat mereferensikan kumpulan data dalam Tanya Jawab dan menanyakannya melalui obrolan. Agen AI mengkonsumsi metadata tambahan untuk memberikan respons yang lebih akurat.

Ringkasan

Dataset Enrichment menambahkan metadata semantik ke kumpulan data untuk analisis. AI-powered Dengan menginvestasikan beberapa menit dalam menambahkan deskripsi, instruksi khusus, dan file metadata, penulis kumpulan data dapat meningkatkan akurasi Tanya AI-powered Jawab sambil membuat kumpulan data mereka lebih mudah dipahami dan dapat diakses oleh setiap konsumen di seluruh organisasi.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pertanyaan umum

Menjelaskan data